下面是要刮取的url
https://www.agtta.co.in/individuals.php
我需要提取姓名、手机号码和电子邮件
之后我需要保存到csv中
我能用下面的代码刮取完整的数据
下面是使用用户代理提取的代码
from bs4 import BeautifulSoup
import urllib.request
urls=['https://www.agtta.co.in/individuals.php']
for url in urls:
req = urllib.request.Request(
url,
headers={
'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_9_3) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/35.0.1916.47 Safari/537.36'
}
)
resp= urllib.request.urlopen(req)
soup = BeautifulSoup(resp, from_encoding=resp.info().get_param('charset'),features='html.parser')
scrape_data = soup.find('section', class_='b-branches')
to_list = scrape_data .find_all_next(string=True)
我试过了
for biz in results:
#print(biz)
title = biz.findAll('h3', {'class': 'b-branches__title ui-title-inner ui-title-inner_lg'})
print (title)
我得到了[<h3 class="b-branches__title ui-title-inner ui-title-inner_lg">SHRI RAMESHBHAI P. SAKARIYA</h3>]
提取如何删除标记时,标记出现
我的预期出局了
Name, Mobilenumber, Email
A, 333, mm@gmail.com`
以下是执行此操作的完整代码:
输出:
希望这有帮助
相关问题 更多 >
编程相关推荐