我想从网站上删除电子邮件地址

# -*- coding: utf-8 -*- import scrapy from ..items import ChurchItem class ChurchSpiderSpider(scrapy.Spider): name = 'church_spider' page_number = 1 start_urls = ['https://www.united-church.ca/search/locator/all?keyw=&mission_units_ucc_ministry_type_advanced=10&locll='] def parse(self, response): items = ChurchItem() container = response.css(".icon-ministry") for t in container: church_name = t.css(".field-name-locator-ministry-title a::text").extract() church_phone = t.css(".field-name-field-phone::text").extract() church_address = t.css(".thoroughfare::text").extract() church_email = t.css(".field-name-field-mu-email span::text").extract() items["church_name"] = church_name items["church_phone"] = church_phone items["church_address"] = church_address items["church_email"] = church_email yield items # next_page = 'https://www.united-church.ca/search/locator/all?keyw=&mission_units_ucc_ministry_type_advanced=10&locll=&page=' + str(ChurchSpiderSpider.page_number) # if ChurchSpiderSpider.page_number <= 110: # ChurchSpiderSpider.page_number += 1 # yield response.follow(next_page, callback=self.parse)

2条回答

网友

1楼 · 编辑于 2024-09-29 16:25:37

你可以尝试使用Selenium进行webscraping，我尝试了这个代码，它给出了完美的结果。你知道吗

from selenium import webdriver
from bs4 import BeautifulSoup


driver = webdriver.Chrome("chromedriver")
driver.get("https://www.united-church.ca/search/locator/all?keyw=&mission_units_ucc_ministry_type_advanced=10&locll=")

content = driver.page_source
soup = BeautifulSoup(content)

for all_emails in soup.find_all('a',class_="spamspan"):
    print(all_emails.text)

结果：

alpcharge@sasktel.net
guc-eug@bellnet.ca
pioneerpastoralcharge@gmail.com
acmeunitedchurch@gmail.com
cmcphers@lakeheadu.ca
mbm@kos.net
tommaclaren@gmail.com
agassizunited@shaw.ca
buchurch@xplornet.com
dmitchell008@yahoo.ca
karen.charlie62@gmail.com
trinityucbdn@westman.wave.ca
gepc.ucc.mail@gmail.com
monacampbell181@gmail.com
herbklaehn@gmail.com

网友

2楼 · 编辑于 2024-09-29 16:25:37

使用靓汤

获取电子邮件的一个简单方法是使用class=field-name-field-mu-email'查找div，然后将odd显示替换为适当的电子邮件格式。你知道吗

例如：

from bs4 import BeautifulSoup
url = 'https://www.united-church.ca/search/locator/all?keyw=&mission_units_ucc_ministry_type_advanced=10&locll='

r = requests.get(url)
soup = BeautifulSoup(r.text, 'html.parser')

for div in soup.findAll('div', attrs={'class': 'field-name-field-mu-email'}):
    print (div.find('span').text.replace(' [at] ', '@'))

Out[1]:
alpcharge@sasktel.net
guc-eug@bellnet.ca
pioneerpastoralcharge@gmail.com
acmeunitedchurch@gmail.com
cmcphers@lakeheadu.ca
mbm@kos.net
tommaclaren@gmail.com
agassizunited@shaw.ca
buchurch@xplornet.com
dmitchell008@yahoo.ca
karen.charlie62@gmail.com
trinityucbdn@westman.wave.ca
gepc.ucc.mail@gmail.com
monacampbell181@gmail.com
herbklaehn@gmail.com

相关问题更多 >

编程相关推荐

热门问题

热门文章