擅长:python、mysql、java
<p>嗨,我看了一下。在我看来,找到你想要的每一条信息的路径可能会更好,因为它拾取了你可能不想要的其他东西。我编辑以逗号分隔,并删除了条,但仍然存在一些小问题</p>
<pre><code>from bs4 import BeautifulSoup
import urllib.request # web access
import csv
import re
url = "https://wsc.nmbe.ch/family/87/Senoculidae"
page = urllib.request.urlopen(url) # conntect to website
try:
page = urllib.request.urlopen(url)
except:
print("Ups!")
soup = BeautifulSoup(page, 'html.parser')
#regex = re.compile('^speciesTitle')
for div in soup.find_all('div', attrs={'class': "speciesTitle"}):
con = div.get_text(',',strip=True).split("\n")[0].replace('|,|','')
print(con)
</code></pre>