我正在使用这个网站https://www.pealim.com/dict/?page=1。所以我基本上想知道希伯来语的单词和发音
下面是我的代码,它在所有td标记中循环,但是,它产生完全相同的输出,即下面的{'latin': 'av', 'hebrew': u'\u05d0\u05b8\u05d1'}
,并且此代码仅用于page=1
。我想知道是否有任何自动的方式来循环通过每一页
import requests
from lxml import etree
resp = requests.get("https://www.pealim.com/dict/?page=1")
htmlparser = etree.HTMLParser()
tree = etree.fromstring(resp.text, htmlparser)
for td in tree.xpath('//*//table[@class="table table-hover dict-table-t"]/tbody/tr'):
print(td)
data = {
'hebrew': td.xpath('string(//span[@class="menukad"])'),
'latin': td.xpath('string(//span[@class="dict-transcription"])'),
}
print(data)
我想收集在该网站的每一个条目的信息。请让我知道我能做什么来实现这一点
印刷品:
Andrej击败了我,但是你也可以使用
.find()
和.get_text()
的BeautifulSoup
方法:产生基本相同的结果
相关问题 更多 >
编程相关推荐