使用scraply训练提取href属性 - 问答 - Python中文网

使用scraply训练提取href属性

2024-10-01 07:21:13 发布

您现在位置：Python中文网/ 问答频道 /正文

男 | 程序猿一只，喜欢编程写python代码。

我使用Scrapely从HTML中提取数据字段。使用^{cd1>}然后^{cd2>}每个文档无法从链接中提取^{{cd3>}属性。是否有类似于从元素中提取文本的方式提取href属性的方法？

from scrapely import Scraper
s = Scraper()

url1 = 'http://pypi.python.org/pypi/w3lib/1.1'
data = {'vers_url': 'https://pypi.python.org/pypi/w3lib/1.14.2'}
s.train(url1, data)

url2 = 'http://pypi.python.org/pypi/Django/1.3'
print(s.scrape(url2)) 
# Prints {u'vers_url': [u'\n<span>1.10a1</span>\n']}], should print a url

在上面的培训示例中，给定的url是该页面上^{cd5>}标记的唯一^{cd3>}属性，因此我希望算法能够学会找到它。

Tags： org pypi http url data 属性 scraper span

0条回答

目前没有回答

相关问题更多 >

编程相关推荐

热门问题

热门文章