我学习刮擦的第一次尝试。我想知道美国国会议员的正式名字。在
我成功地做了一个帖子——response.content
确实是完整的html字符串。但不知何故lxml
和{
下面是一个简短的示例,在this site上搜索姓氏“Waxman”。我想要的结果是这个人的全名,如表中所示。我确实检查了名称上的Element>;copy XPATH。在
from lxml import html
import requests
shortname = 'WAXMAN'
state = 'California'
chamber = 'House'
url = 'http://bioguide.congress.gov/biosearch/biosearch1.asp'
formData = {'lastname': shortname}
response = requests.post(url, data=formData)
tree = html.fromstring(response.content)
print tree.xpath('/html/body/center/table/tbody/tr[1]/td[1]/a/text()')
我在beauthulsoup上的尝试也没有成功,但我对这个软件包不太熟悉。在
^{pr2}$
您可以将表达式简化为:
结果生成
['WAXMAN, Henry Arnold']
正在打印。在相关问题 更多 >
编程相关推荐