我试图从以下站点获取信息:http://www.ebi.ac.uk/intact/,然后搜索Q9SUE8。使用urllib可以获得页面的html:
import urllib2
import urllib
url = 'http://www.ebi.ac.uk/intact/'
values = {'queryTxt':'Q9SUE8'}
data = urllib.urlencode(values)
req = urllib2.Request(url, data)
response = urllib2.urlopen(req)
the_page = response.read()
print the_page
从浏览器中搜索Q9SUE8时,结果如下表所示:
^{pr2}$我要提取值Q96300。我可以在html中找到列标题:
<tr>
<td>
<input id="mainPanels:columnSelection:3" type="checkbox" name="mainPanels:columnSelection" checked="checked" value="moleculeB.links" />
<label for="mainPanels:columnSelection:3"> Links 'B'</label>
</td>
</tr>
我不熟悉html,但我猜Q96300来自value=“分子链". 我怎样才能得到这个价值?在
我不确定您是否需要担心javascript。很可能是会话/隐藏的输入问题。在
但以下代码有效:
输出:
^{pr2}$注意,它需要mechanize模块(在Fedora repo中作为
python-mechanize
提供)。在相关问题 更多 >
编程相关推荐