如何从html表中获取值？

import urllib2 import urllib url = 'http://www.ebi.ac.uk/intact/' values = {'queryTxt':'Q9SUE8'} data = urllib.urlencode(values) req = urllib2.Request(url, data) response = urllib2.urlopen(req) the_page = response.read() print the_page

<tr> <td> <input id="mainPanels:columnSelection:3" type="checkbox" name="mainPanels:columnSelection" checked="checked" value="moleculeB.links" /> <label for="mainPanels:columnSelection:3"> Links 'B'</label> </td> </tr>

1条回答

网友

1楼 · 发布于 2024-10-04 05:20:46

我不确定您是否需要担心javascript。很可能是会话/隐藏的输入问题。在

但以下代码有效：

import mechanize
import re

b = mechanize.Browser()

# Visit search page
url = 'http://www.ebi.ac.uk/intact'
resp = b.open(url)
page = resp.read()

# Fill out and submit form
b.select_form(name="intactForm")
b["queryTxt"] = 'Q9SUE8'
resp = b.submit()
page = resp.read()

# Parse Page
matches = re.findall('<td role="gridcell" class="cellTextCompound"><div class="ui-dt-c"><a href=".*?" target="_blank">(.*?)</a>', page)

linksB = matches[0]
print linksB

输出：

^{pr2}$

注意，它需要mechanize模块（在Fedora repo中作为python-mechanize提供）。在

相关问题更多 >

编程相关推荐

热门问题

热门文章