擅长:python、mysql、java
<p>这段代码应该能让你开始。在</p>
<pre><code>import urllib2
from bs4 import BeautifulSoup
doctors = ['thomas']
for doctor in doctors:
try:
page = urllib2.urlopen("http://www.coimbatore.com/doctors/{}.htm".format(doctor))
soup = BeautifulSoup(page)
except urllib2.HTTPError:
continue
rows = soup.find("table", cellspacing=0).find_all('tr')
for row in rows:
cols = row.find_all('td')
print "%s: %s" % (cols[0].get_text().replace('\n', ' '), cols[1].get_text().replace('\n', ' '))
</code></pre>
<p>它的输出是</p>
^{pr2}$
<p>一些注意事项,你可能希望以不同的方式处理。我用空格替换了所有换行符(<code>\n</code>),因为代码有奇怪的换行符,如下所示:</p>
<pre><code><td><b><font face="Arial,Helvetica"><font color="#0000FF"><font size=-1>Name
of Doctor</font></font></font></b></td>
</code></pre>
<p>请注意,它强制在<code>Name</code>和<code>of</code>之间断开。在</p>
<p>如果您正试图从中生成一个CSV,那么可以很容易地修改脚本,使其只提取每行上的第二个单元格。在</p>