如何用BeautifulSoup抓取<tr>内特定<td>

from bs4 import BeautifulSoup from urllib2 import urlopen NYC = 'https://en.wikipedia.org/wiki/List_of_high_schools_in_New_York_City' html = urlopen(NYC) soup = BeautifulSoup(html.read(), 'lxml') schooltable = soup.find('table') for td in schooltable: print(td)

2条回答

网友

1楼 · 编辑于 2024-09-29 23:18:05

我还通过查找<td>中的所有锚定，然后查找标题来做到这一点：

titles = next(
    i.get('title') for i in [
        td.find('a') for td in soup.findAll('td') if td.find('a') is not None
        ]

网友

2楼 · 编辑于 2024-09-29 23:18:05

不如获取页面上的第一个table，遍历除第一个标题之外的所有行，并为每一行获取第一个td元素。为我工作：

for row in soup.table.find_all('tr')[1:]:
    print(row.td.text)

编程相关推荐

使用SeleniumWebDriver（又称Selenium2.0）JAVA向下滚动鼠标
java获取与消费者组kafka关联的主题列表
java在现实生活中，您什么时候会使用堆栈而不是常规链表，或者使用常规队列而不是优先级队列？
java实际参数列表和形式参数列表的长度不同（但两种长度都是2？）
默认情况下，Lucene（java框架）是否根据术语计算文档的tfidf和余弦相似性？
java编辑XML样式表更改Android中的按钮
java在Eclipse4中从处理程序更新视图
java是节点列表、数组、列表还是其他什么？
java Hibernate查询问题
java Spark在并行化列表时引发ArrayIndexOutOfBoundsException

相关问题更多 >

编程相关推荐

热门问题

热门文章

如何用BeautifulSoup抓取<tr>内特定<td>

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >