Python中文
首页
教程
问答
标签
搜索
登录
注册
如何从任何网站上爬取表格并存储为数据框架?
回答此问题可获得
20
贡献值,回答如果被采纳可获得
50
分。
<p>我需要从<a href="https://en.wikipedia.org/wiki/List_of_postal_codes_of_Canada:_M" rel="nofollow noreferrer">https://en.wikipedia.org/wiki/List_of_postal_codes_of_Canada:_M</a>中删除一张桌子 并将这些数据存储在python数据帧中。 我拉过桌子,但无法选择列(邮政编码、自治区、邻里)</p> <p>我的桌子是这样的:</p> <pre><code><table class="wikitable sortable"> <tbody><tr> <th>Postcode</th> <th>Borough</th> <th>Neighbourhood </th></tr> <tr> <td>M1A</td> <td>Not assigned</td> <td>Not assigned </td></tr> <tr> <td>M2A</td> <td>Not assigned</td> <td>Not assigned </td></tr> <tr> <td>M3A</td> <td><a href="/wiki/North_York" title="North York">North York</a></td> <td><a href="/wiki/Parkwoods" title="Parkwoods">Parkwoods</a> </td></tr> <tr> <td>M4A</td> <td><a href="/wiki/North_York" title="North York">North York</a></td> <td><a href="/wiki/Victoria_Village" title="Victoria Village">Victoria Village</a> </td></tr> ... url = 'https://en.wikipedia.org/wiki/List_of_postal_codes_of_Canada:_M' response = requests.get(url) soup= BeautifulSoup(response.text, "html.parser") table = soup.find('table', {'class': 'wikitable sortable'}) df = [] for row in table.find_all('tr'): columns = row.find_all('td') Postcode = row.columns[1].get_text() Borough = row.columns[2].get_text() Neighbourhood = row.column[3].get_text() df.append([Postcode,Borough,Neighbourhood]) </code></pre> <p>用上面的代码我得到 TypeError:“NoneType”对象不可订阅</p> <p>我在谷歌上搜索了一下,才知道我做不到 邮编=行.列[1] .get\文本() 因为函数的内联属性。你知道吗</p> <p>我也尝试了其他方法,但得到了一些“索引错误消息”。你知道吗</p> <p>很简单。我需要遍历该行,继续为每行选取三列,并将其存储在列表中。但我不能用代码来写。你知道吗</p> <p>预期输出为</p> <pre><code> Postcode Borough Neighbourhood M1A Not assigned Not assigned M2A Not assigned Not assigned M3A North York Parkwoods </code></pre>
0 条评论
分类:
Python问答
请先
登录
后评论
默认排序
时间排序
1 个回答
匿名
1天前
擅长:python、mysql、java
<p>如果你想从网上刮一张桌子,你可以使用熊猫图书馆。你知道吗</p> <pre class="lang-py prettyprint-override"><code>import pandas as pd url = 'valid_url' df = pd.read_html(url) print(df[0].head()) </code></pre>
请先
登录
后评论
针对此问题:
更多的回答
关注
89
关注
收藏
1
收藏,
216
浏览
网友 提问于 2天前
相关Python问题
尽管Python中的所有内容都是引用,为什么Python导师在没有指针的列表中绘制字符串和整数?
10 回答
尽管python中的表达式为false,但循环仍在运行
6 回答
尽管python代码正确,但从nifi ExecuteScript处理器获取语法错误
8 回答
尽管Python在Neovim中工作得很好,但插件不能识别Neovim中的Python主机
8 回答
尽管python字典包含了大量的条目,但它并没有增长
4 回答
尽管python说模块存在,为什么我会得到这个消息?
2 回答
尽管setuptools和控制盘是最新的,但无法识别singleversionexternallymanaged
10 回答
尽管stdout和stderr重定向,但未捕获错误消息
3 回答
尽管Tensorboard的事件太大,但Tensorboard的步骤太少了
8 回答
尽管tkinter上的变量已更改,但显示未更改
8 回答
尽管try/except使用Python进行单元测试时出现断言错误
4 回答
尽管URL是sam,但仍会抛出“达到最大重定向”
9 回答
尽管url有效,Pandas仍读取url的\u csv错误
7 回答
尽管while中存在时间延迟,但LINUX线程的CPU利用率为100%(1)
3 回答
尽管x0在范围内,Scipy优化仍会引发ValueError
5 回答
尽管xpath正确,但使用selenium单击链接仍不起作用
6 回答
尽管下载了ffmpeg并设置了路径变量python,但没有后端错误
4 回答
尽管下载了i,但找不到型号“fr”
8 回答
尽管下载了plotnine包,但未获取名为“plotnine”的模块时出错
1 回答
尽管为所有行指定了权重,网格(0)仍不起作用
1 回答