如何使用Python从网页中提取表的内容？问题的回答

如何使用Python从网页中提取表的内容？

回答此问题可获得 20 贡献值，回答如果被采纳可获得 50 分。

0 条评论
分类：Python问答

默认排序时间排序

1 个回答

匿名 1天前

　擅长：python、mysql、java

您可以使用beautifulsoup获取所有链接 <pre><code>from bs4 import BeautifulSoup import requests import pandas as pd url = 'https://www.nhc.noaa.gov/gis/' res = requests.get(url) soup = BeautifulSoup(res.text, "html.parser") table = soup.find("table") for anchor in table.find_all("a"): print("Text - {}, Link - {}".format(anchor.get_text(strip=True), anchor["href"])) </code></pre> 输出： <pre><code>Text - Irma Example, Link - /gis/examples/al112017_5day_020.zip Text - Cone, Link - /gis/examples/AL112017_020adv_CONE.kmz Text - Track, Link - /gis/examples/AL112017_020adv_TRACK.kmz Text - Warnings, Link - /gis/examples/AL112017_020adv_WW.kmz Text - shp, Link - forecast/archive/al092020_5day_latest.zip Text - Cone, Link - /storm_graphics/api/AL092020_CONE_latest.kmz Text - Track, Link - /storm_graphics/api/AL092020_TRACK_latest.kmz Text - Warnings, Link - /storm_graphics/api/AL092020_WW_latest.kmz </code></pre> 如果要保留数据帧，请不要通过<code>read_html</code>再次进行网络调用。重用响应对象 <pre><code>df = pd.read_html(res.text) </code></pre> 要获得完整的链接，请将以下内容附加到所有链接 <pre><code>https://www.nhc.noaa.gov </code></pre> 代码： <pre><code>for anchor in table.find_all("a"): print("Text - {}, Link - {}".format(anchor.get_text(strip=True), prefix + anchor["href"])) </code></pre> 输出： <pre><code>Text - Irma Example, Link - https://www.nhc.noaa.gov/gis/examples/al112017_5day_020.zip Text - Cone, Link - https://www.nhc.noaa.gov/gis/examples/AL112017_020adv_CONE.kmz Text - Track, Link - https://www.nhc.noaa.gov/gis/examples/AL112017_020adv_TRACK.kmz Text - Warnings, Link - https://www.nhc.noaa.gov/gis/examples/AL112017_020adv_WW.kmz Text - shp, Link - https://www.nhc.noaa.govforecast/archive/al092020_5day_latest.zip Text - Cone, Link - https://www.nhc.noaa.gov/storm_graphics/api/AL092020_CONE_latest.kmz Text - Track, Link - https://www.nhc.noaa.gov/storm_graphics/api/AL092020_TRACK_latest.kmz Text - Warnings, Link - https://www.nhc.noaa.gov/storm_graphics/api/AL092020_WW_latest.kmz </code></pre> 要下载文件，请再次使用<code>requests</code>并下载文件

如何使用Python从网页中提取表的内容？

1 个回答

相关Python问题