需要使用python清理web刮取的数据

3条回答

网友

1楼 · 编辑于 2024-09-30 10:42:07

您使用.read_html的方式将返回所有表的列表。你的桌子在索引3

import pandas as pd

url = "http://goldpricez.com/gold/history/lkr/years-3"

df = pd.read_html(url)[3]

print(df)

.read_html调用URL，并使用BeautifulSoup解析引擎盖下的响应。您可以像在.read_csv中一样更改解析、表名、传递头。查看.read_html了解更多详细信息

对于速度，您可以使用lxml，例如pd.read_html(url, flavor='lxml')[3]。默认情况下，使用第二慢的html5lib。另一种口味是html.parser。这是他们中最慢的

网友

2楼 · 编辑于 2024-09-30 10:42:07

使用BeautifulSoup实现此目的，下面的代码可以完美地工作

import requests
from bs4 import BeautifulSoup
url = "http://goldpricez.com/gold/history/lkr/years-3"
r = requests.get(url)
s = BeautifulSoup(r.text, "html.parser")
data = s.find_all("td")
data = data[11:]
for i in range(0, len(data), 2):
    print(data[i].text.strip(), "      ", data[i+1].text.strip())

使用BeautifulSoup的另一个优点是，您的代码运行速度要快得多

网友

3楼 · 编辑于 2024-09-30 10:42:07

    import pandas as pd



   url = "http://goldpricez.com/gold/history/lkr/years-3"

   df = pd.read_html(url)# this will give you a list of dataframes from html

  print(df[3])

相关问题更多 >

编程相关推荐

热门问题

热门文章

需要使用python清理web刮取的数据

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >