如何在pandas数据帧中从网页读取所有csv文件

import glob path ='https://s3.amazonaws.com/tripdata' # use your path allFiles = glob.glob(path + "/*citibike-tripdata.csv.zip") frame = pd.DataFrame() list_ = [] for file_ in allFiles: df = pd.read_csv(file_, index_col=None, header=0) list_.append(df) frame = pd.concat(list_)

1条回答

网友

1楼 · 发布于 2024-06-28 11:04:08

模块glob用于在运行Python的同一系统上查找与模式匹配的路径名，并且它无法索引托管web服务器的任意文件（这甚至是先验的）。在您的例子中，由于https://s3.amazonaws.com/tripdata/提供了所需的索引，您可以解析该索引以获得相关文件：

import re
import requests

url = 'https://s3.amazonaws.com/tripdata/'
t = requests.get(url).text
filenames = re.findall('[^>]+citibike-tripdata\.csv\.zip', t)
frame = pd.concat(pd.read_csv(url + f) for f in filenames)

编程相关推荐

java垂直解析txt文件
如何在从ovf部署vm时使用vi java api指定IP地址？
使用部分密钥进行java AES256解密
我无法接收RESTJava ws作为JSONObject发送到我的安卓应用程序的布尔值
java以下同步块的目的是什么？
java小部件在进入应用程序时停止更新
java如何在Okhttp中使用Socks5代理来启动http请求
java Android多资源库项目
java使用条形码4J创建gif条形码
java Play测试数据持久性问题使用GET时，发布的数据不可用

相关问题更多 >

编程相关推荐

热门问题

热门文章

如何在pandas数据帧中从网页读取所有csv文件

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >