我可以从HTTP（s）octetstream读取拼花吗？

File "to_parquet_dask.py", line 153, in <module> main(*parser.parse_args()) File "to_parquet_dask.py", line 137, in main download_parquet( File "to_parquet_dask.py", line 121, in download_parquet dd.read_parquet( File "/home/bc30138/Documents/CODE/flexydrive/driver_style/.venv/lib/python3.8/site-packages/dask/dataframe/io/parquet/core.py", line 313, in read_parquet read_metadata_result = engine.read_metadata( File "/home/bc30138/Documents/CODE/flexydrive/driver_style/.venv/lib/python3.8/site-packages/dask/dataframe/io/parquet/fastparquet.py", line 733, in read_metadata parts, pf, gather_statistics, base_path = _determine_pf_parts( File "/home/bc30138/Documents/CODE/flexydrive/driver_style/.venv/lib/python3.8/site-packages/dask/dataframe/io/parquet/fastparquet.py", line 148, in _determine_pf_parts elif fs.isdir(paths[0]): File "/home/bc30138/Documents/CODE/flexydrive/driver_style/.venv/lib/python3.8/site-packages/fsspec/asyn.py", line 88, in wrapper return sync(self.loop, func, *args, **kwargs) File "/home/bc30138/Documents/CODE/flexydrive/driver_style/.venv/lib/python3.8/site-packages/fsspec/asyn.py", line 69, in sync raise result[0] File "/home/bc30138/Documents/CODE/flexydrive/driver_style/.venv/lib/python3.8/site-packages/fsspec/asyn.py", line 25, in _runner result[0] = await coro File "/home/bc30138/Documents/CODE/flexydrive/driver_style/.venv/lib/python3.8/site-packages/fsspec/implementations/http.py", line 418, in _isdir return bool(await self._ls(path)) File "/home/bc30138/Documents/CODE/flexydrive/driver_style/.venv/lib/python3.8/site-packages/fsspec/implementations/http.py", line 195, in _ls out = await self._ls_real(url, detail=detail, **kwargs) File "/home/bc30138/Documents/CODE/flexydrive/driver_style/.venv/lib/python3.8/site-packages/fsspec/implementations/http.py", line 150, in _ls_real text = await r.text() File "/home/bc30138/Documents/CODE/flexydrive/driver_style/.venv/lib/python3.8/site-packages/aiohttp/client_reqrep.py", line 1082, in text return self._body.decode(encoding, errors=errors) # type: ignore UnicodeDecodeError: 'utf-8' codec can't decode byte 0x90 in position 7: invalid start byte

Traceback (most recent call last): File "to_parquet_dask.py", line 161, in <module> main(*parser.parse_args()) File "to_parquet_dask.py", line 145, in main download_parquet( File "to_parquet_dask.py", line 128, in download_parquet dd.read_parquet( File "/home/bc30138/Documents/CODE/flexydrive/driver_style/.venv/lib/python3.8/site-packages/dask/dataframe/io/parquet/core.py", line 313, in read_parquet read_metadata_result = engine.read_metadata( File "/home/bc30138/Documents/CODE/flexydrive/driver_style/.venv/lib/python3.8/site-packages/dask/dataframe/io/parquet/fastparquet.py", line 733, in read_metadata parts, pf, gather_statistics, base_path = _determine_pf_parts( File "/home/bc30138/Documents/CODE/flexydrive/driver_style/.venv/lib/python3.8/site-packages/dask/dataframe/io/parquet/fastparquet.py", line 185, in _determine_pf_parts pf = ParquetFile( File "/home/bc30138/Documents/CODE/flexydrive/driver_style/.venv/lib/python3.8/site-packages/fastparquet/api.py", line 127, in __init__ raise ValueError("Opening directories without a _metadata requires" ValueError: Opening directories without a _metadata requiresa filesystem compatible with fsspec

@dask.delayed def parquet_from_http(url, token): result = requests.get( url, headers={'Authorization': token} ) return pd.read_parquet(io.BytesIO(result.content)) delayed_download = parquet_from_http(url, token) df = dd.from_delayed(delayed_download, meta=meta)

1条回答

网友

1楼 · 发布于 2024-10-02 18:28:32

这不是一个答案，但我相信fsspec中的以下更改将解决您的问题。如果您愿意尝试并确认，我们可以制作一个补丁

 - a/fsspec/implementations/http.py
+++ b/fsspec/implementations/http.py
@@ -472,7 +472,10 @@ class HTTPFileSystem(AsyncFileSystem):

     async def _isdir(self, path):
         # override, since all URLs are (also) files
-        return bool(await self._ls(path))
+        try:
+            return bool(await self._ls(path))
+        except (FileNotFoundError, ValueError):
+            return False

（如果这样便于安装，我们可以将其放在分支中）

-编辑-

第二个问题（在两个拼花引擎中都是一样的）源于服务器要么不提供文件的大小，要么不允许范围获取。拼花地板格式需要随机访问数据才能读取。解决这个问题的唯一方法（除了改进服务器）是在本地复制整个文件，例如，在URL前面加上“simplecache:：”

相关问题更多 >

编程相关推荐

热门问题

热门文章