pytablereader是一个python库,用于从各种数据格式的文件/字符串/url加载结构化表数据:csv/excel/google sheets/html/json/ldjson/ltsv/markdown/sqlite/tsv。
pytablereader的Python项目详细描述
Summary
pytablereader是一个python库,用于从各种数据格式的文件/字符串/url加载结构化表数据:csv/excel/google sheets/html/json/ldjson/ltsv/markdown/sqlite/tsv。
Features
- 从各种数据格式中提取结构化表格数据:
- csv/制表符分隔值(tsv)/空格分隔值(ssv)
- Microsoft ExcelTM文件
- Google Sheets
- HTML
- json
- Labeled Tab-separated Values (LTSV)
- Line-delimited JSON(LDJSON)/ndjson/json行
- 降价
- mediawiki
- sqlite数据库文件
- 支持的数据源是:
- 本地文件系统上的文件
- 可访问的URL
- str实例
- 加载的表数据可以用作:
- pandas.DataFrame实例
- dict实例
Examples
Load a CSV table
Sample Code: | ^{pr 1}$ |
---|---|
Output: | ^{pr 2}$ |
Get loaded table data as pandas.DataFrame instance
Sample Code: | ^{pr 3}$ |
---|---|
Output: | ^{pr 4}$ |
Installation
Install from PyPI
pip install pytablereader
有些格式需要附加依赖项包,您可以按如下方式安装依赖项包:
- 电子表格
- pip install pytablereader[excel]
- 谷歌表格
- pip install pytablereader[gs]
-
降价
- pip install pytablereader[md]
- 媒体维基
- pip install pytablereader[mediawiki]
- sqlite
- pip install pytablereader[sqlite]
- 从URL加载
- pip install pytablereader[url]
- 所有额外的依赖项
- pip install pytablereader[all]
Install from PPA (for Ubuntu)
sudo add-apt-repository ppa:thombashi/ppa sudo apt update sudo apt install python3-pytablereader
Dependencies
python 2.7+或3.5+
Optional Python packages
- logbook
- 如果安装了软件包,则使用日志簿进行日志记录
- 电子表格
-
降价
- 媒体维基
- sqlite
- pandas
- 需要将表数据作为pandas数据帧获取
- simplejson
- lxml
Optional packages (other than Python packages)
- libxml2(更快的html转换)
- pandoc(加载mediawiki文件时需要)