从数据库系统上传和下载数据的Python库
snowp的Python项目详细描述
雪碧
当前版本:SnowPy[v0.1.3]
SnowPy-一个Python库,作为数据网关为机器学习项目提供服务
“SnowPy”是一个Python库,为 帮助上传和下载来自不同来源的数据,包括数据库系统 例如Microsoft SQL Server、Snowflake(更多信息)、电子邮件服务器、数据文件, 图像和声音文件。 “SnowPy”的功能最初是作为MLToolKit项目的数据工具实现的 (https://mltoolkit.github.io/MLToolKit)。因此,“SnowPy”与共享函数 “PyMLToolKit”和“TextLab”正在MLToolKit项目下开发。在
/^^^^^^^\
/- -\
| O O |
|_ o _| /-----------\
\ U / < Woof! Woof! )
|=====| \-----------/
简介
“SnowPy”是一个Python库,提供了一组用户友好的函数来帮助您 从不同来源上传和下载数据,包括数据库系统, 电子邮件,数据文件和更多。在
安装
^{pr2}$如果安装因依赖性问题而失败,请使用--no dependencies执行上述命令
pip install SnowPy --no-dependencies
功能
使用
importsnowpy
警告:Python变量、函数或类名
Python解释器有许多内置函数。在编写代码时,可以重写这些定义,而不会引起Python interwriter的任何警告。(https://docs.python.org/3/library/functions.html) 因此,避免将这些名称作为变量、函数或类名。在
abs | all | any | ascii | bin | bool | bytearray | bytes |
callable | chr | classmethod | compile | complex | delattr | dict | dir |
divmod | enumerate | eval | exec | filter | float | format | frozenset |
getattr | globals | hasattr | hash | help | hex | id | input |
int | isinstance | issubclass | iter | len | list | locals | map |
max | memoryview | min | next | object | oct | open | ord |
pow | property | range | repr | reversed | round | set | |
setattr | slice | sorted | staticmethod | str | sum | super | tuple |
type | vars | zip | __import__ |
如果您继续重写任何内置函数(例如list),请执行以下操作以引入内置定义。在
del(list)
功能
|- MSSQL
| |- execute_mssql_query
| |- read_data_mssql
| |- write_data_mssql
| |- read_data_mssql_bcp
| |- write_data_mssql_bcp
| |- get_database_list
| |- get_database_usage_report
|- MySQL
| |- To be integrated...
|- Snowflake
| |- execute_snowflake_sql_query
| |- read_data_snowflake
| |- write_data_snowflake
|- CSV
| |- read_data_csv
| |- write_data_csv
|- EMAIL
| |- read_email_eml
| |- fetch_emails_ews
| |- read_email_ews
| |- save_ews_to_eml
|- DOCUMENTS
| |- convert_document_file_to_text
| |- create_document_image_table
| |- process_docuement_image_table
...
雪白的例子
# to be posted soon
数据加载
# to be posted soon
许可证
Copyright 2019 Sumudu Tennakoon
Licensed under the Apache License, Version 2.0 (the "License");
you may not use this file except in compliance with the License.
You may obtain a copy of the License at
http://www.apache.org/licenses/LICENSE-2.0
Unless required by applicable law or agreed to in writing, software
distributed under the License is distributed on an "AS IS" BASIS,
WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
See the License for the specific language governing permissions and
limitations under the License.
引用为
@misc{SnowPy2019,
author = "Sumudu Tennakoon",
title = "SnowPy: A Python library to upload and download data from database systems",
year = 2019,
publisher = "GitHub",
howpublished = {\url{https://mltoolkit.github.io/SnowPy/}},
version = "0.1.3"
}
雪域项目时间表
- 2018-07-02[v0.0.1]:初始化MLToolKit项目。在
- 2019-07-02[v0.0.1]:Snowpy函数首次作为MLToolKit项目的etl工具发布(https://mltoolkit.github.io/MLToolKit/)。在
- 2019-07-02[v0.1.0]:SnowPy作为独立包首次发布。在
- 2019-11-11[v0.1.1]:错误修复和增强。在
- 2019-11-16[v0.1.2]:错误修复,集成MSSQL BCP支持。在
- 2019-12-22[v0.1.3]:修复错误,集成OCR和电子邮件数据扩展功能(来自TextLab)。在
未来发布计划
- 声音文件[v0.1]:数据支持。在
- TBD[v0.1.5]:集成数据交换服务器。在
- TBD[v0.1.6]:集成MySQL支持。在
- TBD[v0.1.7]:综合文件
参考文献
- https://pandas.pydata.org/
- https://docs.snowflake.net/manuals/user-guide/python-connector.html
- https://www.numpy.org/
- https://docs.python.org/3.6/library/re.html
- http://json.org/
- https://www.sqlalchemy.org/
- https://docs.microsoft.com/en-us/sql/tools/bcp-utility
- https://github.com/mkleehammer/pyodbc/wiki
- https://github.com/tesseract-ocr/tesseract
- https://github.com/madmaze/pytesseract
- https://www.ghostscript.com/
- https://pillow.readthedocs.io/en/5.1.x/handbook
- https://github.com/ecederstrand/exchangelib
- https://docs.python.org/3/library/email.html
- 项目
标签: