Python karld包_程序模块 - PyPI

以节省内存的方式处理一些数据

karld的Python项目详细描述

如何数据

拆分数据。
创建一个将数据作为迭代器的生成器，生成键和值对。
按键对每个键/值对列表进行排序。
使用heap按键合并键/值对列表。
按键对键/值对分组。
将每个键分组的值减少到一个值，从而产生一个键/值对。

您可以使用密钥函数代替密钥，只要它生成在映射排序合并组阶段中使用相同的键。

分割数据

使用分割文件分割数据文件或使用分割csv文件分割可能有多行字段以确保它们不被拆分的csv文件。：

import os

import karld

big_file_names = [
    "bigfile1.csv",
    "bigfile2.csv",
    "bigfile3.csv"
]

data_path = os.path.join('path','to','data', 'root')


def main():
    for filename in big_file_names:
        # Name the directory to write the split files into based
        # on the name of the file.
        out_dir = os.path.join(data_path, 'split_data', filename.replace('.csv', ''))

        # Split the file, with a default max_lines=200000 per shard of the file.
        karld.io.split_csv_file(os.path.join(data_path, filename), out_dir)


if __name__ == "__main__":
    main()

当您生成数据并希望根据数量将其分片到文件时，请使用拆分输出函数之一，如split_file_output_csv、split_file_output或 split_file_output_json：

import os
import pathlib

import karld


def main():
    """
    Python 2 version
    """

    items = (str(x) + os.linesep for x in range(2000))

    out_dir = pathlib.Path('shgen')
    karld.io.ensure_dir(str(out_dir))

    karld.io.split_file_output('big_data', items, str(out_dir))


if __name__ == "__main__":
    main()

CSV可序列化数据：

import pathlib

import karld


def main():
    """
    From a source of data, shard it to csv files.
    """
    if karld.is_py3():
        third = chr
    else:
        third = unichr

    # Your data source
    items = ((x, x + 1, third(x + 10)) for x in range(2000))

    out_dir = pathlib.Path('shard_out_csv')

    karld.io.ensure_dir(str(out_dir))

    karld.io.split_file_output_csv('big_data.csv', items, str(out_dir))


if __name__ == "__main__":
    main()

JSON可序列化数据行：

import pathlib

import karld


def main():
    """
    From a source of data, shard it to csv files.
    """
    if karld.is_py3():
        third = chr
    else:
        third = unichr

    # Your data source
    items = ((x, x + 1, third(x + 10)) for x in range(2000))

    out_dir = pathlib.Path('shard_out_json')

    karld.io.ensure_dir(str(out_dir))

    karld.io.split_file_output_json('big_data.json', items, str(out_dir))


if __name__ == "__main__":
    main()

文档

阅读文档：http://karld.readthedocs.org/en/latest/

已在http://karld.readthedocs.org/en/latest/getting-started.html展开“入门”。

更多的例子记录在http://karld.readthedocs.org/en/latest/source/example.html。查看示例文件的源，例如…

贡献：

在这里提交任何问题：https://github.com/johnwlockwood/karl_data/issues。

向development的分支发出pull请求: https://github.com/johnwlockwood/karl_data.
documentation是用structuredtext编写的，当前使用: 狮身人面像风格列表http://sphinx-doc.org/domains.html#info-field-lists

查看关闭的pull请求，查看开发流程对master的每个更改都是通过github上的pull请求完成的。代码评审是受欢迎的，即使是合并的请求。请随意提问密码。

欢迎加入QQ群-->： 979659372

推荐PyPI第三方库

导航栏
项目描述
版本历史
下载文件
项目链接
首页
标签
许可证: BSD许可证（BSD 3条款）
作者信息:: 暂无
维护者
johnwlockwoodiv
最新PyPI项目
italian_vip_says
UFx
vofs
fake_item_generator
NerEva
django-monologue
fio_product_attribute_strict
climailsystem
pyshape
tbb-devel
npy-append-arra
anthill.tal.macrorenderer
odoo11-addon-stock-a
uuuu
contextil
fyl_nester
appomatic_renderable
teacher
chuletas
slackbot_ce
最新Python常见问题
如何重塑数组、迭代列的所有行并将重塑后的数组分配给新列？Python/Pandas/Numpy
如何重塑数组的形状？
如何重塑文本数据以适应keras的LSTM模型
如何重塑未对齐的数据集，并使用numpy丢弃剩余数据？
如何重塑此数据以使用绘图
如何重塑此数据帧？
如何重塑此数据集以适应RNN
如何重塑没有列的数组？
如何重塑测试数据帧，使其维数与训练和预测工作中使用的维数相同？
如何重塑系列以在StandardScaler中使用它
如何重塑线性回归的数据
如何重塑线性回归的数据？
如何重塑表格？
如何重塑要堆叠的重复宽数据帧？
如何重塑输入以放入二维层？

karld 0.3.1

karld的Python项目详细描述

如何数据

分割数据

文档

贡献：

推荐PyPI第三方库

supra-dist

requirementsdevtxt

RestClient4p

morph-tool

oring

skimage-encoder-v2

frenox-thread-utils

nanomonsv

fti-fomp

bxpython

distributions-davidtest

tureng

fp-NGFW-SMC-python

distributions-cloudpiece

backend-library-createquestions

导航栏

项目链接

标签

维护者

最新PyPI项目

最新Python常见问题

karld 0.3.1

karld的Python项目详细描述

如何数据

分割数据

文档

贡献：

推荐PyPI第三方库

supra-dist

requirementsdevtxt

RestClient4p

morph-tool

oring

skimage-encoder-v2

frenox-thread-utils

nanomonsv

fti-fomp

bxpython

distributions-davidtest

tureng

fp-NGFW-SMC-python

distributions-cloudpiece

backend-library-createquestions

导 航 栏

项目 链接

标 签

维护者

最新PyPI项目

最新Python常见问题

导航栏

项目链接

标签