从文本中生成ngram和单词包表示的简单包。
text2math的Python项目详细描述
一个简单的包,用于演示python中的基本自然语言处理(nlp)特性工程。
##更多信息:
###实践数据集
[堆栈交换数据转储](https://archive.org/details/stackexchange)
###文本编码
[绝对最小每个软件开发人员绝对肯定必须知道Unicode和字符集(没有借口!) 作者joel spolsky](http://www.joelonsoftware.com/articles/Unicode.html)
####套餐
- [`chardet`](https://pypi.python.org/pypi/chardet)-python 2和3的通用编码检测器
- [`cchardet`](https://pypi.python.org/pypi/cchardet/1.0.0)-通用编码检测器。这个库比chardet快
- [`ftfy`](http://ftfy.readthedocs.org/en/latest/)-为您修复文本
- [`unidecode`](https://pypi.python.org/pypi/Unidecode)-unicode文本的ascii音译
###自然语言处理
[关注和提供主题模型:问题、诊断和改进](http://www.people.fas.harvard.edu/~airoldi/pub/books/b02.AiroldiBleiEroshevaFienberg2014HandbookMMM/Ch12_MMM2014.pdf)
###python中的函数式编程
[python中的函数式编程检查python的功能方面:哪些选项工作良好,哪些选项应该避免 作者:David Mertz](https://www.oreilly.com/ideas/functional-programming-in-python)
####套餐
- [`toolz`](http://toolz.readthedocs.org/en/latest/)-toolz为迭代器、函数和字典提供一组实用函数。
- [`functools`](https://docs.python.org/2/library/functools.html#module-functools)-可调用对象上的高阶函数和操作。
- [`itertools`](https://docs.python.org/2/library/itertools.html#module-itertools)-创建迭代器以实现高效循环的函数。