用于从文本生成 ngram 和词袋表示的简单包。
项目描述
一个简单的包,旨在用于演示 Python 中的基本自然语言处理 (NLP) 特征工程。
## 更多信息:
### 练习数据集
[堆栈交换数据转储]( https://archive.org/details/stackexchange )
### 文本编码
[每个软件开发人员绝对、肯定必须了解 Unicode 和字符集(没有借口!) ,作者 Joel Spolsky](http://www.joelonsoftware.com/articles/Unicode.html)
#### 包
[ `chardet` ]( https://pypi.python.org/pypi/chardet ) - Python 2 和 3 的通用编码检测器
[ `cchardet` ]( https://pypi.python.org/pypi/cchardet/1.0.0 ) - 通用编码检测器。这个库比 chardet 快
[ `ftfy` ]( http://ftfy.readthedocs.org/en/latest /#) - 为您修复文本
[ `unidecode` ]( https://pypi.python.org/pypi/Unidecode ) - Unicode 文本的 ASCII 音译
### 自然语言处理
[主题模型的护理和喂养:问题、诊断和改进](http://www.people.fas.harvard.edu/~airoldi/pub/books/b02.AiroldiBleiEroshevaFienberg2014HandbookMMM/Ch12_MMM2014.pdf)
### Python 中的函数式编程
[ Python 中的函数式编程 检查 Python 的函数方面:哪些选项效果很好,哪些选项应该避免使用 David Mertz]( https://www.oreilly.com/ideas/functional-programming-in-python )
#### 包
[ `toolz` ]( http://toolz.readthedocs.org/en/latest/ ) - Toolz 为迭代器、函数和字典提供了一组实用函数。
[ `functools` ]( https://docs.python.org/2/library/functools.html#module-functools ) - 可调用对象的高阶函数和操作。
[ `itertools` ]( https://docs.python.org/2/library/itertools.html#module-itertools ) - 创建迭代器以实现高效循环的函数。