中文分词工具
项目描述
解霸
“结巴”中文分词:做最好的Python中文分词组件
“Jieba”(中文为“口吃”)中文分词:构建为最好的Python中文分词模块。
完整文档见README.md
特点
支持分词模式:
句子合理文本,将展开最合理的切入,适合分析地
一句话,把中所有的模式都可以成词的词都扫描出来,速度非常快,不能解决歧义;
搜索引擎模式,在合理的基础上,对长词再次切分,提高搜索率,适合用于搜索引擎分词。
支持繁体分词
支持自定义词典
MIT 授权协议
安装说明
代码对 Python 2/3 小米智能
安装:easy_install jieba或者pip install jieba / pip3 install jieba
半自动安装:先下载https://pypi.python.org/pypi/jieba/,解压后运行 python setup.py install
手动安装:将jieba目录放置于当前目录或site-packages目录
通过import jieba来引用