更多python、Linux、网络安全学习内容,可移步:www.oldboyedu.com或关注\"老男孩Linux\"公众号
分类: Python/Ruby
2021-01-08 16:05:07
文本处理是经常会遇到的事情,涉及词性标注、句法分析、关键词提取等,那么你知道Python的文本处理工具有哪些吗?我们一起来看看吧。
1、Jieba:最好的Python中文分词组件,其功能包含三种分词模式,精确模式、全模式、搜索索引模式,支持繁体分词,支持自定义词典等。
2、NLTK:一个构建Python程序以使用人类语言数据的领先平台,被称为使用Python进行教学和计算机语言学工作的绝佳工具,以及用自然语言进行游戏的神奇读书馆。
3、TextBlob:是一个用于处理文本数据的Python库,为潜入常见的自然语言处理任务提供一个简单的API。
4、MBSP:是一个文本分析系统,基于CLiPS和ILK开发的基于TiMBL和MBT内存的学习应用程序,提供了用于标记化和句子分裂,词性标注,分块,词形还原,关系查找和介词短语附件的工具。
5、Gensim:是一个免费的Python库,可扩展的统计语义、分析纯文本文档的语义结构、检查语义相似的文档。
6、langid.py :是一个独立的语言标识工具。
7、xTAS:是基于Celery的分布式文本分析套件,部分xTAS使用GPL许可软件。
8、Pattern:是Python编程语言的WEB挖掘模块,具有数据挖掘工具、自然语言处理、机器学习、网络分析和可视化。