Chinaunix首页 | 论坛 | 博客
  • 博客访问: 14971
  • 博文数量: 116
  • 博客积分: 0
  • 博客等级: 民兵
  • 技术积分: 1200
  • 用 户 组: 普通用户
  • 注册时间: 2020-11-26 14:30
文章分类

全部博文(116)

文章存档

2021年(36)

2020年(80)

我的朋友

分类: Python/Ruby

2021-01-08 16:05:11

  文本处理是经常会遇到的事情,涉及词性标注、句法分析、关键词提取等,那么你知道Python的文本处理工具有哪些吗?我们一起来看看吧。

  1、Jieba:最好的Python中文分词组件,其功能包含三种分词模式,精确模式、全模式、搜索索引模式,支持繁体分词,支持自定义词典等。

  2、NLTK:一个构建Python程序以使用人类语言数据的领先平台,被称为使用Python进行教学和计算机语言学工作的绝佳工具,以及用自然语言进行游戏的神奇读书馆。

  3、TextBlob:是一个用于处理文本数据的Python库,为潜入常见的自然语言处理任务提供一个简单的API。

  4、MBSP:是一个文本分析系统,基于CLiPS和ILK开发的基于TiMBL和MBT内存的学习应用程序,提供了用于标记化和句子分裂,词性标注,分块,词形还原,关系查找和介词短语附件的工具。

  5、Gensim:是一个免费的Python库,可扩展的统计语义、分析纯文本文档的语义结构、检查语义相似的文档。

  6、langid.py :是一个独立的语言标识工具。

  7、xTAS:是基于Celery的分布式文本分析套件,部分xTAS使用GPL许可软件。

  8、Pattern:是Python编程语言的WEB挖掘模块,具有数据挖掘工具、自然语言处理、机器学习、网络分析和可视化。

阅读(90) | 评论(0) | 转发(0) |
给主人留下些什么吧!~~