Chinaunix首页 | 论坛 | 博客
  • 博客访问: 1890401
  • 博文数量: 606
  • 博客积分: 9991
  • 博客等级: 中将
  • 技术积分: 5725
  • 用 户 组: 普通用户
  • 注册时间: 2008-07-17 19:07
文章分类

全部博文(606)

文章存档

2011年(10)

2010年(67)

2009年(155)

2008年(386)

分类: Java

2010-03-15 13:21:40

摘要

    基于移动客服投诉工单文本库,抽取工单上专业已经标引的关键词形成关键词表;以关键词及其主题度为领域知识,结合统计方法,完成了一个知识与统计相结合的关键词自动标引系统。

1 关键词标引综述

    关键词是指在标题,摘要或正文中,用以标识和表达文档主题概念的词语。关键词的主要特征是主题性:关键词揭示的是文档最核心的内容,关键词能高度概括和代表整个文档的基本内容,是文档的灵魂。

    关键词自动标引根据文档的主题内容,借助计算机处理技术,自动从文档中直接抽取关键词作为标引词。关键词标引存在较大的难度,一致性难以保证,精确专业的主题词人工标引很不切实际的。

    一个文档可以表示成一个集合,集合中的每个元素是具有频数、位置和权重等属性的词语。因此,关键词标引的任务就是判断这个集合中哪些词语是关键词。关键词自动标引的任务需要解决两个主要问题:
    第一、如何从文档中提取出哪些词语作为关键词候选项。
    第二、怎样判断候选项是否是关键词,其依据是什么。
    第一步是基础,主要是词语抽取(基于移动专业词库)。包括提取和过滤,过滤目前主要是禁用词表过滤、词性过滤、同义词转换等等。(中科院分词器:)

    第二步是关键,主要包括权重计算。对抽取的词语在文中的词频、词语的相对词频、词语的反文献频率因子、词语在文中的位置、词性、词语本身的价值、词语的长度和自定义术语关键词表等进行分析,并引入某些统计方法,如互信息、TFIDF、最大熵等,对词语相应加权,最后按权重大小排序,并输出权值较大的一些标引词语。 

2 关键词自动标引实现 

    基于人工工单摘要库和自定义关键词库,依据移动术语知识,辅以统计方法,实现一个关键词自动标引系统。

    系统的总体流程图如下:      

 

2.1 取词统计模块

    1. 训练。训练用的工单语料库大约956条,自定义关键词大约1300个,移动专业术语大概25000个(其中多数是地名等,有意义的术语不多)。语料库数量有限,词语专家性不强,在很多程度上影响了提词的准确性。    

    2. 分词。通过中科院分词器对文本进行分词,加入移动专业术语词库。

    3. 过滤。停用词表直接过滤掉无用的虚词,既可以加快系统处理速度,又可以提高系统精度。停用词表共3千词条,主要是主题意义不高的虚词,如代词、量词、数词、副词、助动词、拟声词、感叹词、介词。

    4. 统计。统计时根据词性等加权,加权时文本长度会对加权因子产生影响。

2.2 排序选择模块

    词语经过权重计算后,形成了一个哈希表,键为词语,值为权重。我们需要的关键词是权重最大的前几位词语,因此本模块的主要功能就是词语按权值降序排列,取前若干位词为候选词。
    关键词标引系统标引的关键词数是固定的,比如3个或5个。

2.3 子串合并模块

    当候选关键词中含有长短串互相包含的词语时,如"移动、中国移动",应该将二者合并为一个。在合并时有两个原则可供选择:权重优先或长串优先。权重优先表示按照原来权重计算结果的顺序输出权重大者;而长串优先基于如下的假设:含字数多的串,其意义专指度更高,更适合标注为关键词。因此,上面两个候选词可以合并为"移动[中国移动]"(权重优先时)或"中国移动[移动]"(长串优先时)。系统默认为长串优先,用户也可以根据自己的需要选择合并方式。

3 关键词自动标引测试

   待续

改进

    如2.1所述, 我们训练用的语料库数量有限,词语专家性不强,在很多程度上影响了提词的准确性。以澜科科技为例,语料的量级达到60万篇6亿字。后续需要改进的是增加语料库的数量和增强词语的专家性。

结束语

    主题词标引时,我们提出相同、相近和相关的词语应该合并计算。目前采用的方法是对候选词进行子串合并,这只是机械匹配的过程,并未涉及到语义。理想的方法是利用上文构建的关键词聚类库进行候选词的聚类,将同近义词聚成堆,合并计算权重,重新排序输出。对标引中的多主题问题和隐含标引基本上未触及(子串合并涉及到多主题问题),这也是以后工作的重点和难点。   

6 参考资料

    1. 《基于领域知识的关键词自动标引》 -- 暨南大学华文学院/海外华语研究中心 刘 华

    2.  中科院分词器

    3.  *澜科语言科技文本分析在线演示:*

阅读(1365) | 评论(0) | 转发(0) |
0

上一篇:自动文摘技术

下一篇:ORACLE_SQL性能调整

给主人留下些什么吧!~~