Chinaunix首页 | 论坛 | 博客
  • 博客访问: 143091
  • 博文数量: 15
  • 博客积分: 243
  • 博客等级: 入伍新兵
  • 技术积分: 185
  • 用 户 组: 普通用户
  • 注册时间: 2011-08-20 08:51
文章分类

全部博文(15)

文章存档

2015年(2)

2014年(6)

2013年(1)

2012年(6)

我的朋友

分类: C/C++

2015-08-25 00:42:28

因工作关系,需要处理一些字符串(中文UTF8),简单的说,功能上需要:字符串匹配关键词;字符串替换关键词库;文本相似度比较。
看了相关文章,在字符串匹配和相似度计算领域,都有一些现有的专业算法。如果需要使用这些,需要花费一些时间来学习投入。但是当前业务中出现的数据样本简单,另外数据量也很小。综合评估了下,还是先用简单的字符串API处理了。具体来说:
关键词匹配过滤,将关键词导入到set中,利用std::string的find接口和replace接口做查找替换。复杂度和关键词库正相关

后续花时间将成熟高效的字符串比较算法以及内容相似度算法引入到系统中来,也在这里发文总结一下使用方法。现在先偷个懒
阅读(1047) | 评论(0) | 转发(0) |
0

上一篇:centos 64位编译包含libprotobuf.a的动态链接库

下一篇:没有了

给主人留下些什么吧!~~