因工作关系,需要处理一些字符串(中文UTF8),简单的说,功能上需要:字符串匹配关键词;字符串替换关键词库;文本相似度比较。
看了相关文章,在字符串匹配和相似度计算领域,都有一些现有的专业算法。如果需要使用这些,需要花费一些时间来学习投入。但是当前业务中出现的数据样本简单,另外数据量也很小。综合评估了下,还是先用简单的字符串API处理了。具体来说:
关键词匹配过滤,将关键词导入到set中,利用std::string的find接口和replace接口做查找替换。复杂度和关键词库正相关
后续花时间将成熟高效的字符串比较算法以及内容相似度算法引入到系统中来,也在这里发文总结一下使用方法。现在先偷个懒
阅读(1052) | 评论(0) | 转发(0) |