Searching with Deep Learning 深度学习的搜索应用-vivo互联网技术-ChinaUnix博客

vivo互联网技术

首页　| 　博文目录　| 　关于我

vivo互联网技术

博客访问： 972198
博文数量： 253
博客积分： 0
博客等级：民兵
技术积分： 2609
用户组：普通用户
注册时间： 2019-03-08 17:29

个人简介

分享 vivo 互联网技术干货与沙龙活动，推荐最新行业动态与热门会议。

文章分类

全部博文（253）

技术文章（251）
未分配的博文（2）

文章存档

2022年（60）

2021年（81）

2020年（83）

2019年（29）

我的朋友

一、Fast Nearest Neighbours

为了更快速检索通常会使用各种“索引”，这种数据结构支持高效地过滤出相关的匹配，而无需单独评估每一个匹配。基于关键词的检索一般使用“倒排索引”；基于地理位置的检索，一般使用一种叫做 KD树的数据结构。我们也需要诸如此类的机制来快速过滤出最相关的匹配，因此我们只需要在这个较小的集合上计算精确得分。这一点非常重要，因为在一个高维向量的超大集合上计算距离，是代价非常高昂（慢）的操作。

上文提到的 FAISS 库提供了多种方式来解决这个问题：

PCA 降维
K 均值聚类
局部敏感哈希
可能还有其他我不知道方法

这些方法中的每一种都能实现高效的索引方法，因此可以快速地筛选出较近邻的文档，然后通过计算精确的距离来查找最近邻文档。在降维以后就可以使用 KD树，聚类或者局部敏感哈希后也可以使用倒排索引。

上图揭示了如何通过过滤数据集来加速计算，需要计算精确距离的文档数与计算时间之间是线性关系；同时也说明了高效地过滤掉不相似文档多么重要。

当然所有这些方法都是有可能在 Elasticsearch 里得到实现的，其优点是便于和其他检索系统集成。届时就可以组合使用关键词查询或其他基于深度学习的查询结果了。

实验表明在我们的数据集上，结合了 PCA 降维后再使用 KD 树索引，能带给我们速度和精度的最佳y组合。

上图揭示了缩小数据集是如何影响结果精确度的。能够看到，过滤得太狠意味着我们会丢失一些最近邻文档；而如果过滤掉 50k 到 75k 的文档，就可以找到所有的最近邻文档，同时计算时间只占暴力计算所有距离的很小一部分。

二、Elasticsearch 插件

在 Lucene 即 Elasticsearch的底层类库中，KD树的数据结构已经实现了，但还没有通过 Elasticsearch 的 API 暴露出来。已经有插件可以计算精确的向量距离，所以我们只需要开发一个小插件来支持使用这种索引结构即可。参见这里：EikeDehling/vector-search-plugin

三、集成工作

现在集成工作只是相当于把拼图图片按照正确的顺序拼到一起：

安装 Elasticsearch 插件
PCA降维(Python/sklearn 或者 Java/Smile)
索引降维后的完整向量到 Elasticsearch 中（以及其他必要属性）
整装待发！

安装插件、创建索引以及添加文档请参考这里(EikeDehling/vector-search-plugin)。完成这些步骤后，现在就可以使用我们的嵌入向量了！请注意 pca_reduced_vector 上的范围查询，这才是我们新插件起到的作用。

POST my_index/_search
{
"query": {
"function_score": {
"query": {
"range": {
"pca_reduced_vector": {
"from": "-0.5,-0.5,-0.5,-0.5,-0.5,-0.5,-0.5,-0.5",
"to": "0.5,0.5,0.5,0.5,0.5,0.5,0.5,0.5"
}
}
},
"functions": [
{
"script_score": {
"script": {
"inline": "vector_scoring",
"lang": "binary_vector_score",
"params": {
"vector_field": "full_vector",
"vector": [ 0.0, 0.0716, 0.1761, 0.0, 0.0779, 0.0, 0.1382, 0.3729 ]
}
}
}
}
],
"boost_mode": "replace"
}
},
"size": 10
}

四、结论

我们展示了如何应用深度学习向量来实现高效的搜索。这一方法适用于想要寻找相似文档而普通关键词查询不够好的任何应用场景。其中的嵌入向量，可以使用诸如 doc2vec 等来实现。

阅读(2125) | 评论(0) | 转发(0) |

上一篇：400+节点的 Elasticsearch 集群运维

下一篇：The Principles of OOD 面向对象设计原则

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6

目录：

一、Fast Nearest Neighbours

二、Elasticsearch 插件

三、集成工作

四、结论