以图搜图现在是大家很常见的功能了,淘宝的拍立淘、微信的拍照识物、以及各种人脸识别身份认证等等。
向量索引是指通过某种数学量化模型,对向量构建一种时间和空间都比较高效的数据索引结构,使得我们能够实时地获取跟查询向量尽可能最相近的K个向量。从定义可以看到,要设计一种高效的向量索引模型,应该满足3个基本条件,即:
1. 实时查询,支持海量(百亿、千亿级别)规模库量级的实时查询;
2. 存储高效,要求构建的向量索引模型数据压缩比高,达到大幅缩减内存使占用的目的;
3. 召回精度好,top@K有比较好的召回率,跟暴力搜索(brute-force search)的结果相比;
检索最简单的实现方案便是线性扫描数据库,也就是在全空间进行搜索,为了加快查找的速度,几乎所有的ANNS方法都是通过对全空间分割,将其分割成很多小的子空间,在搜索的时候,通过某种方式,快速锁定在某一(几)子空间,然后在该(几个)子空间里做遍历。可以看到,正是因为缩减了遍历的空间大小范围,从而使得ANNS能够处理大规模数据的索引。目前的向量索引分为四大类:基于树的方法、哈希方法、矢量量化方法、图索引量化方法,不同的索引方式也都有背后各自的产品和开源项目。比如由spotify开源的基于树的索引方式的向量搜索引擎Annoy。
https://github.com/spotify/annoygithub.com用不同的特征会搜出来不同的,如何基于这些进行一次重新排序取决于应用的需要。我也没做过,所以就不班门弄斧了。
本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,并请自行核实相关内容。本站不承担此类作品侵权行为的直接责任及连带责任。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕,E-mail:xinmeigg88@163.com
本文链接:http://dxq.tttmy.cn/news/2837.html