当前位置:首页 > 资讯 > 正文

算法高级(32)-搜索引擎中的自动补全功能该如何实现?

算法高级(32)-搜索引擎中的自动补全功能该如何实现?

前一章讲了搜索中的拼写纠错功能,里面一个很重要的概念就是莱文斯坦距离。这章会讲解搜索中提升用户体验的另一项功能-自动补全。本章直接介绍ES中的实现方式以及真正的搜索引擎对自动补全功能的优化。

大家对上面的这个应该都不陌生,搜索引擎会根据你输入的关键字进行一些提示,这样用户只需要输入部分内容就可以进行选择了。尤其在移动端会比较方便。淘宝、京东的搜索也有类似的功能,只不过行业不同,提示出来的内容也不同罢了。

1.使用步骤:

  1. 导入lucene-suggest组件
  2. 指定联想数据来源,lucene suggest提供了几个InputIteratior的默认实现,也可以自定义实现
    1. BufferedInputIterator:对二进制类型的输入进行轮询; 
    2. DocumentInputIterator:从索引中被store的field中轮询; 
    3. FileIterator:从文件中每次读出单行的数据轮询,以 进行间隔(且 的个数最多为2个); 
    4. HighFrequencyIterator:从索引中被store的field轮询,忽略长度小于设定值的文本; 
    5. InputIteratorWrapper:遍历BytesRefIterator并且返回的内容不包含payload且weight均为1; 
    6. SortedInputIterator:二进制类型的输入轮询且按照指定的comparator算法进行排序;

InputIteratior中几个方法的作用:

  1. 建立suggest索引:suggester.build(new InputIteratorWrapper{});//根据InputIterator的具体实现决定数据源以及创建索引的规则
  2. 索引建立完毕即可在索引上进行查询,输入模糊的字符,Lucene suggest的内部算法会根据索引的建立规则提出suggest查询的内容。suggester.lookup(name, contexts, 2, true, false);

2.Lucene suggest核心实现一览

Lucene 使用AnalyzingInfixSuggester类中的lookup方法去联想数据来源进行查询,其实就是一个普通的search,所以我们的关键是要维护好这个联想数据来源,各行各业都应该有自己单独的语料库。

应该从这几个方面入手:怎么优化Suggest词库、提升Suggest词准确率、怎么提高响应速度

1.Suggest词库获取

  • 冷启动可以从内容中提取热词数据来解决,或者人工设置
  • 挖掘搜索日志:
    • 挖掘近1个月搜索日志,按照每天独立IP进行统计频次,即每个IP用户天搜索同一关键词多次只记一次,用IP过滤也有其局限性,伪IP,动态IP,局域网共享同一公网IP,都会影响到基于IP来判断用户的准确性,你也可以使用sessionId或者userId来判断
    • 统计后搜索词频次之后,抽取搜索频次>100(自定阈值)的词,同时对日志数据进行清洗,过滤去除大于10个字(去除太长的长尾词),单字和符号内容
    • 定时更新suggest词库中。
  • 搜索日志里面包含大量 误输入词:
    1. 需要在suggest词库里面去掉误输入词,对于搜索频次高的词,可以挖掘其对应的正确词,通过同义词进行查询改写。
    2. 误输入词同义词挖掘可以通过挖掘搜索session序列,使用word2vec训练来获取误输入词的同义词,通过分词器同义词设置,对误输入词进行查询改写。

2.提升Suggest词准确率

  • 使用fuzzy模糊查询:基于编辑距离算法来匹配文档。编辑距离的计算基于我们提供的查询词条和被搜索文档。
  • 排序:从搜索日志挖掘的Suggest词,可以根据搜索词的搜索频次作为热度来设置weight,Suggest会根据weight来排序。

3.提升响应速度

当使用completion suggester的时候, 不是用于完成 类似于 "关键词"这样的模糊匹配场景,而是用于完成关键词前缀匹配的。 对于汉字的处理,无需使用ik/ HanLP一类的分词器,直接使用keyword analyzer,配合去除一些不需要的stop word即可。

代码参考:

搜索引擎的优化,需要更智能,每个人输入相同的关键字,提示出来的内容可能是完全不相同的,这就是所谓的“千人千面”。这就用到了数据分析的知识,可以根据用户一段时间内的搜索历史,分析用户的搜索习惯,结合语料库实现对用户的精准提示。跟输入法的提升功能类似,会根据你过往的输入文本进行自动提示。所以,你付出了隐私,得到的是更大的便捷。这也是没有办法的事情。

  1. 需要一个搜索词库/语料库,各行各业均应该不同
  2. 对用户输入的关键字进行分词
  3. 根据分词及其他搜索条件去语料库中查询若干条(百度是10条)记录返回
  4. 为了提升准确率,通常都是前缀搜索
  5. 会根据莱温斯坦距离进行拼写纠错

如你所见,各大搜索引擎都提供了智能提示的API供广大用户调用,如果你司没有自研的能力,可以直接js中跨域调用,先把系统跑起来再说,给大家提供主流搜索引擎的调用地址,包含电商的哦。

1.搜索引擎JSONP调用接口

提示:URL中的 #content# 为搜索的 关键字

谷歌(Google)

http://suggestqueries.google.com/complete/search?client=youtube&q=#content#&jsonp=window.google.ac.h

callback:window.google.ac.h

window.google.ac.h(["关键字",[["关键字",0],["关键字 歌词",0],["关键字参数",0],["关键字 lyrics",0],["关键字过滤",0],["关键字排名",0],["关键字查询",0],["关键字提取算法",0],["关键字规划师可通过以下哪种方式帮助您制作新的搜索网络广告系列",0],["关键字优化",0]],{"k":1,"q":"uhaB8ZMjzJay-BACee_C0eVdUCA"}])

必应(Bing)

http://api.bing.com/qsonhs.aspx?type=cb&q=#content#&cb=window.bing.sug

 callback:window.bing.sug

百度(Baidu)

http://suggestion.baidu.com/su?wd=#content#&cb=window.baidu.sug

callback:window.baidu.sug

好搜(So)

https://sug.so.360.cn/suggest?encodein=utf-8&encodeout=utf-8&format=json&word=#content#&callback=window.so.sug

callback:window.so.sug

搜狗(Sogou)

 https://www.sogou.com/suggnew/ajajjson?type=web&key=#content#

 callback:window.sogou.sug

 淘宝(Taobao)

 https://suggest.taobao.com/sug?code=utf-8&q=#content#&callback=window.taobao.sug

 callback:window.taobao.sug

2.搜索建议使用方式

以百度为例,API返回的是JSONP数据,JSONP是跨域访问的一种方式。由于服务器返回的JavaScript代码可以直接引用,通过回调函数的方式就可以间接的获取服务器的数据。

 下面是一个回调搜索建议的例子,window.baidu.sug 返回的是一个json对象:

控制台打印的结果:如果要将结果保存在一个字符串数组中,只需要 var arr = json.s 即可。


我的微信公众号:架构真经(id:gentoo666),分享Java干货,高并发编程,热门技术教程,微服务及分布式技术,架构设计,区块链技术,人工智能,大数据,Java面试题,以及前沿热门资讯等。每日更新哦!