百度搜索稳定性问题分析的故事上 2022年3月15日 导读: 百度搜索系统是百度历史最悠久、规模最大并且对其的使用已经植根在大家日常生活中的系统。坊间有一种有趣的做法:很多人通过打开百度搜索来验证自己的网络是不是通畅的。这种做法说明百度搜索系统在大家心目中是“稳定”的代表,且事实确是如此。百度搜索系统为什么具有如此高的可用性?背后使用…… 阅读全文
第四范式如何构建一个好的电商搜索引擎 2022年3月15日 分享嘉宾:邢少敏 第四范式 架构师 编辑整理:刘员京 出品平台:DataFunTalk 导读: 机器学习算法的不断进步,搜索引擎巧妙的人机交互设计,分布式系统的革新让搜索引擎在不知不觉中成为人们生活中不可或缺的一部分。同时,随着人们新需求的不断涌现,搜索引擎也没有停下变革的步伐。本文主要分享…… 阅读全文
苏宁搜索引擎在苏宁易购商品评价系统中的应用 2022年3月15日 胡正林 2018 年 11 月 5 日 话题:架构大数据 背景说明 苏宁易购商品评价系统主要提供商品维度评价数量聚合、评价列表展示功能,并为其他业务系统提供商品评价数据支撑服务。功能涉及对亿级数据的数量聚合、排序、多维度查询等复杂的业务场景,关系型数据库的索引为 B-Tree 结构,适合数值区分度或离散度高的数据,而评…… 阅读全文
干货查询耗时降低携程度假搜索引擎架构优化 2022年3月15日 作者简介 少伟,负责度假起价、搜索的研发工作,资深技术控。 锦涛,负责度假搜索及相关子系统的建设,对搜索引擎、NLP等有浓厚兴趣。 背景介绍 携程度假搜索引擎(以下简称为引擎):携程度假搜索引擎是一个专注在旅游行业的垂直搜索引擎,用来查找符合从出发地到目的地的相关旅游产品(跟团、自由行、…… 阅读全文
搜索引擎中的数据挖掘 2022年3月15日 分享嘉宾:沐沐老师 前百度资深研发 编辑整理:赵丽 内容来源:2019 DataFun Live 11 出品社区:DataFun 导读: 今天为大家分享的是搜索引擎中的 web 数据挖掘。首先介绍下搜索引擎。实际上,我们每天都会使用的搜索引擎,我们会输入关键词 query 和需求,搜索引擎会根据算法将于 query 最相关且最权威的结果呈现给用户。…… 阅读全文
搜索的百亿级网页搜索引擎架构实现 2022年3月15日 360搜索技术团队 目前 360 搜索每日抓取的网页数量高达十亿,已经收录的网页基本上是万亿级别的网页集合,实际可检索的网页是在一个百亿级别的网页集合里。 目前 360 搜索的单日流量是亿级 pv。我们目前的在线、离线机群有几万台服务器来维护这么大量级的计算。 主要内容 我今天的分享的主要会侧重于百亿级网…… 阅读全文
新一代海量数据搜索引擎来了 2022年3月15日 本文作者:sololzluo,腾讯 AI Lab 开发工程师 一. TurboSearch 简介 AI Lab 多年一直在搜索领域进行深耕和积累,继搜搜网页搜索之后,陆续服务于微信搜一搜(公众号文章、朋友圈、视频)、应用宝搜索、地图搜索、音乐搜索、视频搜索、手 Q、QQ 群等精品垂直搜索业务,以及云搜中小数据搜索业务。 从网页搜索继承…… 阅读全文
腾讯技术新一代搜索引擎项目设计探索 2022年3月15日 本文作者:kaelhua,腾讯 WXG 后台开发工程师 背景 写这篇文章很大的原因在于不论是内网还是外网,分享内存检索引擎设计的资料都非常稀少,且存量的资料大多侧重于功能性的介绍。 另一方面,在磁盘检索引擎方面,由于开源搜索引擎 ES 的盛行,对于其使用的索引库 lucence 的分析资料反而较为丰富。 本文意在通过…… 阅读全文
深度解析轻量级全文索引实现原理 2022年3月15日 作者:vivo互联网服务器团队-Qian Yulun 一、Lucene简介 1.1 Lucene是什么? Lucene是Apache基金会jakarta项目组的一个子项目; Lucene是一个开放源码的全文检索引擎工具包, 提供了完整的查询引擎和索引引擎,部分语种文本分析引擎; Lucene并不是一个完整的…… 阅读全文
有赞搜索引擎从到技术解析 2022年3月15日 分享嘉宾: 毛夏君 老师 内容来源: DataFun AI Talk《搜索引擎从0到1》 出品社区: DataFun 今天主要分享的是一些搜索工程方面的意见,首先介绍下一个完整的搜索引擎是由哪几部分组成的,然后是搜索内部文件的读和写,最后是搜索系统中主要的核心要点分析以及对应的案例分析。最后是有赞方面的经验分享,和我们所做…… 阅读全文