干货搜索引擎技术资料整理
这篇博客意图是收集市面上质量不错的搜索引擎技术资料,内容来源包括开源项目官网(Lucene、Solr、Elastic)、综合技术网站(infoQ、Stackoverflow、github 等)、专业技术网站(我爱自然语言处理等)、国内外知名互联网公司技术博客(阿里中间件团队博客、美团技术博客等)、知名技术牛人博客(Matrix67、刘超觉先等)等。
以下整理的内容大致根据来源进行分类,等这篇整理得差不多了再开一篇博客根据知识点进行梳理。
个人视角有限,还望各位同行补充、丰富,谢谢。
开源相关
Lucene
-
Solr
-
Elastic
-
LucidWorks
-
中文分词
大公司
阿里
-
一淘 购物搜索引擎架构的变与不变(视频) - 20130127 - infoQ
音频质量不高,听起来比较费劲。
-
天猫推荐算法团队的那些事儿 - 20140401 - infoQ
本文以访谈的方式呈现,对搜索和推荐算法进行了简单的比较,提到了 AB 测试和离线测试,主要对推荐算法团队的工作方式、工作考评、任务分配、招聘等进行了介绍。
-
天猫推荐算法实践(视频) - 20140622 - infoQ
简单介绍了天猫推荐业务、推荐系统架构,较为详细的分析了双 11 个性化会场案例,主要是针对品牌的个性化推荐,最后引出阿里巴巴大数据竞赛、天猫推荐算法大赛,题目是:开放 2011 年 4 月 -8 月用户对品牌的行为数据(点击、购买、收藏、加入购物车等),预测这些用户在 2011 年 9 月购买的品牌。
-
天猫 11.11:搜索引擎实时秒级更新 - 20141111 - infoQ
文章简单介绍了阿里搜索引擎架构,提到了以下内容:1)为提高数据实时性(库存、价格等),去掉应用层和业务层的缓存,重点提升引擎层的服务能力。2)排序链,根据业务场景定制排序链。3)sku 搜索,搜索结果和属性导航联动(标类产品)。
-
基于 Hadoop 生态技术构建阿里搜索离线系统(视频) - 20141205 - infoQ
主要介绍了:1)阿里搜索业务(1688、淘宝、天猫、一淘、openSearch);2)搜索技术体系;3)搜索离线系统;4)实时计算方案;5)集群优化与管理;
-
开放搜索服务系统架构:从系统、平台到开放服务(视频) - 20150610 - infoQ
简单介绍了:1)搜索引擎的基础数据结构(倒排索引) 2)阿里搜索架构演变:单机架构;分布式架构(自动分发部署、集群资源复用);平台化(系统插件化);服务化(openSearch 自助式云搜索服务、多租户数据模型)。 讲解循序渐进,思路清晰,推荐。
阿里搜索事业部技术团队
阿里集团搜索、推荐、图像技术的大本营,大数据时代的创新主场。
阿里中间件团队博客
2012 年期间,阿里中间件博客记录了 20 多篇 Lucene、Solr 相关博文,主要记录了一些在项目开发过程中遇到的问题,以及部分源码解读。内容丰富、实用,但不是很系统。
腾讯
百度
京东
美团点评
美团点评技术团队博客
在国内互联网公司中,个人认为“美团点评技术团队博客”是最持之以恒的,而且非常干货。
携程
去哪儿
搜狗
一号店
待分类
国内
国外
开发应用
理论基础
-
我爱自然语言处理 推荐
-
漫话中文自动分词和语义识别 膜拜中文系大牛 Matrix67
源码解读
-
刘超觉先 详细分析了 Lucene3.x 的源码,推荐。
-
Anatomy of an Elasticsearch Cluster: Part III - infoQ 翻译
常见问题
-
其他
-
[使用 Akka、Kafka 和 ElasticSearch 等构建分析引擎 - 20160825 - infoQ](https://zshipu.com/t?url=https%3A%2F%2Fhacpai.com%2
- 原文作者:知识铺
- 原文链接:https://geek.zshipu.com/post/%E4%BA%92%E8%81%94%E7%BD%91/%E5%B9%B2%E8%B4%A7%E6%90%9C%E7%B4%A2%E5%BC%95%E6%93%8E%E6%8A%80%E6%9C%AF%E8%B5%84%E6%96%99%E6%95%B4%E7%90%86/
- 版权声明:本作品采用知识共享署名-非商业性使用-禁止演绎 4.0 国际许可协议进行许可,非商业转载请注明出处(作者,原文链接),商业转载请联系作者获得授权。
- 免责声明:本页面内容均来源于站内编辑发布,部分信息来源互联网,并不意味着本站赞同其观点或者证实其内容的真实性,如涉及版权等问题,请立即联系客服进行更改或删除,保证您的合法权益。转载请注明来源,欢迎对文章中的引用来源进行考证,欢迎指出任何有错误或不够清晰的表达。也可以邮件至 sblig@126.com