的查询毛刺问题原因分析 2022年3月15日 如果业务对查询延迟很敏感,Elasticsearch 查询延迟中的毛刺现象就是比较困扰的一类问题,由于出现毛刺的时间点已经过去,无法稳定复现,对于根因的分析比较困难,无法用系统化调试的思想,从现象出发逐步推理,定位问题,能做的通常就是看一下监控系统对应时间点的指标情况,而在 es 中,导…… 阅读全文
如何破解组合使用遇到的难题 2022年3月15日 一.背景介绍 HBase与ElasticSearch是现代应用在处理海量数据的技术架构会经常被使用的两款产品,其中HBase是一个分布式KV系统,具有灵活Schema、水平扩展、低成本、高并发的优势,但在复杂查询、分析能力方面相对比较弱,特别适合海量半结构化、结构化数据的低成本存储…… 阅读全文
工作中组内遇到的使用上的踩坑总结 2022年3月15日 嵌套索引的坑 场景: 一个spu doc下有多个内嵌的csu,csu内有上下架状态,前台操作某csu上下架,在商城界面看起来未生效。 坑1: mysql binlog消息监控组件dbus 通知服务端B多台机器消息变更时,未考虑spu下csu消息的消费顺序性,导致同一spu的多个csu上下架变更消息被多…… 阅读全文
在十几亿的数量级下如何提升查询效率 2022年3月15日 一、ES写入数据 (选择协调节点—>根据文件进行路由转发给对应的节点—>节点的主分片处理请求—>数据同步到副本分片—>返回响应) 客户端选择一个 node 发送请求过去,这个 node 就是 coordinating node(协调节点)。 coordinating node 对 document 进行路由,将请求转发给对应的 node(有 primary shard)。 实…… 阅读全文
携程技术为什么我们要从迁移到 2022年3月15日 导读:ElasticSearch 是一种基于 Lucene 的分布式全文搜索引擎,携程用 ES 处理日志,目前服务器规模 500+,日均日志接入量大约 200TB。 图片来自 Pexels 随着日志量不断增加,一些问题逐渐暴露出来: 一方面 ES 服务器越来越多,投入的成本越来越高。 另一方面用户的满意度不高,日志写入延迟、查询慢…… 阅读全文
为什么已有我们还要重造实时分析引擎 2022年3月15日 Uber工程博客 2019 年 2 月 24 日 作者 | Jian Shen, Ze Wang, David Wang, Jeremy Shi, and Steven Chen AresDB 在 Uber 被广泛使用,为我们的实时数据分析仪表盘提供支持,使我们能够针对业务的各个方面大规模制定数据驱动的决策。通过开源这个工具,我们希望社区中的其他人可以利用 AresDB 分析自己的数据。 在 Uber,我们能够利用实时分析技术获得商业洞察力…… 阅读全文
遇上使用和构建搜索引擎 2022年3月15日 作者:Hironsan 编译:ronghuaiyang 导读: 强强联合,看看是否能有1+1>2的效果。 在这篇文章中,我们使用一个预先训练好的BERT模型和Elasticsearch来构建一个搜索引擎。Elasticsearch最近发布了带有矢量字段的文本相似性搜索。另一方面,你可以使…… 阅读全文
高级调优方法论之根治慢查询 2022年3月15日 1、引言 Elasticsearch是非常灵活且功能丰富的搜索引擎,它提供了许多不同查询数据的方法。在实战业务场景中,经常会出现远远低于预期查询速度的慢查询。作为分布式系统的Elasticsearch,可能有各种影响查询性能的因素,包括外部因素,如负载均衡设置,网络延迟(带宽,NI…… 阅读全文
几十亿数据查询秒返回性能优化实战 2022年3月15日 公司的数据平台已迭代三个版本,从头开始遇到很多常见的难题,终于有时间整理一些完善的文档,在此分享以供所需的朋友。 在此篇幅中偏重于 ES 的优化,关于 HBase,Hadoop 的设计优化有很多文章可以参考,不再赘述。 需求说明 项目背景: 在一业务系统中,部分表每天的数据量过亿,已按天分表,但业…… 阅读全文
腾讯万亿级技术解密 2022年3月15日 作者: johngqjiang,腾讯 TEG 云架构平台部研发工程师 Elasticsearch(ES)作为开源首选的分布式搜索分析引擎,通过一套系统轻松满足用户的日志实时分析、全文检索、结构化数据分析等多种需求,大幅降低大数据时代挖掘数据价值的成本。腾讯在公司内部丰富的场景中大规模使用 ES…… 阅读全文