阿里在手淘流量分析业务实践 2022年3月14日 分享嘉宾:Jason Xu@阿里巴巴 编辑整理:夏仙森 出品平台:DataFunTalk 导读: 本文主要介绍手淘流量分析业务发展过程中,实时性业务分析需求的产生,实时分析目标的设定,如何进行技术的选型,以及如何基于ClickHouse构建系统架构和未来的业务预期。主要内容包括: 流量分析与…… 阅读全文
技术金融数仓体系建设 2022年3月14日 文章作者:胡明昊 58金融 内容来源:58技术 导语: 本文讲述了金融数据仓库从无到有的整体设计思路,以及对数据建模、质量控制、元数据管理及开发规范各方面的经验思考,希望对大家在数仓建设工作方面有所帮助。 背景 自2018年以来,随着业务体系的不断丰富与发展,数据分析与应用需求越来越丰富,对…… 阅读全文
消息中间件消息消费二模式实现 2022年3月14日 摘要:在RocketMQ中,消息消费都是基于Pull消息方式,那么Push模式中又是如何实现Consumer端准实时消费的呢? 在上一篇—“消息中间件—RocketMQ消息消费(一)”中,已经简要地介绍了下RocketMQ中“Pull和Push两种消费方式的简要流程”以及“Push…… 阅读全文
快手万亿级别集群应用实践与技术演进之路 2022年3月14日 赵健博 Kafka 系统在快手有着很广泛的应用,随着其业务的高速发展, Kafka 集群的规模也成指数增长,目前快手 Kafka 集群日消息处理总量达数万亿级别,峰值超过 1 亿 /s。与此同时,快手也面临了很多新问题与技术挑战。本文整理自快手高级架构师、大数据架构团队负责人赵健博在 QCon 全球软件开发大会(北京)2019 上的…… 阅读全文
消息中间件消息存储二 2022年3月14日 http://www.6aiq.com/article/1563128272857 http://www.6aiq.com/article/1563128435731 http://www.6aiq.com/article/1563129642050 http://www.6aiq.com/article/1563129820252 http://www.6aiq.com/article/1563130068940 http://www.6aiq.com/article/1563130337444 http://www.6aiq.com/article/1563130479801 RokcetMQ文件存储设计架构_v2.jpg 上面图中假设Consumer端默认设置的是同一个ConsumerGroup,因此Consumer端线程采用的是负载订阅的方式进行消费。从架构图中可以总结出如下几个关键点: (1) 消息生产与消息消费相互分离,Producer…… 阅读全文
丁香园电商搜索的语义理解问题 2022年3月14日 丁香园大数据 稿 今天我们来聊一聊大数据时代的电商搜索问题,随着电商的普及,越来越多人开始在网上购物,电商搜索的目的在于如何从海量的商品当中找到用户需要的商品。目前,绝大多数的商品召回和排序都是基于embedding,如何构建商品向量、如何解决搜索词与商品名称之间的语义鸿沟问题、如何…… 阅读全文
性能调优总结 2022年3月14日 使用正确的 transformations操作 虽然开发者达到某一目标,可以通过不同的transformations操作,但是有时候不同的姿势,性能差异非常明显。优化姿势的总体目标是尽可能少的产生 shuffle, 和待被 shuffled data。因为shffule过程存在写盘和节点间网络IO的开销 repartition…… 阅读全文
贝壳业务数据治理中台实践 2022年3月14日 分享嘉宾:李清华 贝壳 资深产品经理 编辑整理:赵敏 出品平台:DataFunTalk 导读: 数据治理经过多年的沉淀,积累了比较完善的理论体系;但是落地时候,治理范围如何聚焦,数据产品如何定位、具象设计和推广运营,不同公司有着不同的设计实现。本文会结合贝壳找房近两年的业务数据中心建设经验,…… 阅读全文
赵海源峰值超亿秒在美团数据平台的实践 2022年3月14日 分享嘉宾:赵海源 美团 流存储工程师 编辑整理:刘明 慕华信息科技 出品平台:DataFunTalk 导读: 本文将介绍Kafka在美团数据平台的实践,主要内容包括:① Kafka在美团数据平台的发展现状和面临的挑战,主要是海量数据下如何保证读写延迟的问题,以及大规模的集群管理与优化;② 面对上述…… 阅读全文
快手在千亿级用户特征数据分析中的应用与实践 2022年3月14日 分享嘉宾:陈杨 快手 编辑整理:Hoh Xil 内容来源:BigData NoSQL 12th Meetup 出品社区:DataFun 快手建设 HBase 差不多有2年时间,在公司里面有比较丰富的应用场景:如短视频的存储、IM、直播里评论 feed 流等场景。本次只分享其中的一个应用场景:快手 HBase 在千亿级用户特征数据分析中的应用与实践。为什么分享…… 阅读全文