大数据实战以及三种大揭秘 2022年3月14日 易小云: Join操作是数据库和大数据计算中的高级特性,大多数场景都需要进行复杂的Join操作,本文从原理层面介绍了SparkSQL支持的常见Join算法及其适用场景。 本文2383字 建议阅读时长6分钟 Join背景介绍 Join是数据库查询永远绕不开的话题,传统查询SQL技术总体可以分…… 阅读全文
回顾云上冷热分离实践 2022年3月14日 本文根据阿里云技术专家郭泽晖在中国HBase技术社区第3届MeetUp杭州站中分享的《云上HBase冷热分离实践》编辑整理而成。 今天分享的内容分为两个方面,首先会介绍下冷数据的经典场景,以及如果使用开源的HBase应该如何实现,最后介绍下HBase在云端的实现方案。 冷数据定义就是…… 阅读全文
快手万亿级别集群应用实践与技术演进之路 2022年3月14日 赵健博 Kafka 系统在快手有着很广泛的应用,随着其业务的高速发展, Kafka 集群的规模也成指数增长,目前快手 Kafka 集群日消息处理总量达数万亿级别,峰值超过 1 亿 /s。与此同时,快手也面临了很多新问题与技术挑战。本文整理自快手高级架构师、大数据架构团队负责人赵健博在 QCon 全球软件开发大会(北京)2019 上的…… 阅读全文
性能调优总结 2022年3月14日 使用正确的 transformations操作 虽然开发者达到某一目标,可以通过不同的transformations操作,但是有时候不同的姿势,性能差异非常明显。优化姿势的总体目标是尽可能少的产生 shuffle, 和待被 shuffled data。因为shffule过程存在写盘和节点间网络IO的开销 repartition…… 阅读全文
一条数据的之旅简明入门教程与 2022年3月14日 Flush与Compaction其实属于Write流程的继续,所以本文应该称之为" Write后传"。在2.0版本中,最主要的变化就是新增了In-memory Flush/Compaction,而DateTieredCompaction并不算2.0新加入的特性,2…… 阅读全文