一文解说所有用法 2022年3月15日 Trait基础 在Scala中,Trait是一种特殊概念。首先,Trait可以被作为接口来使用,此时Trait与Java的接口非常类似。同时在Trait可以定义抽象方法,其与抽象类中的抽象方法一样,不给出方法的具体实现。 _注意:_类使用extends继承Trait,与Java不同,…… 阅读全文
团队开源新作全流程机器学习平台 2022年3月15日 策划编辑 | Natalie 作者 | Matei Zaharia 译者 | 无明 编辑 | Vincent **AI 前线导读:**在昨天开幕的 Spark+AI Summit 大会上,Spark 和 Mesos 的核心作者兼 Databrick 首席技术专家 Matei Zaharia 宣布推出开源机器学习平台 MLflow,这是一个能够覆盖机器学习全流程(从数据准备到模型训练到最终部署)的新平台,旨在为数据科学家构建、测试和部署机器学习模型…… 阅读全文
面向对象编程之类和对象 2022年3月15日 定义一个类 1 // 定义类,包含field及方法 2 scala> :paste 3 // Entering paste mode (ctrl-D to finish) 4 class HelloWorld { 5 private var name = "leo" 6 def sayHello() {print("Hello, " + name)} 7 def getName = name 8 } 9 // Exiting paste mode, now interpreting. 10 defined class HelloWorld 11 // 创建类的对象,并调用其方法 12 scala> val helloWorld = new HelloWorld 13 helloWorld: HelloWorld = HelloWorld@380e4452 14 // 如果方法无参,可以不加括号,如果定义方法时不带括号,则调用方法时也不能带括号 15 scala> helloWorld.sayHello() 16 Hello, leo…… 阅读全文
宽依赖窄依赖总结 2022年3月15日 宽依赖与窄依赖 窄依赖(narrow dependency)和宽依赖(wide dependency, 也称 shuffle dependency). 窄依赖是指父RDD的每个分区只被子RDD的一个分区所使用, 子RDD分区通常对应常数个父RDD分区(O(1),与数据规模无关), map/filter和union 相应的,宽依赖是…… 阅读全文
用取代知乎实时数仓架构演进 2022年3月15日 “数据智能” (Data Intelligence) 有一个必须且基础的环节,就是数据仓库的建设,同时,数据仓库也是公司数据发展到一定规模后必然会提供的一种基础服务。从智能商业的角度来讲,数据的结果代表了用户的反馈,获取结果的及时性就显得尤为重要,快速的获取数据反馈能够帮助公司更快的做出决策,更好的进行产品迭代,实时…… 阅读全文
面试官如果让你设计一个消息中间件如何将其网络通信性能优化倍以上石杉的架构笔记 2022年3月15日 目录 1、客户端与服务端的交互 2、频繁网络通信带来的性能低下问题 3、batch机制:多条消息打包成一个batch 4、request机制:多个batch打包成一个request “这篇文章,给大家聊一个消息中间件相关的技术话题,对于一个优秀的消息中间件而言,客户端与服务端通信的时候,对…… 阅读全文
有赞百亿级日志系统架构设计 2022年3月15日 一、概述 日志是记录系统中各种问题信息的关键,也是一种常见的海量数据。日志平台为集团所有业务系统提供日志采集、消费、分析、存储、索引和查询的一站式日志服务。主要为了解决日志分散不方便查看、日志搜索操作复杂且效率低、业务异常无法及时发现等等问题。 随着有赞业务的发展与增长,每天都会产生…… 阅读全文
一个轻量级查询框架 2022年3月15日 Walrus Introduction walrus是一个轻量级olap查询框架。它支持多源异构数据源(hdfs,mysql,clickhouse,kylin,druid…),采用 apache spark 作为聚合计算引擎,在雪花模型 上通过json提供ETL建模和ad hoc数据查询服务。 Background 数据分析、ETL开发人员的日常工作…… 阅读全文
网易迁移在网易传媒的实践 2022年3月15日 作者: 易同学 引言:把基于mapreduce的离线hiveSQL任务迁移到sparkSQL,不但能大幅缩短任务运行时间,还能节省不少计算资源。最近我们也把组内2000左右的hivesql任务迁移到了sparkSQL,这里做个简单的记录和分享,本文偏重于具体条件下的方案选择。 迁移背景…… 阅读全文
百分点大数据技术团队基于多任务的数据同步方案实践 2022年3月15日 编者按 在数据大爆发的时代里,数据分析和应用领域对数据即查即得的需求越来越迫切,ClickHouse凭借无与伦比的查询速度脱颖而出,被广泛应用于众多领域和方案中,是优秀的OLAP代表者。但是实践应用中,尤其是需要代码操作时会遇到一定的性能问题,尤其在数据量大的情况下表现更为突出。 本…… 阅读全文