2022年3月14日
来自: AI有道 (微信号:redstonewill),作者:红色石头 什么是协方差(Covariance)? 协方差表示的是两个变量的总体的误差,这与只表示一个变量误差的方差不同。 如果两个变量的变化趋势一致,也就是说如果其中一个大于自身的期望值,另外一个也大于自身的期望值,那么两个变量……
阅读全文
2022年3月14日
分享嘉宾:李雅亮博士 阿里巴巴 编辑整理:陈东 东南大学 出品平台:DataFunTalk 导读: 本次分享的主题为大规模预训练模型的压缩和蒸馏,主要是从自动机器学习的角度,介绍大规模预训练模型的压缩和蒸馏。将介绍阿里巴巴达摩院关于模型压缩的三个连续承接性的工作: 工作1:AdaBERT:Ta……
阅读全文
2022年3月14日
百度安全策略团队 稿 导读:互联网黑产不断发展壮大,作弊模式逐渐变得规模化、产业化,团伙作弊行为日益猖獗。为了进一步提升百度账号的安全和用户体验,维护公司核心利益,百度账号安全策略团队结合自身在账号安全领域的优势,构建了可以处理海量数据、具备丰富扩展性的关联图谱黑产团伙挖掘能力,充分……
阅读全文
2022年3月14日
以下文章来源于大数据技术与数仓 ,作者西贝 本文会从一个商务分析案例入手,说明SQL窗口函数的使用方式。通过本文的5个需求分析,可以看出SQL窗口函数的功能十分强大,不仅能够使我们编写的SQL逻辑更加清晰,而且在某种程度上可以简化需求开发。 数据准备 本文主要分析只涉及一张订单表orde……
阅读全文
2022年3月14日
分享嘉宾:付海涛 京东 技术专家 编辑整理:苏文进 怪兽充电 出品平台:DataFunTalk 导读: Flink是目前流式处理领域的热门引擎,在实时数仓、实时风控、实时推荐等多个场景有着广泛的应用。京东于2018年开始基于Flink+k8s深入打造高性能、稳定、可靠、易用的实时计算平台,支撑……
阅读全文
2022年3月14日
来源:爱奇艺技术产品团队 为弥补目前社区在生产环境可用的支持 GBDT 模型、GBDT+FM 二分类模型及 GBDT+FM 多分类模型 部署的推理系统的空白,爱奇艺设计开发了灵活、高性能的 XGBoost Serving 推理系统,并在内部多个业务落地使用。近期,爱奇艺决定将这一系统 开源,本文将详细介绍项目 开发背景、系统实践、系统特性和架构……
阅读全文
2022年3月14日
本文根据阿里云技术专家郭泽晖在中国HBase技术社区第3届MeetUp杭州站中分享的《云上HBase冷热分离实践》编辑整理而成。 今天分享的内容分为两个方面,首先会介绍下冷数据的经典场景,以及如果使用开源的HBase应该如何实现,最后介绍下HBase在云端的实现方案。 冷数据定义就是……
阅读全文
2022年3月14日
文末彩蛋:七月在线干货组最新升级的《2021大厂最新AI面试题 [含答案和解析, 更新到前121题]》免费送! \ 1、讲一下改进的tf-idf TF-IDF中的IDF是一种试图抑制噪声的加权,单纯的以为文本频率小的单词就越重要,文本频率越大的单词就越无用,这一方式会在同类语料库中存在巨大……
阅读全文
2022年3月14日
作者:Kawin Ethayarajh 编译:ronghuaiyang 原文: 英文原文: https://kawine.github.io/blog/nlp/2020/02/03/contextual.html 导读: 具有上下文信息的词表示到底有多大程度的上下文化?这里给出了定量的分析。 将上下文信息放到词嵌入中 — 就像BERT,ELMo和GPT-2 — 已经证明了是NLP的一个分水岭的想法了。使用具有上下文信息的词表示来替换静态……
阅读全文
2022年3月14日
导读: 大型广告系统工程方面的主要挑战就是海量数据,快速响应,数据实时和高可用度的要求。本次分享介绍了阿里创新事业群智能营销平台在如何构建高性能、高可用、高效率,低成本的广告系统架构方面所做的诸多工作及实践经验。主要包括: ❶ 智能营销平台的业务 ❷ 投放引擎的概念以及在广告平台所处的位置……
阅读全文