2022年3月15日
作者:Tivadar Danka 编译:ronghuaiyang 导读: 知识蒸馏的简单介绍,让大家了解知识蒸馏背后的直觉。 如果你曾经用神经网络来解决一个复杂的问题,你就会知道它们的尺寸可能非常巨大,包含数百万个参数。例如著名的BERT模型约有1亿1千万参数。 为了说明这一点,参见下图中的NLP中……
阅读全文
2022年3月15日
构造 IndexWriter 对象(九) 构造 IndexWriter 对象(八) 构造 IndexWriter 对象(七) 构造 IndexWriter 对象(六) 构造 IndexWriter 对象(五) 构造 IndexWriter 对象(四) 构造 IndexWriter 对象(三) 构造 IndexWriter 对象(二) 构造 IndexWriter 对象(一) 本文承接 构造 IndexWriter 对象(九),继续介绍调用 IndexWriter 的构造函数的流程。 调用 IndexWriter 的构造函数的流程图 图 1: 生成对象 IndexFileDeleter 我们紧接上一篇文章,继续介绍剩余的流程……
阅读全文
2022年3月15日
作者:卢克 58同城高级架构师 导读:倒排索引是搜索引擎的核心技术,主要于解决海量数据下的快速检索问题。同数据库技术中索引原理一样,在搜索引擎中创建了倒排索引后,查询性能非常好,但是数据的快速/大量更新却是个棘手的问题。在实际应用中,往往优先保证检索性能而牺牲了更新的时效性。 本文主要……
阅读全文
2022年3月15日
网易游戏资深开发工程师林小铂为大家带来网易游戏基于 Flink 的流式 ETL 建设的介绍。内容包括: 业务背景 专用 ETL EntryX 通用 ETL 调优实践 未来规划 一. 业务背景 网易游戏 ETL 服务概况 网易游戏的基础数据主要日志方式采集,这些日志通常是非结构化或半结构化数据,需要经过数据集成 ETL 才可以入库至实时或离线的数据仓库。此后……
阅读全文
2022年3月15日
分享嘉宾:申恩兆、李志然 新浪微博 编辑整理:赵文娇、Hoh 出品平台:DataFunTalk 导读: 微博作为全球领先的中文广场社交平台,拥有海量用户与数据。在从海量数据中挖掘有价值的信息,为业务赋能的过程中,微博的推荐算法经历了数次升级换代,积累了许多经验。今天跟大家分享下,在此过程中……
阅读全文
2022年3月15日
来源: 贝壳智搜 作为效果优化系列的第二篇, 第一篇,本篇旨在从工程角度介绍算法迭代系统重塑模型迭代流程的实施思路。此系统作为效果工具链的其中一部分,主要功能使算法工程师不用离开 算法迭代系统,即可完成 数据处理、 模型训练、 模型评估 到 服务部署 工作。 1.背景介绍 近些年来,人工智能已成为当今社……
阅读全文
2022年3月15日
作者:方军 & 菲克 & 可乐 & 大勋 部门:有赞 电商移动 技术同学的三个阶段 首先,根据技术同学对业务的理解程度,可以划分为3个阶段。 第一阶段 PRD翻译机 这一阶段的技术同学,PRD说什么做什么,只要验收通过,那么他们就觉得任务就算圆满完成了。不关心需求背景,不关心需求价值,不关心背后业务逻辑。……
阅读全文
2022年3月15日
在执行 flush()的过程中,Lucene 会将内存中的索引信息生成索引文件,其生成的时机点如下图红色框标注: 图 1: 图一中的流程是 flush()阶段的其中一个流程点,完整的 flush()过程可以看系列文章 文档提交之 flush, 索引文件的生成 系列文章将会介绍图一中红框标注的每一个流程……
阅读全文
2022年3月15日
文章作者:王华呈 360 资深算法工程师 编辑整理:杨辉之 内容来源:爱奇艺技术沙龙 出品社区:DataFun 导读: 随着展示广告业务数据量的日益增长,360展示广告召回系统也随之也进行不断升级改进。本次介绍主要从召回系统演进的角度详细阐述工程实践中的算法应用、技术难点以及解决方案。主要分成三块……
阅读全文
2022年3月15日
作者: 爱奇艺技术产品团队 数据作为互联网时代的基础生产资料,在各大公司企业拥有举足轻重的地位。数据的价值在互联网公司的体现,大致而言可以分成三类: 发掘数据中的信息来指导决策,如产品运营、用户增长相关的 BI 报表 依托数据优化用户体验和变现效率,如信息分发场景下的个性化推荐、效果广告等 基于……
阅读全文