2022年3月15日
背景 在CTR预估任务中,线性模型仍占有半壁江山。利用手工构造的交叉组合特征来使线性模型具有“记忆性”,使模型记住共现频率较高的特征组合,往往也能达到一个不错的baseline,且可解释性强。但这种方式有着较为明显的缺点:首先,特征工程需要耗费太多精力。其次,因为模型是强行记住这些……
阅读全文
2022年3月15日
本文根据 吴信东 (IEEE & AAAS Fellow,明略科技 首席科学家) 教授在2019知识图谱前沿技术论坛 的分享内容,编辑整理而成,发布于 DataFunTalk,编辑整理: 王吉东。 注:欢迎转载,转载请在留言区内留言。 导读: 知识图谱的构建包括逻辑建模、隐含空间分析、人机交互和本体模型支撑等多种方法。……
阅读全文
2022年3月15日
分享嘉宾:马彬 博士 美团 技术专家 编辑整理:刘小辉 出品平台:DataFunTalk、AI启蒙者 导读: 在硬件、软件技术发展的助推下,我们正进入一个视频爆发的时代,无论从用户还是内容维度,视频数据都蕴含着非常大的信息量,在视频数据的分析中AI算法大有可为,无论是视频的创作、审核、编辑还是……
阅读全文
2022年3月15日
分享嘉宾:王泉博士 百度 资深研发工程师 编辑整理:付一韬 出品平台:DataFunTalk 导读: 知识图谱是让机器像人类一样理解客观世界的基石。本次报告首先简要介绍知识图谱在百度的位置及整体的发展概况。接下来从通用知识图谱和行业知识图谱两个分支重点介绍百度知识图谱技术及应用的最新进展,另……
阅读全文
2022年3月15日
一. 概述 HBase 是一个基于 Google BigTable 论文设计的高可靠性、高性能、可伸缩的分布式存储系统。 网上关于 HBase 的文章很多,官方文档介绍的也比较详细,本篇文章不介绍HBase基本的细节。 本文从 HBase 写链路开始分析,然后针对少量随机读和海量随机写入场景入手,全方面量化分析各种资源的开销, 从而做到以下两点: 在给定……
阅读全文
2022年3月15日
作者:王瑞楠,Datawhale 优秀学习者 转载地址 摘要:对于数据挖掘项目,本文将学习应该从哪些角度分析数据?如何对数据进行整体把握,如何处理异常值与缺失值,从哪些维度进行特征及预测值分析? 探索性数据分析(Exploratory Data Analysis,EDA)是指对已有数据在尽量少的先……
阅读全文
2022年3月15日
转载自 有赞技术团队博客 上文 说到有赞搜索系统的架构演进,为了支撑不断演进的技术架构,除了 Elasticsearch 的维护优化之外,我们也开发了上层的中间件来应对不断提高的稳定性和性能要求。 Elasticsearch 的检索执行效率可以表示为: _O(num_of_files _logN)* 其中 num_of_files 表示索引文件段的个数,N 表示需要遍历的数据量,从这里我们可以总结出提升查询性能可……
阅读全文
2022年3月15日
本文是工业界和学术界共同合作的产物。Layer 6 AI 和 University College Dublin 的科学家们提出一种 通过整合矩阵分解(MF)模型和对抗式 Seq2Seq 模型的多任务学习框架,并利用强化学习来尝试生成评论,借以解答推荐系统的研究和应用领域一种“殿堂”级的难题——推荐系统的评分预测的可解释性。除此之外,该模型的预测准确性……
阅读全文
2022年3月15日
作者:伟龙 小卓 文魁等 美团技术团队投稿 CTR模型在互联网的搜索、推荐、广告等场景有着广泛的应用。近年来,随着深度神经网络的引入,CTR模型的推理对硬件算力的要求逐渐增加。本文介绍了美团在CTR模型优化的实践。通过分析模型结构特点,结合GPU硬件架构,我们设计了一系列流程对模型进行定……
阅读全文
2022年3月15日
上一篇 贝壳找房【语言模型系列】原理篇一:从 one-hot 到 Word2vec 讲到了 word2vec 存在”一词多义“的问题,其主要原因在于 word2vec 生成的词向量是“静态”的,每一个词固定的对应着一个词向量表示,也就是说在 word2vec 训练好之后,在使用单词的向量表示的时候,不论该词的上下文是什么,这个单词的向量表示不会随着上下文语境的变化而改……
阅读全文