2022年3月14日
原文自: 大快搜索 公众号 自然语言处理的基础涉及到对词的表征。华盛顿大学计算机科学与工程教授 Noah Smith(史諾亞)近日在 arXiv 发布了一篇入门介绍论文,由浅入深通俗易懂地介绍了自然语言处理中对词的处理和表示方法。 摘要:这篇介绍论文的目的是讲述如何让计算机处理语言的故事。这是自然语言处理(N……
阅读全文
2022年3月14日
A data warehouse is a subject-oriented, integrated, nonvolatile, and time-variant collection of data in support of management’s decisions. —— Bill Inmon 一、数据集成 VS 数据同步 「数据集成」往往和「数据同步」在概念上存在一定的混淆,为此我们对这二者进行了区分: 「数据集成」 特指面向数据仓库 ODS 层的数据同步过程; 「数据同步」 面向的是一般化的 Source 到 Sink 的数据传输过程。 二者的关系如……
阅读全文
2022年3月14日
分享嘉宾:赵争超 前微拍堂算法负责人 编辑整理:王岩 出品平台:DataFunTalk 导读: 当前阶段,“个性化推荐”早已成为了电商平台的基建工程,也是AI驱动业务增长的重要支撑,概括地说,个性化推荐是一门AI结合消费者行为心理学,运筹优化等多个领域的交叉学科。而今天的分享,是我们对“个……
阅读全文
2022年3月14日
分享嘉宾:彭力 小米 编辑整理:马瑶 出品平台:DataFunTalk 导读: 小米知识图谱于2017年创立,已支持公司了每天亿级的访问,已赋能小爱同学,小米有品、智能问答、用户画像、虚拟助手、智能客服等互联网产品。通过引入知识图谱,这些产品在内容理解、用户理解、实体推荐等方面都有了显著的……
阅读全文
2022年3月14日
随着双11的开启,物流业也迎来了年度大考。2021年双11期间,递四方作为物流仓储服务方,布局仓库和分拣点超40+个,50w+平米作业场地,单日订单峰值达千万级别,海量购物订单由递四方配送到家,消费者由尾款人秒变收货人。 一 业务介绍 递四方成立于2004年,创业在深圳,是国内最早的国……
阅读全文
2022年3月14日
Embedding 技术概览: 对其它 Embedding 技术不熟悉,可以看我的上一篇文章: 深度学习推荐系统中各类流行的 Embedding 方法(上) 1. Graph Embedding 简介 Word2Vec 和其衍生出的 Item2Vec 类模型是 Embedding 技术的基础性方法,二者都是建立在“序列”样本(比如句子、用户行为序列)的基础上的。在互联网场景下,数据对象之间更多呈现的是图结构,所以 Item2Vec 在处理大量的网……
阅读全文
2022年3月14日
Flush与Compaction其实属于Write流程的继续,所以本文应该称之为" Write后传"。在2.0版本中,最主要的变化就是新增了In-memory Flush/Compaction,而DateTieredCompaction并不算2.0新加入的特性,2……
阅读全文
2022年3月14日
分享嘉宾:张菡 京东 算法工程师 编辑整理:吴祺尧 出品平台:DataFunTalk 导读: 搜索主要经历四个阶段:召回、粗排、精排和重排,最后呈现给用户最终的结果。而召回的结果主要来自两个部分:倒排检索和语义召回。传统的倒排检索依赖字面匹配,很难去召回一些语义相似但是字面不匹配的商品。传统……
阅读全文
2022年3月14日
原文地址: https://zhuanlan.zhihu.com/p/97821040 一般的推荐系统主要包括召回、排序和后续的业务机制(重排序、多样性保证、用户体验保证等等)这三大模块,而其中召回模块主要负责根据用户和item的特征,从众多待推荐的候选item中初步筛选出用户可能感兴趣的item。一般而言召回模块都是多路并发的,各路的不同召回模型之间互……
阅读全文
2022年3月14日
1910年,英国哲学家伯特兰·罗素(Bertrand Russell )和其老师怀特海(Alfred North Whitehead)合著的《数学原理》一书问世,这本书是如此的深奥,尤其对中国人而言,因为直到100多年后的今天,仍然没有完整而权威的中译本(能看懂的人确实很少)。不过想想现在连一般的科普作品都……
阅读全文