2022年3月15日
编辑整理 梁尔舒 向量检索基本概念 向量从表现形式上就是一个一维数组。我们需要解决的问题是使用下面的公式度量距离寻找最相似的 K 个向量。 欧式距离: 两点间的真实距离,值越小,说明距离越近; 余弦距离:就是两个向量围成夹角的 cosine 值,cosine 值越大,越相似; 汉明距离:一般作用于二值化向量,二值……
阅读全文
2022年3月15日
多个数据要同时操作,如何保证数据的完整性,以及一致性? 答:事务,是常见的做法。 举个 栗子: 用户下了一个订单,需要修改余额表,订单表,流水表,于是会有类似的伪代码: start transaction; CURD table t_account; any Exception rollback; CURD table t_order; any Exception rollback; CURD table t_flow; any Exception rollback; commit; 如果对余额表,订单表,流水表的SQL操作全部成功,则全部提交 如果任何一个出现问……
阅读全文
2022年3月15日
作者: 数据智能团队 爱奇艺技术产品团队 01 背景 随着互联网公司的产品和业务越来越多样,利用数据来驱动业务决策成为必然, 而AB实验正是以数据指标来判断产品功能和运营策略迭代效果的方法和工具,其可以在保证样本同时性和同质性基础上,对比两个或多个实验组在同一应用场景下的效果。 以上边的实验为例……
阅读全文
2022年3月15日
作者: JayLou 娄杰 预训练模型(Pre-trained Models,PTMs) 的出现将 NLP 带入了一个全新时代。2020 年 3 月 18 日,邱锡鹏老师发表了关于 NLP 预训练模型的综述《Pre-trained Models for Natural Language Processing: A Survey》, 这是一篇全面的综述,系统地对 PTMs 进行了归纳分类。 本文以此篇综述论文为主要参考,通过借鉴不同的归……
阅读全文
2022年3月15日
作者 | 孙子荀(授权) 编辑 | 小智 随着云结合微服务架构切实的提高了生产效率;深度学习不断深入内容处理的各个领域促进生产力的发展。 在消息系统,数据仓库,计算框架,存储系统等基础架构层建设逐步提升的基础上,大型互联网公司进一步提出了业务基础设施的需求。在基础架构和上层业务之间急需一个中台……
阅读全文
2022年3月15日
原文发布于微信公众号 - 小小挖掘机(wAIsjwj) 原文发表时间:2018-11-19 知识图谱特征学习在推荐系统中的应用步骤大致有以下三种方式: 依次训练的方法主要有:Deep Knowledge-aware Network(DKN) 联合训练的方法主要有:Ripple Network 交替训练主要采用multi-task的思路,主要方法有:Multi-……
阅读全文
2022年3月15日
桔妹导读: 每天滴滴都会为上千万人提供出行服务,在这一过程中积累了海量轨迹数据。这些轨迹数据来自于公共服务,本文介绍如何利用这些数据回馈大众,改善出行体验。 一 背景 首先简要介绍一下什么是数据挖掘。数据挖掘(Data Mining)是指从大量数据中发现特定信息和模式的过程,也有很多人将这……
阅读全文
2022年3月15日
作者 | 周博 文章来源 | 阿里巴巴中间件团队 在阿里淘宝 双11 的过程中,长期以来都是在生产环节做全链路压测的,通过实践我们发现在生产环境中做压测,实际上会和一个 IT 组织的结构、成熟度、流程等紧密相关,所以我们把全链路压测从简单的制作范围内脱离出来,变成整个业务连续性的方案。 本文分四个方面为……
阅读全文
2022年3月15日
本篇文章属于超级干货方法论,不论是产品、运营还是数据分析从业者,只要是内容型产品形态,便都会需要接触到 Feed 流,且整个工作几乎都围绕着内容优化这一主题。本篇我将讲述自己对这方面方法论的理解总结,相信读完本篇文章会对你有所帮助。 一、Feed 流是什么? Feed 流是将若干消息源组合在一起,帮助用……
阅读全文
2022年3月15日
作者: jackhan 微信AI 导 语 在如今搜索领域中,简单的关键词匹配已经无法胜任全量的query,如果能够识别出query的意图,对于返回类型多样性,提升相关资源占比以及关联相关结果更加有效。所以Query的意图识别尤为重要,在一些垂直领域中,query意图识别也演变为类目识别。借着近期工作内……
阅读全文