2022年3月15日
转载自 蘑菇先生学习记 今天带来一篇论文的分享,KDD'21的Applied Data Science Track中,淘宝搜索发表的一篇EBR文章[9]: Embedding-based Product Retrieval in Taobao Search 。论文要讨论的几大问题提前预览下: 搜索场景中,query如何 充分地进行语义表征 ?电商平台的query通常是短query,如何对有限长度的que……
阅读全文
2022年3月15日
前言 在互联网业务中,“增长”是永恒的主题,但随着互联网时代的发展,野蛮增长的流量红利已逐渐消失,如何在策略效果不可见的条件下,实现有效增长是当下互联网企业的难题。面对未知的策略价值,在线实验成为了有效的测度手段,自2000年 Google 将实验技术应用在互联网产品中,在线实验已经成为互联网企……
阅读全文
2022年3月15日
前言:本文将介绍随机选择,分治法,减治法的思想,以及TopK问题优化的来龙去脉,原理与细节,保证有收获。 面试中,TopK,是问得比较多的几个问题之一,到底有几种方法,这些方案里蕴含的优化思路究竟是怎么样的,今天和大家聊一聊。 _画外音:_ 除非校招,我在面试过程中从不问TopK这个问……
阅读全文
2022年3月15日
背景 内容推荐是淘宝推荐领域的重要阵地之一,每天会有数以千万计的用户进入内容推荐场景并消费各式各样的内容,其中不乏数量众多的新用户。新用户冷启动是推荐领域的经典问题,我们的召回-粗排-排序-重排推荐链路中,召回模块是新用户冷启动的重要核心优化点。 目前针对新用户的召回模块中,主要包含……
阅读全文
2022年3月15日
本文作者:kaelhua,腾讯 WXG 后台开发工程师 背景 写这篇文章很大的原因在于不论是内网还是外网,分享内存检索引擎设计的资料都非常稀少,且存量的资料大多侧重于功能性的介绍。 另一方面,在磁盘检索引擎方面,由于开源搜索引擎 ES 的盛行,对于其使用的索引库 lucence 的分析资料反而较为丰富。 本文意在通过……
阅读全文
2022年3月15日
分享嘉宾:闰辰 阿里文娱 高级算法专家 编辑整理:韩佳 导读: 大家都知道视频作为4G以及5G时代最便捷的信息载体。它在给用户带来极大便利的同时也会给搜索带来了更大的挑战。视频不论从制作、存储、计算还是分发,都比文字模态的信息要困难很多。今天分享会从四个方面给大家进行介绍: 阿里文娱搜索业务……
阅读全文
2022年3月15日
作者 | 齐光 阿里云云栖号 微信号 yunqiinsight 流计算的应用与实践在大数据领域越来越常见,其重要性不言而喻,常见的流计算引擎有 Google DataFlow、Apache Flink,Apache Kafka Streams,Apache Spark Streaming 等。流计算系统中的数据一致性一般是用消息处理语义来定义的,如某引擎声称可以提供「恰……
阅读全文
2022年3月15日
文章作者:翦浩 脉脉 编辑整理:蒋权 内容来源:DataFun AI Talk 大家好,今天想和大家讨论下相关推荐技术通用的特点及在实践中的改进点,这也是我们团队在研发实践中一些经验总结。 首先,推荐解决主要问题是给用户在没有行为的新闻上预测一个偏好概率,然后通过概率值由高到低排序推荐给用户。如图简单……
阅读全文
2022年3月15日
分享嘉宾:邸星星@汽车之家 编辑整理:DataFun、Flink中文社区 导读: 本文将介绍如何基于Apache Iceberg构建湖仓一体架构,将数据可见性提升至分钟级;从多维分析的角度来探讨引入Apache Iceberg带来的收益,以及未来还有哪些收益可以期待。 01 数据仓库架构升级的背……
阅读全文
2022年3月15日
文章摘要:在发送消息给RocketMQ后,消费者需要消费。消息的消费比发送要复杂一些,那么RocketMQ是如何来做的呢? 在RocketMQ系列文章的前面几篇幅中已经对其“RPC通信部分”和“普通消息发送”两部分进行了详细的阐述,本文将主要从消息消费为切入点简要地介绍下“Rock……
阅读全文