2022年3月15日
作者:果贝,阿里云资深技术专家 ,实时数仓Hologres负责人 2022年1月7日,阿里云实时数仓Hologres举行了年度发布会,在发布会上,来自阿里的资深技术专家从阿里的核心场景出发,为大家解读了实时数仓的新发展趋势“在线化、敏捷化、一站式”。通过本文,我们将会深入解读实时数仓……
阅读全文
2022年3月15日
导语:标签为用户提供了一种新的检索方式,用户和信息通过标签进行关联,信息的标签化、行为的标签化,在提供个性召回能力的同时,也有助于帮我梳理和挖掘业务品类的特征,做相关业务属性的聚合。 背景 当下全连接的信息场景,所有对于有助于连接转化效率提升的内容和考虑尤为重要,这就要求我们在实际业……
阅读全文
2022年3月15日
本文主要介绍 TNonblockingServer 服务模型,这是thrift框架提供的一种非阻塞式IO服务模型,目前是thrift框架中最好的模型,这也是我们重点介绍的模型。 thrift是Facebook开源的一款开源跨语言的RPC通信框架,主要提供三种服务模型:1)TThreadPoolServer 服务模型,这是……
阅读全文
2022年3月15日
摘要: 去年开始着手打造伴鱼公司级的实时计算平台,平台代号 Palink,由 Flink + Palfish 组合而来。 在伴鱼发展早期,出现了一系列实时性相关的需求,比如算法工程师期望可以拿到用户的实时特征数据做实时推荐,产品经理希望数据方可以提供实时指标看板做实时运营分析。 这个阶段中台数据开发工程师主要是基于……
阅读全文
2022年3月15日
原文: https://www.amazingkoala.com.cn/Lucene/yasuocunchu/2019/0130/29.html 去重编码是 Lucene 中对 int 类型数据的一种压缩存储方式,在 FacetsConfig 类中用到此方法来处理 int 类型数据。其优点在于,存储一个原本需要固定 4 个字节空间大小的 int 类型的数据,最好的情况下只要 1 个字节,最差的情况下需要 5 个字节。 处理过程 去重编码的过程主要分三步: 排序 去重 差值存储 关系图 根据 int 数值的大小,……
阅读全文
2022年3月15日
文章作者:harryzhong 腾讯 研究员 内容来源:腾讯技术工程 一、看一看介绍 1.1 看一看的场景 微信作为国内最大用户群体的应用,在人们的生活,工作,学习中提供社交功能的同时,还提供了工具,游戏,购物,支付,内容,搜索, 小程序 等服务。看一看作为微信的重要组成部分,在原有公众平台资讯阅读的……
阅读全文
2022年3月15日
本文总结了百度,华为,京东,360,vivo等接近20家公司的推荐算法校招面试经验和个人心得,以及若干学习资料和方法,相信无论是在校生还是从业人员读后都会有所收获~ 作者:Taylover1314 编辑:happyGirl 0、写在前面 秋招已经渐行渐远,休养生息(吊儿郎当)了一个多月,……
阅读全文
2022年3月15日
嵌套索引的坑 场景: 一个spu doc下有多个内嵌的csu,csu内有上下架状态,前台操作某csu上下架,在商城界面看起来未生效。 坑1: mysql binlog消息监控组件dbus 通知服务端B多台机器消息变更时,未考虑spu下csu消息的消费顺序性,导致同一spu的多个csu上下架变更消息被多……
阅读全文
2022年3月15日
在文章 索引文件的生成(一) 中我们说到,在生成 索引文件.doc、 .pos、.pay 的过程中,当处理了 128 篇文档后会生成一个 PackedBlock,并将这个 PackedBlock 的信息写入到跳表 skipList 中,使得在读取阶段能根据文档号快速跳转到目标 PackedBlock,提高查询性能。 将 PackedBlock 的信息写入到跳表 skipList 的时机……
阅读全文
2022年3月15日
分享嘉宾:董兴华 新浪微博 文章整理:凌铭 内容来源:DataFunTalk 导读: 新浪微博截止2019.9统计的数据,月活跃用户数为4.97亿,日活跃用户数为2.16亿,其中约94%为移动端用户,今天会和大家分享新浪微博在 feed 流中遇到的 NLP 问题和解决思路。主要包括: ❶ 难点与现存问题 ❷ 标签系……
阅读全文