2022年3月15日
本文承接 索引文件的生成(十一),继续介绍剩余的内容,为了便于下文的介绍,先给出 生成索引文件.dim&&.dii 的流程图以及流程点构建BKD树的节点值(node value)的流程图: 图1: 图2: 在前面的文章中,我们介绍了图2中处理内部节点的所有流程点,在介绍处理叶子……
阅读全文
2022年3月15日
转自: 微软研究院AI头条 编者按:在个性化推荐系统中,如果能在提高推荐准确性的同时生成高质量的文本解释,将更容易获得用户的“芳心”。然而,现有方法通常将两者分开优化,或只优化其中一个目标。为了同时兼顾二者,微软亚洲研究院社会计算组结合认知科学的相关理论,提出了基于互注意力的多任务模……
阅读全文
2022年3月15日
分享嘉宾:李攀博士 普渡大学 助理教授 编辑整理:吴祺尧 加州大学圣地亚哥分校 出品平台:DataFunTalk 导读: 图数据在现实生活中无处不在,社交媒体、互联网、生物科学领域以及知识图谱中都存在它的身影。图表示学习是最近一个相对而言比较热门并且重点研究的方向。今天,我想从信息理论的角度来……
阅读全文
2022年3月15日
一、背景 在推荐系统、搜索排序、效果广告等场景中,点击率预估是十分重要的部分,CTR 算法也被誉为镶嵌在互联网技术上的明珠。在深度学习火热之前,除了简单的 LR 以外常用的算法类有:以决策树为主的 Boosting 算法;以因子分解为基础的 FM 算法。相对而言,树模型比较适合学习数值类的连续特征,而后者更适合学……
阅读全文
2022年3月15日
前言 为了解决传统的单体应用(Monolithic Application)在可扩展性、可靠性、适应性、高部署成本等方面的问题,许多公司(比如Amazon、eBay和NetFlix等)开始使用微服务架构(Microservice Architecture)构建自己的应用。 微服务架构(维……
阅读全文
2022年3月15日
▌2.1数据层面 ▏2.1.1「稀疏性」:稳定的流量与稳定的交互比例(pv/uv) 稳定的 「流量」 与稳定的 「交互」「比例」 保证了数据的 「稠密性」 ,单用户和单商品有 「足够的数据」 可以完成机器学习,并且保证一定的 「置信度」 。当有 「新用户(新商品)」 加入系统时,由于系统中缺乏用户(商品)历……
阅读全文
2022年3月15日
以下文章来源于Flink 中文社区 ,作者余东@去哪儿 2021年加入Qunar,主要负责数据平台Flink的运维与平台开发。 本文导读 背景及特点 1. 背景 在使用 Flink 做实时数仓以及数据传输过程中,遇到了一些问题:比如 Kafka 数据丢失,Flink 结合 Hive 的近实时数仓性能等。Iceberg 0.11 的新特性解决了……
阅读全文
2022年3月15日
分享嘉宾:李凤麟 阿里巴巴 算法专家 文章整理:付一韬 内容来源:2019知识图谱前沿技术论坛 出品社区:DataFun 导读: 阿里小蜜是阿里巴巴服务领域的重要人工智能产品,是服务于阿里巴巴经济体、商家、企业和政府的对话机器人家族,包括阿里小蜜、店小蜜、云小蜜。小蜜机器人是基于大数据和人工智……
阅读全文
2022年3月15日
本文禁止转载 word_delimiter_graph 使用非字母字符切分 tokens,并可以根据规则执行一些可选的 token 正则化。默认情况下, word_delimiter_graph 会使用以下规则: 使用非字母字符作为切分点。 比如 Super-Duper → Super, Duper 移除每个 token 前置和后置分隔符。比如 XL---42+'Autocoder' → XL, 42, Autocoder 在单词大小写过度位置做切分。 比如 PowerShot → Power, Shot 在单词字母和数字过度位置切分。 比如 XL500 → XL, 500 移除……
阅读全文
2022年3月15日
作者:美丽联合集团 算法工程师 琦琦 , 公众号关注:诗品算法 0、引言 这篇文章仍是在蘑菇街 增量学习背景下的实践,增量学习的理论很简单,但实践起来,还是有很多细节和trick的。比如,针对不同的模型结构,我们可以设计不同的优化器承接,其对应的动态正则设计方案也会有所差异。 这篇文章是已受理的……
阅读全文