源码系列索引文件的生成十二之

2022年3月15日

本文承接索引文件的生成（十一），继续介绍剩余的内容，为了便于下文的介绍，先给出生成索引文件.dim&&.dii 的流程图以及流程点构建BKD树的节点值（node value）的流程图：图1：图2：在前面的文章中，我们介绍了图2中处理内部节点的所有流程点，在介绍处理叶子……

阅读全文

为推荐系统生成高质量的文本解释基于互注意力机制的多任务学习模型

2022年3月15日

转自：微软研究院AI头条编者按：在个性化推荐系统中，如果能在提高推荐准确性的同时生成高质量的文本解释，将更容易获得用户的“芳心”。然而，现有方法通常将两者分开优化，或只优化其中一个目标。为了同时兼顾二者，微软亚洲研究院社会计算组结合认知科学的相关理论，提出了基于互注意力的多任务模……

阅读全文

普渡大学李攀好的图表示到底是什么

2022年3月15日

分享嘉宾：李攀博士普渡大学助理教授编辑整理：吴祺尧加州大学圣地亚哥分校出品平台：DataFunTalk 导读：图数据在现实生活中无处不在，社交媒体、互联网、生物科学领域以及知识图谱中都存在它的身影。图表示学习是最近一个相对而言比较热门并且重点研究的方向。今天，我想从信息理论的角度来……

阅读全文

贝壳找房一镜到底们的原理及在贝壳搜索的实践

2022年3月15日

一、背景在推荐系统、搜索排序、效果广告等场景中，点击率预估是十分重要的部分，CTR 算法也被誉为镶嵌在互联网技术上的明珠。在深度学习火热之前，除了简单的 LR 以外常用的算法类有：以决策树为主的 Boosting 算法；以因子分解为基础的 FM 算法。相对而言，树模型比较适合学习数值类的连续特征，而后者更适合学……

阅读全文

微服务架构之事件驱动架构

2022年3月15日

前言为了解决传统的单体应用（Monolithic Application）在可扩展性、可靠性、适应性、高部署成本等方面的问题，许多公司（比如Amazon、eBay和NetFlix等）开始使用微服务架构（Microservice Architecture）构建自己的应用。微服务架构（维……

阅读全文

一概述什么样的产品推荐效果明显

2022年3月15日

▌2.1数据层面 ▏2.1.1「稀疏性」：稳定的流量与稳定的交互比例(pv/uv) 稳定的「流量」与稳定的「交互」「比例」保证了数据的「稠密性」，单用户和单商品有「足够的数据」可以完成机器学习，并且保证一定的「置信度」。当有「新用户(新商品)」加入系统时，由于系统中缺乏用户(商品)历……

阅读全文

数据湖的体验

2022年3月15日

以下文章来源于Flink 中文社区，作者余东@去哪儿 2021年加入Qunar，主要负责数据平台Flink的运维与平台开发。本文导读背景及特点 1. 背景在使用 Flink 做实时数仓以及数据传输过程中，遇到了一些问题：比如 Kafka 数据丢失，Flink 结合 Hive 的近实时数仓性能等。Iceberg 0.11 的新特性解决了……

阅读全文

知识结构化在阿里小蜜中的应用

2022年3月15日

分享嘉宾：李凤麟阿里巴巴算法专家文章整理：付一韬内容来源：2019知识图谱前沿技术论坛出品社区：DataFun 导读：阿里小蜜是阿里巴巴服务领域的重要人工智能产品，是服务于阿里巴巴经济体、商家、企业和政府的对话机器人家族，包括阿里小蜜、店小蜜、云小蜜。小蜜机器人是基于大数据和人工智……

阅读全文

词元过滤器

2022年3月15日

本文禁止转载 word_delimiter_graph 使用非字母字符切分 tokens，并可以根据规则执行一些可选的 token 正则化。默认情况下， word_delimiter_graph 会使用以下规则：使用非字母字符作为切分点。比如 Super-Duper → Super, Duper 移除每个 token 前置和后置分隔符。比如 XL---42+'Autocoder' → XL, 42, Autocoder 在单词大小写过度位置做切分。比如 PowerShot → Power, Shot 在单词字母和数字过度位置切分。比如 XL500 → XL, 500 移除……

阅读全文