2022年3月15日
作者:王连臣 来源:58技术 导读 58同城作为国内最大的生活信息服务提供商,涵盖招聘、房产、车辆、兼职、黄页等海量的生活分类信息。随着各个业务线业务的蓬勃发展,用户在网站上可获取的分类信息是爆炸性增长的。如何解决信息过载,帮助用户快速找到关注的信息,已经成为用户体验提升的关键点与服务……
阅读全文
2022年3月15日
1.1 机器学习概述——机器学习的发展 目前人工智能的三大学派: 符号主义(symbolicism),又称为逻辑主义、心理学派或计算机学派,其原理主要为物理符号系统(即符号操作系统)假设和有限合理性原理。 连接主义(connectionism),又称为仿生学派或生理学派,其主要原理为神经网络……
阅读全文
2022年3月15日
分享嘉宾:陈琳 58同城 算法架构师 编辑整理:Duoli 出品平台:DataFunTalk 导读: 58本地服务由数百个细分品类、多个创新业务和国际业务组成,如何构建智能化的流量分发体系是一项挑战,我们通过整合搜索和推荐场景构建了一套统一的流量分发系统,本次分享将主要介绍系统中的算法实践,……
阅读全文
2022年3月15日
分享嘉宾:潘胜一 网易严选 算法专家 ,严选人工智能部搜索推荐负责人。团队负责的业务包括搜索、推荐、内外部广告、用户模型等。 编辑整理:许建军 出品平台:DataFunTalk 导读: 本文主要分享 “全能选手” 召回表征算法实践。首先简单介绍下业务背景: 网易严选人工智能部……
阅读全文
2022年3月15日
实时热门统计 操作步骤: 先从Kafka读取消费数据 使用map算子对数据进行预处理 过滤数据,只留住pv数据 使用timewindow,每隔10秒创建一个20秒的window 然后将窗口自定义预聚合,并且兹定于窗口函数,按指定输入输出case操作数据 上面操作时候返回的是DataStream……
阅读全文
2022年3月15日
作者:zhongzhao,腾讯 PCG 应用研究员 在推荐系统中,最常用的排序模型是以用户点击为目标的CTR预估模型,它没有考虑用户点击后的消费深度,也没有考虑用户的多种互动行为带来的生态方面的收益。为了取得CTR以外的更多收益,QQ看点团队在深度学习框架下,对推荐系统中的多目标建模做了一……
阅读全文
2022年3月15日
导读:百度搜索中台内容计算架构为在线提供了数十亿的异构且有丰富特征和信号的优质原材料。我们以 Serverless 理念为指引,通过FaaS化和智能化的系统性建设,构建了新一代内容数据计算系统,实现了业务研发效率、资源成本和架构稳定性维护性的显著提升。本文从搜索中台内容架构演进过程中遇到的问题入手, 分……
阅读全文
2022年3月15日
深度语义匹配模型系列文章会向大家介绍几种经典的表示型和交互型模型原理及其优缺点,同时后续的实践篇将会介绍匹配模型在智能客服中的实践应用。 一、背景 工业界的很多应用都有在语义上衡量本文相似度的需求,直接目标就是判断两句话是否表达了相同或相似意思,我们将这类需求统称为“语义匹配”,nl……
阅读全文
2022年3月15日
分享嘉宾:汪昆 阿里巴巴 编辑整理:Hoh Xil 内容来源:大鱼技术沙龙 出品社区:DataFun 导读: 本次分享的题目是 UC 国际信息流推荐中的多语言内容理解,讲一下我们在国际信流推荐场景下的多语言内容理解方面的一些工作和思考,主要分为: 多语言内容理解的需求和挑战 多语言内容结构化信号建设方法 总结……
阅读全文
2022年3月15日
文章来源: https://github.com/zzboy/lucene/blob/master/lucene%E5%80%92%E6%8E%92%E7%B4%A2%E5%BC%95%E7%BC%93%E5%86%B2%E6%B1%A0%E7%9A%84%E7%BB%86%E8%8A%82.md 倒排索引要存哪些信息 提到倒排索引,第一感觉是词到文档列表的映射,实际上,倒排索引需要存储的信息不止词和文档列表。为了使用余弦相似度计算搜索词和文档的相似度,需要计算文档中每个词的 TF-IDF 值,这样就需要记录词在每个文档中出现的频率以及包含这个词的文档数量,前者需要对应每个文档……
阅读全文