2022年3月14日
作者:芙蕖,Datawhale优秀学习者,东北石油大学 为了处理语言,需要将文本信息用向量的形式表达。词向量(Word Vector)或称为词嵌入(Word Embedding)就是将词语向量化。常见的生成词向量的神经网络模型有NNLM模型,C&W模型,CBOW模型和Skip-……
阅读全文
2022年3月14日
文章作者:肖茁建博士 京东 算法工程师 编辑整理:Hoh 出品平台:DataFunTalk 导读: 商品搜索引擎是电商平台满足用户购物需求的一个重要系统,它根据用户输入的搜索词,返回个性化的排序列表,以供用户选择。本文主要介绍MoE模型在京东搜索精排中的应用,以及结合实际场景对MoE模型进行……
阅读全文
2022年3月14日
_本文作者:上海交通大学赵海、蔡登,清华大学黄昌宁,香港城市大学揭春雨 _ 转载请联系原作者 本文回顾了 中文分词 在2007-2017十年间的技术进展,尤其是自 深度学习渗透到自然语言处理 以来的主要工作。我们的基本结论是,中文分词的监督机器学习方法在从非神经网络方法到神经网络方法的迁移中尚……
阅读全文
2022年3月14日
前言 在首届世界智能大会上,深醒科技首席科学家、中国科学院院士张钹发表了题为《基于大数据的人工智能》演讲,分享了中美人工智能差异、深度学习成功的三大法宝、隐患与短板以及中国如何实现人工智能基础研究赶超欧美等话题的见解。 张钹院士简介 清华大学计算机系教授,中国科学院院士,深醒科技首席科……
阅读全文
2022年3月14日
作者简介 张磊 机器学习爱好者 人工智能爱好者社区专栏作者 知乎: https://zhuanlan.zhihu.com/c_184412713 个人网站:novasky.top GitHub: https://github.com/zlxy9892 17世纪莱布尼茨设想,能否创造一种通用科学语言,可以把推理的过程,象数学一样用公式进行计算。随着计算机诞生,自动化的普及 ,通用人工智能再次受到关注,什么样的方法可以实现AG……
阅读全文
2022年3月14日
作者:amitness 编译:ronghuaiyang 导读: 有点像词向量预训练模型,这个框架可以作为很多视觉相关的任务的预训练模型,可以在少量标注样本的情况下,拿到比较好的结果。 The Illustrated SimCLR Framework Published March 04, 2020 in illustration https://amitness.com/2020/03/illustrated-simclr/ 近年来,众多的自我监督学习方法被提出用于学习图像表示,每一种方法都比前一种更好。但……
阅读全文
2022年3月14日
阿里云云栖号 最近参与了很多重构项目,有以提高服务器资源利用率为目标的Gateway网关、AMAPS等服务的重构,也有以提升架构合理性和研发效率为目标的共享业务服务化拆分,借此机会把相关内容梳理一下,是分享更是自我总结和学习。准备以重构工作中容易产生误区的地方或容易被忽视的重点来聊……
阅读全文
2022年3月14日
贝壳找房【语言模型系列】原理篇一:从 one-hot 到 Word2vec 贝壳找房【语言模型系列】原理篇二:从 ELMo 到 ALBERT 随着预训练模型在各大榜单的不断屠榜,学术界和工业界对于预训练模型的研究也愈加狂热。预训练语言模型一般基于海量语料,消耗大量的硬件资源以及时间成本,利用无监督的方法学习一个语言模型,随之应用到各种任……
阅读全文
2022年3月14日
一、背景 贝壳找房的核心业务场景主要是围绕人、房、客三者的属性与关系展开,是一个典型的图数据库应用场景。而基于此挖掘出的房产领域行业图谱已达到 500 亿三元组的量级。面对如此海量的数据,应该如何存储才能支持业务的高效查询?我们迫切需要一个高性能、高可用、可扩展的分布式图数据库平台。 二、图……
阅读全文
2022年3月14日
配套PPT下载,请识别底部二维码关注社区公众号,后台回复【 1215 】 分享嘉宾: 单厚智知乎 排序算法负责人 编辑整理: 李岩哲 内容来源: DataFun AI Talk《知乎推荐页Ranking经验分享》 出品社区: DataFun 注:欢迎转载,转载请注明出处。 本次分享主题主要从以下是三个方面展开: o 知乎推荐页场景和Rankin……
阅读全文