2022年3月15日
对话系统是一个庞大的系统,涉及的问题很多,本文主要讲解隐马尔可夫模型(Hidden Markov Model,HMM)在对话管理(Dialog Management,DM)中的应用。 DM 在对话系统中的作用是维护对话状态并根据当前对话状态选择下一步合适的动作。 在贝壳找房 APP 中,客户和经纪人的对话过程可……
阅读全文
2022年3月15日
近期,skymind.ai 发布了一份非常全面的开源数据集。内容包括生物识别、自然图像以及深度学习图像等数据集,现机器之心将其整理如下:(内附链接哦~) 最近新增数据集 开源生物识别数据: http://openbiometrics.org/ Google Audioset:扩展了 632 个音频分类样本,并从 YouTube 视频中提取了 2,084,320 个人类标记的 10 秒……
阅读全文
2022年3月15日
作者:田杨军 ,Datawhale 优秀学习者 系列文章: 零基础入门数据挖掘——数据分析实战 零基础入门数据挖掘——特征工程实战 零基础入门数据挖掘——建模调参 摘要:对于数据挖掘项目,本文将学习如何进行模型融合?常见的模型融合的方法有哪些?针对不同的问题类型,应该选择哪种方法呢? 模型融合:……
阅读全文
2022年3月15日
为了减少人群聚集、防止交叉感染,很多企业延迟复工并响应国家“停工不停业、停课不停学“的号召,通过在家办公的方式陆续复工。在家,是帮助疫情平复;办公,是维护经济稳定。在特殊时期,远程办公成为企业保障日常经营的首选方式。今天与大家分享一下,在家办公,怎么高效完成远程工作。 在家办公最大……
阅读全文
2022年3月15日
第一小节 Lucene 常见查询的使用 从本篇文章开始介绍 Lucene 查询阶段的内容,由于 Lucene 提供了几十种不同方式的查询,但其核心的查询逻辑是一致的,该系列的文章通过 Query 的其中的一个子类 BooleanQuery,同时也是作者在实际业务中最常使用的,来介绍 Lucene 的查询原理。 查询方式 下文中先介绍几种常用的查询方式的简……
阅读全文
2022年3月15日
2020年的开局太不寻常,一场新冠疫情闹得大家都过不好年,这个春节假期对于我们来说可能是史上最长春节。除了待在家里不能出门外,对我们生活并没有其他的影响。但疫情对各大企业的影响可不是那么简单了。 因疫情原因,很多企业都延长了假期,同时也组织团队成员们开启了远程办公的模式。没办法,……
阅读全文
2022年3月15日
丁香园大数据 NLP 前言 最近,我司各条业务线对于搜索优化的需求日益增多,NLP 组也将对搜索业务给予更多的工作支持。后续分享,我们会关注过往的知识图谱、短本文理解等相关技术如何落地到搜索业务中。 影响搜索结果的因素有很多,包括对 短文本的正确理解(实体词识别、纠错、意图分析等)、 长文本良好结……
阅读全文
2022年3月15日
最近在做时间序列的项目,所以总结一下构造的特征的方法和一些经验。 先放上大纲: 1.时间特征 1.1 连续时间 持续时间: 浏览时长; 间隔时间: 购买/点击距今时长; 距离假期的前后时长(节假日前和节假日后可能会出现明显的数据波动); 1.2 离散时间 年、季度、季节、月、星期、日、时 等; 基本特征,如果用 Xgboost 模……
阅读全文
2022年3月15日
系列文章: 构造 IndexWriter 对象(五) 构造 IndexWriter 对象(四) 构造 IndexWriter 对象(三) 构造 IndexWriter 对象(二) 构造 IndexWriter 对象(一) 本文承接 构造 IndexWriter 对象(五),继续介绍调用 IndexWriter 的构造函数的流程。 调用 IndexWriter 的构造函数的流程图 图 1: 生成对象 BufferedUpdatesStream 图 2: 介绍该对象会涉及很多在 文档提交之 flush 系列文章中的知识点,故如果没有看过或者不熟悉 flush 流程的……
阅读全文
2022年3月15日
原文: 姚凯飞 「无法衡量就无法优化」,对于互联网产品而言,不仅是推荐系统,整个app系统的更新迭代必然需要建立一套 「度量衡」,来 「把控整个流程优化的方向」 。而abtest系统就是一个很好的进行变量控制和优化方向选取的 「工具」, 「循环:衡量-发现-迭代-验证」 。所谓 「精细化迭代」 是一……
阅读全文