2022年3月14日
问题1:介绍下K近邻、kmeans聚类算法 K近邻算法也称为knn算法。 ** ** knn算法的核心思想是未标记样本的类别,由距离其最近的k个邻居投票来决定。 具体的,假设我们有一个已标记好的数据集。此时有一个未标记的数据样本,我们的任务是预测出这个数据样本所属的类别。knn的原理是,计算待……
阅读全文
2022年3月14日
第一篇: 【阿里妈妈数据科学系列】第一篇:认识在线实验 (ABTest) 拾芥、芋萌 阿里妈妈技术 背景 AB Test 是为同一目标制定两个方案,在同一时间维度,保证其他条件一致的情况下,分析实验组跟对照组的区别,根据不同的实验类型以及应用场景,产生了不同分桶逻辑的AB Test,包括在线分流及离线抽样。在流量侧进行……
阅读全文
2022年3月14日
一、背景及痛点 1. 背景 我们在使用 Flink 做实时数仓以及数据传输过程中,遇到了一些问题:比如 Kafka 数据丢失,Flink 结合 Hive 的近实时数仓性能等。Iceberg 0.11 的新特性解决了这些业务场景碰到的问题。对比 Kafka 来说,Iceberg 在某些特定场景有自己的优势,在此我们做了一些基于 Iceberg 的实践分享。 2. 原架构……
阅读全文
2022年3月14日
来源: Flink 前言 笔者最近回顾自己对Flink技术栈细节的理解,发现对Flink的网络栈、流控与反压这一套机制存在比较大的盲区。虽然平时多次处理过作业反压的问题,但是不完全理解背后的实现显然说不过去。于是专门写一篇总结,站在大佬们的肩膀上彻底搞清楚Flink是怎么做流控与处理反压的。 F……
阅读全文
2022年3月14日
去年的 7 月 5 日,百度在北京国际会议中心开办了首届「AI 开发者大会」。在会上,百度首次喊出了「All in AI」的口号。一年的时间过去了,今天在同样地点举行的第二届开发者大会上,李彦宏说道:去年我吹过一个牛,百度的 L4 级别无人驾驶车的量产,会在 2018 年的 7 月份。今天我要说的是,这个牛,马上就……
阅读全文
2022年3月14日
作者:陈易生 原文: https://tech.ipalfish.com/blog/2021/07/30/palfish-feature-system/ 摘要: 本文作者陈易生,介绍了伴鱼平台机器学习特征系统的升级,在架构上,从 Spark 转为 Flink,解决了特征上线难的问题,以及 SQL + Python UDF 如何用于生产实践。 一、前言 在伴鱼,我们在多个在线场景使用机器学习提高用户的使用体验,例如:在伴鱼绘本中,我们根据用户的帖子浏览记录,为……
阅读全文
2022年3月14日
作者:旺角黄局长 来源:JIC投资观察(ID:JICTIMES) 天地悠悠过客匆匆潮起又潮落 恩恩怨怨生死白头几人能看透 01 中国同时出现了三支排队的队伍,富人在深圳排队离婚,中产阶级在天津排队落户,还有存在段子里的一支队伍——穷人赌球输了排队上天台。 2018年6月,历史上极为普通的一个月……
阅读全文
2022年3月14日
胡可 坚强 张博等 美团技术团队 稿 导读:后深度学习时代下,技术迭代全面进入深水区,以提升模型复杂度为主体的广告预估模型优化已经不再奏效。美团到店广告质量预估团队紧密结合业务特点,发挥深度模型结构灵活多变的优势,实现了进一步破局。 本文先介绍了美团业务的LBS空间距离约束和长周期性两大挑战……
阅读全文
2022年3月14日
疫情仍在继续,每个人为这个社会做贡献的方式,除了做好防控和不必要的恐慌外,我们更应该做好本职工作,以确保社会经济的正常运转,要做到“各司其职”。 从2月3号开始,越来越多企业选择了远程办公模式。但因为沟通不畅所带来的信息不对称、效率低下,内耗等问题,对管理者和员工都是不小的考验。 远……
阅读全文
2022年3月14日
第一篇 1、背景 在推荐系统中,评测效果,除了离线的AUC,更合理的方法是通过线上真实的AB测试,来比较策略的效果。 AB测试来自医学的双盲实验,在双盲测试中: 病人随机被分成两组,在不知情的情况下,分别服用安慰剂跟测试用药 经过一段时间后,再来比较两组病人的表现是否有显著差异。 从而决定药……
阅读全文