2022年3月15日
分享嘉宾:陈戊超、高赟 阿里 技术专家 文章整理:有感情的打字机 内容来源:Flink Forward ASIA 出品平台:DataFun 导读:Flink 是一个分布式 计算引擎,支持 批流一体 的数据处理。在实际生产中的人工智能使用场景中,Flink 在包括 特征工程,在线学习,在线预测 等方面都有一些独特优势,为了更好的……
阅读全文
2022年3月15日
本文选自“字节跳动基础架构实践”系列文章。 “字节跳动基础架构实践”系列文章是由字节跳动基础架构部门各技术团队及专家倾力打造的技术干货内容,和大家分享团队在基础架构发展和演进过程中的实践经验与教训,与各位技术同学一起交流成长。 混沌工程是通过故障注入的方式帮助系统寻找薄弱点,从而提高……
阅读全文
2022年3月15日
乌拉 百度技术 稿 导读:随着虚拟化技术的成熟和分布式框架的普及,在容器技术、可持续交付、编排系统等开源社区的推动下,以及微服务等开发理念的带动下,应用上云已经是不可逆转的趋势。 云原生带来了标准化、松耦合、易观测、易扩展的特性,为交付基建与业务解耦、更灵活的环境管理和无损发布带来新机遇……
阅读全文
2022年3月15日
作者:徐宁,腾讯应用开发工程师,腾讯学院讲师 导语 | 本文将总结一下常用的基于时间线Feed流的后台存储设计方案。结合具体的业务场景,讲述一下根据实际需求,在基本设计思路上做一些灵活运用。 一、背景 Feed流产品在我们手机APP中几乎无处不在,常见的Feed流比如微信朋友圈、新浪微博、……
阅读全文
2022年3月15日
_怎样赢得机器学习比赛:你拿别人的结果和你自己的结果与做集成。 _ —— Vitaly Kuznetsov NIPS2014。 集成模型是一种能在各种的机器学习任务上提高准确率的强有力技术。在这篇文章中,我会分享我在Kaggle比赛中的集成方法。 在第一部分中,我们会讨论从提交文件中建立集成。主要包括: 投票集成 平均 排名……
阅读全文
2022年3月15日
日志收集系统应该说是到达一定规模的公司的标配了,一个能满足业务需求、运维成本低、稳定的日志收集系统对于运维的同学和日志使用方的同学都是非常nice的。然而这时理想中的日志收集系统,现实往往不是这样的…本篇的主要内容是:首先吐槽一下公司以前的日志收集和上传;介绍新的实……
阅读全文
2022年3月15日
摘要:如果Consumer端消费消息失败,那么RocketMQ是如何对失败的异常情况进行处理? 前面两篇RocketMQ消息消费(一)/(二)篇,主要从Push/Pull两种消费模式的简要流程、长轮询机制和Consumer端负载均衡这几点内容出发,介绍了RocketMQ消息消费的正……
阅读全文
2022年3月15日
Bert最近很火,应该是最近最火爆的AI进展,网上的评价很高,那么Bert值得这么高的评价吗?我个人判断是值得。那为什么会有这么高的评价呢?是因为它有重大的理论或者模型创新吗?其实并没有,从模型创新角度看一般,创新不算大。但是架不住效果太好了,基本刷新了很多NLP的任务的最好性能……
阅读全文
2022年3月15日
张俊林 导读: 推荐或者 CTR 预估任务有一个很突出的特点:存在海量稀疏特征。海量意味着数量巨大,稀疏意味着即使在很大的训练数据里,大量特征出现频次也非常低,这往往是由于引入了大量 ID 类特征带来的。对于 DNN 排序系统,是否能够找到好的特征 Embedding 表达方式,对于系统效果是至关重要的。 虽然说,如何更好地表……
阅读全文
2022年3月15日
ROC/AUC作为机器学习的评估指标非常重要,也是面试中经常出现的问题(80%都会问到)。其实,理解它并不是非常难,但是好多朋友都遇到了一个相同的问题,那就是: 每次看书的时候都很明白,但回过头就忘了,经常容易将概念弄混。 还有的朋友面试之前背下来了,但是一紧张大脑一片空白全忘了,导……
阅读全文