2022年3月14日
来源: Datawhale干货 作者:吴忠强,东北大学,Datawhale成员 一、GBDT+LR简介 协同过滤和矩阵分解存在的劣势就是仅利用了用户与物品相互行为信息进行推荐, 忽视了用户自身特征, 物品自身特征以及上下文信息等,导致生成的结果往往会比较片面。而这次介绍的这个模型是2014年……
阅读全文
2022年3月14日
在SIGAI之前的公众号文章“大话AdaBoost算法”中我们介绍了集成学习的思想以及Boosting算法,今天的文章中我们将为大家介绍另外一种集成学习算法-随机森林。随机森林由多棵决策树组成,采用多棵决策树联合进行预测可以有效提高模型的精度。这些决策树用对训练样本集随机抽样构造……
阅读全文
2022年3月14日
给国家围棋队陪练的AI“绝艺”、精通王者荣耀全英雄的策略协作型AI“绝悟”、能歌善舞的AI虚拟人艾灵、在滨海大厦种番茄的AI智慧农业方案iGrow、以及与钟南山院士团队合作预测新冠肺炎走向的AI,这些都是腾讯AI Lab耳熟能详的一些工作。同样为人熟知的是实验室副主任、著名语音识别……
阅读全文
2022年3月14日
阿里近几年公开的推荐领域算法可真不少,既有传统领域的探索如MLR算法,还有深度学习领域的探索如entire -space multi-task model,Deep Interest Network等,同时跟清华大学合作展开了强化学习领域的探索,提出了MARDPG算法。从本篇开始,我们就一起来探秘这些算法。这里,我们只是大体了解一……
阅读全文
2022年3月14日
数学在机器学习中非常重要,不论是在算法上理解模型代码,还是在工程上构建系统,数学都必不可少。通常离开学校后很难有机会静下心学习数学知识,因此我们最好能通过阅读小组或读书会等形式营造环境,并专注学习那些在实践中常常需要用到的数学知识。 数学达到什么水平才可以开始机器学习?人们并不清楚……
阅读全文
2022年3月14日
英文原文 翻译地址 回顾 在 前一节 中,我们知道 CRF 层可以从训练数据集中学习一些约束,以确保最终预测的实体标签序列是有效的。 约束条件可以是: 句子中第一个单词的标签应该以“B-”或“O”开头,而不是“I-” “B-label1 I-label2 I-label3 I-…”,在这个模式中,label1、label2、label3……
阅读全文
2022年3月14日
问题1:分箱后,各箱badrate单调递增从业务上怎么理解呀? 我们有个先验知识,多头越多badrate越大,历史逾期越多badrate越大…等等,如果变量分箱后不符合这个先验,可能就把他剃掉了。 Bad Rate: 坏样本率,指的是将特征进行分箱之后,每个bin下的样本所统计……
阅读全文
2022年3月14日
源 | 机器学习算法全栈工程师 ID:Jeemy110 作者:章华燕 逻辑回归详解 分类是监督学习的一个核心问题,在监督学习中,当输出变量Y取有限个离散值时,预测问题便成为分类问题。这时,输入变量X可以是离散的,也可以是连续的。监督学习从数据中学习一个分类模型或分类决策函数,称为分类器(cl……
阅读全文
2022年3月14日
原文地址: https://www.cnblogs.com/wkang/p/9657032.html 1. GBDT + LR 是什么 本质上GBDT+LR是一种具有stacking思想的二分类器模型,所以可以用来解决二分类问题。这个方法出自于Facebook 2014年的论文 Practical Lessons from Predicting Clicks on Ads at Facebook 。 2. GBDT + LR 用在哪 GBDT+LR 使用最广泛的场景是CTR点击率预估,即预测当给用户推送的广告会不会被用户点击。……
阅读全文
2022年3月14日
当你看到前任写成一团毛球的代码块;新增几行代码需先捋半天逻辑的超级大函数;好不容易在迷宫里找到方向,小心翼翼地添加上新代码,却将别的调用系统给弄垮时;还有运行缓慢的老系统…… 此时程序员只有两个选择: 要么忍,要么重构**。** 忍是有极限的,重构的“三次法则”表示:程序员第一次看到乱……
阅读全文