逻辑回归模型融合原理详解与实战

2022年3月14日

来源： Datawhale干货作者：吴忠强，东北大学，Datawhale成员一、GBDT+LR简介协同过滤和矩阵分解存在的劣势就是仅利用了用户与物品相互行为信息进行推荐，忽视了用户自身特征，物品自身特征以及上下文信息等，导致生成的结果往往会比较片面。而这次介绍的这个模型是2014年……

阅读全文

随机森林概述

2022年3月14日

在SIGAI之前的公众号文章“大话AdaBoost算法”中我们介绍了集成学习的思想以及Boosting算法，今天的文章中我们将为大家介绍另外一种集成学习算法-随机森林。随机森林由多棵决策树组成，采用多棵决策树联合进行预测可以有效提高模型的精度。这些决策树用对训练样本集随机抽样构造……

阅读全文

我们和腾讯级专家聊了聊在领域深耕的那些年

2022年3月14日

给国家围棋队陪练的AI“绝艺”、精通王者荣耀全英雄的策略协作型AI“绝悟”、能歌善舞的AI虚拟人艾灵、在滨海大厦种番茄的AI智慧农业方案iGrow、以及与钟南山院士团队合作预测新冠肺炎走向的AI，这些都是腾讯AI Lab耳熟能详的一些工作。同样为人熟知的是实验室副主任、著名语音识别……

阅读全文

我们该如何学习机器学习中的数学

2022年3月14日

数学在机器学习中非常重要，不论是在算法上理解模型代码，还是在工程上构建系统，数学都必不可少。通常离开学校后很难有机会静下心学习数学知识，因此我们最好能通过阅读小组或读书会等形式营造环境，并专注学习那些在实践中常常需要用到的数学知识。数学达到什么水平才可以开始机器学习？人们并不清楚……

阅读全文

上的用命名实体识别任务来解释损失函数

2022年3月14日

英文原文翻译地址回顾在前一节中，我们知道 CRF 层可以从训练数据集中学习一些约束，以确保最终预测的实体标签序列是有效的。约束条件可以是：句子中第一个单词的标签应该以“B-”或“O”开头，而不是“I-” “B-label1 I-label2 I-label3 I-…”，在这个模式中，label1、label2、label3……

阅读全文

面试题精选风控建模流程分箱法的目的及第三方数据评估

2022年3月14日

问题1：分箱后，各箱badrate单调递增从业务上怎么理解呀？我们有个先验知识，多头越多badrate越大，历史逾期越多badrate越大…等等，如果变量分箱后不符合这个先验，可能就把他剃掉了。 Bad Rate：坏样本率，指的是将特征进行分箱之后，每个bin下的样本所统计……

阅读全文

从损失函数的角度详解机器学习算法之逻辑回归

2022年3月14日

源 | 机器学习算法全栈工程师 ID：Jeemy110 作者：章华燕逻辑回归详解分类是监督学习的一个核心问题，在监督学习中，当输出变量Y取有限个离散值时，预测问题便成为分类问题。这时，输入变量X可以是离散的，也可以是连续的。监督学习从数据中学习一个分类模型或分类决策函数，称为分类器(cl……

阅读全文

算法解析及实现

2022年3月14日

原文地址： https://www.cnblogs.com/wkang/p/9657032.html 1. GBDT + LR 是什么本质上GBDT+LR是一种具有stacking思想的二分类器模型，所以可以用来解决二分类问题。这个方法出自于Facebook 2014年的论文 Practical Lessons from Predicting Clicks on Ads at Facebook 。 2. GBDT + LR 用在哪 GBDT+LR 使用最广泛的场景是CTR点击率预估，即预测当给用户推送的广告会不会被用户点击。……

阅读全文