来自: CDA数据分析师(微信号:cdacdacda),作者:Cassie Kozyrkov,编译:Mika

关于作者:

Cassie Kozyrkov,Google首席决策师。致力于统计学, 机器学习 /人工智能、数据、决策科学。, 原文链接

数据科学是让数据变得有用的学科。 在本文中我将对数据科学中以下三个概念进行解读:

  • 统计

  • 机器学习

  • 数据挖掘/分析

1. 定义数据科学

看到数据科学这个术语的早期历史,你会发现当时有两个概念是密不可分的。

  • 大数据意味着要更多地利用计算机

  • 统计学很难把纸上的算法通过计算机实现

因此,数据科学诞生了。最开始数据科学家的的定义是“能够编程的统计学家”。如今看来,这个说法并不准确,但首先让我们看到数据科学本身。

2003年的数据科学期刊中曾提出:“‘数据科学’意味着任何与数据有关的内容”。我很同意这个观点,现在一切都离不开数据。

之后,我们看到了很多不同的观点,比如Conway的维恩图(下图),以及Mason和Wiggins的经典观点。

Drew Conway对数据科学的定义

我个人更喜欢维基百科上的定义:

数据科学是“结合了统计、数据分析、机器学习及其相关方法的概念”,以便用数据“理解和分析实际现象”。

这有些复杂了,让我们精简一下,即:

“数据科学是让数据有用的学科。”

你现在可能会想,但这也太精简了,“有用”这个词怎么能囊括所有这些术语呢?

那么让我们先看到下面的图。

统计学家和机器学习工程师之间的区别,并不是前者使用R语言而后者使用Python。由于许多原因,用SQL、R、Python进行分类是不明智的,如今你甚至可以用SQL进行机器学习。

新手还喜欢通过算法进行区分,许多大学课程也是这么安排的,这也是不明智的。最好不要用直方图、t检验以及神经网络进行分类。坦率地说,如果你很聪明,其实你可以用相同的算法解决任何数据科学问题。

我建议可以这样进行区分:

这指的是什么呢?当然是决定。你可以根据所需的事实,通过描述性分析得出决策。

我们的行动和决定会影响周围的世界。我们之前谈到要让数据变得有用,而这与现实世界的行动是紧密相关的。

以下是决策导向图,完成这三点能够让数据变得有用。

2. 数据挖掘

如果你不知道想做出什么样的决定,那么最好的做法就是去寻找灵感。这就称为数据挖掘、数据分析、描述性分析、探索性数据分析或(EDA)或知识发现(KD)。

分析的黄金法则:只对你所看到的做出结论。

你可以将数据集想象为在暗室中发现的一堆底片。数据挖掘就是让设备尽快曝光这些照片,看是否能从中得出启发。数据挖掘的黄金法则是:只能对你能看到的做出结论,不要对你看不到的内容做出判断,因为你需要统计数据等更多的专业知识。

数据挖掘的专业知识取决于检查数据的速度。一开始暗房会令人生畏,但其实也没什么大不了的,只是学会使用设备就行了。当你开始乐在其中时,你就可以称为数据分析师了;当你能够�