个机器学习开放性面试题没有明确答案

机器学习有非常多令人困惑及不解的地方，很多问题都没有明确的答案。但在面试中，如何探查到面试官想要提问的知识点就显得非常重要了。在本文中，作者给出了 25 个非常有意思的机器学习面试问题，这些问题都没有给出明确的答案，但都有一定的提示。读者也可以在留言中尝试。

许多数据科学家主要是从一个数据从业者的角度来研究机器学习（ML）。因此，关于机器学习，我们应该尽可能多地把注意力放在新的程序包、框架、技术等方面，而不是关于核心理论的深入研究。在本文中，我所定义的机器学习包含所有的统计机器学习方法，因此不仅仅指深度学习。

然而，经过一番努力的探究和思考后，我们可以提出很多不错的机器学习问题，而当我们试图回答和分析这些问题时，就可以很好地揭示问题更深层次的内涵。基本上，这些问题可能有助于我们摆脱上面所说的那堆问题。我们并非只想一直对数据集进行操作，我们想更加深入地研究机器学习技术的特性、奇怪的地方以及复杂的细节，并最终能够很好地接受它们。

事实上，网络上有很多关于「机器学习面试问题」的文章，本文希望能稍微用不一样的、有趣的方式来讨论这些问题。

声明： 我将这些问题列举出来只是为了启发大家的思考，促进相关的讨论。这个问题并没有现成的答案。我们会对某些问题给出提示，而这只是为了引发进一步的讨论，而不是给出了一个确切的答案。每个问题都值得被更详细地讨论，因此也就没有固定答案。有些问题是经过设计特意提出的，而有些只是为了逗大家开心。

问题

** **

1. 我在 95% 的置信区间下构建了一个线性回归模型。这是否意味着我的模型参数对于试图近似的函数有 95% 的概率是真实的估计值？（提示：这实际上意味着在 95% 的试验情况下…）

2. Hadoop 文件系统和 KNN（k 最近邻）算法有什么相似之处呢？（提示：都很「懒」）

3. 哪个模型结构的表示能力更强大？（例如，它可以精确地表示一个给定的布尔函数），是一个单层感知机还是一个两层的决策树？（提示：以异或函数为例）

4. 对于一个两层决策树和一个不带有任何激活函数的两层神经网络，谁更加强大？（提示：考虑一下非线性函数的情况？）

5. 神经网络可以作为降维的工具吗？请详细解释一下。（提示：自编码器）

6. 似乎很多人都忽视了截距项在线性回归模型中的作用，请告诉我一个截距项的功能。（提示：噪声（「垃圾」）收集器）

7. Lasso 正则化可以将系数降低到正好为零。岭回归可以将系数降低到非常小的非零值。你能从两个简单的函数「|x| 和 x²」的图像中直观地解释他们的不同之处吗？（提示：请注意 |x| 函数图像中的尖点）

8. 假设你对数据集（连续值）的分布一无所知，你不能假设它是高斯分布。请用最简单的论证来说明：无论真是的分布是什么，你都能保证有大约 89% 的数据会落在均值附近 +/- 3 个标准差的范围内。（提示：马尔可夫的博士导师是谁？）

9. 大多数机器学习算法涉及到一些对矩阵的操作，例如矩阵乘法和求逆矩阵。请给出一个简单的数学证明，说明为什么这种机器学习算法的 mini-batch 版本可能比在整个数据集上进行训练的计算效率更高？（提示：矩阵乘法的时间复杂度…）

10. 难道你不认为时间序列是一个

文章目录

个机器学习开放性面试题没有明确答案

See Also

最近文章

福利派送

分类

标签

友情链接

其它