作者:datarevenue

编译:ronghuaiyang

来源: AI公园

这个checklist能帮助你迈出做一个成功的机器学习项目第一步。

避免混淆,用这个简单的清单来计划你的 AI 项目。

对许多人来说,机器学习仍然是一项新技术,这可能会让它难以管理。

项目经理通常不知道如何与数据科学家谈论他们的想法。

在我们规划 30 多个机器学习项目的经验中,我们提炼出了一个简单有效的checklist。

1. 项目动机

明确你的项目的更广泛的意义。

  • 你要解决的问题是什么?What is the problem you want to solve?

  • 相关联的目标策略是什么?

如果项目团队不理解你的动机,那么他们就很难提出好的建议。

有很多方法可以解决机器学习的问题。所以帮助你的团队以你最感兴趣的方式工作 —— 退一步告诉他们为什么这个项目是重要的。

2. 问题定义

  • 你想要预测的具体 输出 是什么?

对于给定的输入,你的机器学习模型将理想地学会预测非常具体的输出。

所以这里你要尽可能的清楚。“预测机器故障”可能意味着很多事情 —— “告诉我,在未来 24 小时内,意外停机的风险何时增加 50%以上”更好。

  • 你的算法有什么 输入 数据?

模型预测输出的唯一方法是从模型的输入因子中派生出来。所以,为了有机会做出好的预测,你必须有与输出相关的数据。数据越多越好。

  • 什么是预测你的具体输出的最 相关因素?

算法不能理解我们的世界。重要的是,你要给数据科学家一些提示,告诉他哪些数据实际上是相关的,这样他就可以用算法能够理解的方式选择和分割数据。

  • 你能提供多少 训练样本 ?

一个算法需要的练习比一个人要多得多。你 最少 需要 200 个样本。越多越好。

3. 性能度量

你怎么知道什么是好的结果?

  • 你有一个简单的基准测试来比较你的结果吗?

有没有一种简单的方法来利用你已有的数据进行预测?也许你可以根据去年的数字预测销售额,或者通过计算客户上一次登录后的天数来评估客户离开的风险。一个简单的基准测试可以为你的团队提供有价值的问题洞察力。它给你一些东西来衡量模型。

  • 你将如何衡量预测的 准确性 ?

  • 你期望的最低准确度是多少?

你希望预测的准确率平均在 5% 以内,还是更重要的是预测误差不超过 10%?你的模型可以以任何一种方式进行调优。哪种方式更好取决于什么对你来说是重要的。

  • 一个完美的解决方案是什么样的?

即使这对你来说是显而易见的,把它写在纸上也能帮助你理清思路。

  • 是否有 参考解决方案(如研究论文)?

如果有人以前解决过类似的问题,就把他们的解决方案当作灵感。这为每个人提供了一个共同的起点,这样他们就可以看到要使用哪些数据,可能会出现哪些问题,以及要尝试哪些算法。

4. 时间线

一个性能验证项目的时间线示例。

  • 是否有 截止日期 需要注意?

  • 你什么时候需要看到第一个结果?

  • 你想什么时候有一个完整的解决方案?

人工智能解决方案可以无限地改进。明确的最后期限有助于让团队集中精力。

5. 联系人

  • 负责 项目(PM)?

  • 谁可以授权 访问 数据集?

  • 谁能帮助 理解 当前的流程和/或简单的基准测试(领域专家)