数据集的算法

2016年3月31日

“有内容没有方法会带来空想；有方法没有内容带来空洞的诡辩。”
— Johann Wolfgang von Goethe (“Maxims and Reflections”, 1892)
       “或许我们日常生活中最重要的消息就是数据集——不是算法——人类水平的人工智能发展的关键因素，” 这源于Alexander Wissner Gross的一份书面回复Edge提出的问题：“你认为最近最有趣的科学新闻是什么？”

在人工智能领域曙光初现之时，它的两位创始人著名地预测，解决机器视觉问题只需要一个夏天。我们现在知道它们已经用了半个世纪。Wissner Gross开始思考这个问题：“是什么让人工智能革命持续了这么长时间？”回顾最广为人知的人工智能在过去30年中进展的时光，他发现了一个有挑衅性解释的证据：也许很多关键的人工智能的突破实际上已经被高质量的训练数据集的可用性限制，而不是由算法的进展限制。以下是我们总结的关键的人工智能里程碑：

关键算法的提议和相应的改进平均消耗的时间大约18年，而关键数据集的有效性和相应的改进消耗不足3年，大约是前者的6倍速度。

如果是真的，这个假设在AI未来发展有基础性的影响。例如，优先整理优质的训练数据集可能会在人工智能突破方面获得量级的加速而不是通过纯粹的算法进步。毕竟，专注于数据集而不是算法可能是一个更简单的途径。“虽然新的算法在结束最后的人工智能的冬天方面得到更多公信力，”Alexander Wissner Gross总结道，“真正的新闻可能是，把酝酿新数据集和建设他们周围的研究社区放在首位对于延长当今人工智能的盛夏更加必要”。

我们想知道，算法交易系统是否同样也可从酝酿新数据集和他们周围的研究社区中获利。那会是什么样子呢？我们如何学习用不完善的数据去工作？过于相信那些数据会有什么风险？

参考：

Wissner-Gross, Alexander (2016). Datasets Over Algorithms. Edge. 转自：https://www.edge.org/response-detail/26587

Klein, Gary (2016). Blinded by Data. Edge. 转自：https://www.edge.org/response-detail/26692

【英文原文：http://www.spacemachine.net/views/2016/3/datasets-over-algorithms】

{测试窝原创译文，译者：梁仲兴}

译者简介：梁仲兴，专注于云计算、自动化、网络运维领域的工作者。