在最近的一次直播对话中,特斯拉首席执行官埃隆·马斯克火力全开,指出现实世界中用于训练人工智能模型的数据已经所剩无几。他与Stagwell董事会主席马克·佩恩讨论时表示:“我们似乎已基本耗尽所有人类知识的积累,去年这种‘数据耗尽’现象尤为明显。”
这一论断与前OpenAI首席科学家伊利亚·苏茨克弗的观点不谋而合,后者在去年的NeurIPS会议上宣称,AI领域已达到“数据峰值”,未能吸引足够的新数据从而改变AI模型的开发路径。
马斯克认为,解决这场数据危机的关键在于合成数据,即依赖AI自我生成数据。“补充真实世界数据的唯一途径是通过合成数据,让机器人自己创造训练用的数据。AI将自我评估并通过这个自我学习过程不断进步。”
越来越多的科技巨头,如微软、Meta、OpenAI和Anthropic,已经开始利用合成数据训练他们的主流AI模型。据Gartner的预测,到2024年,将有60%的AI和数据分析数据来源于合成方式。
合成数据的一个明显优势是可以显著降低开发成本。例如,人工智能初创公司Writer的PalmyraX004模型几乎完全依赖合成数据开发,其成本仅为70万美元,而同规模的OpenAI模型则需约460万美元。然而,合成数据也并非没有风险,研究发现,合成数据可能导致模型性能下滑,输出结果缺乏创新性,甚至带有偏见。这是因为,如果模型使用的数据本身存在偏差,那么最终的结果也会受到这些因素的影响。
总的来说,马斯克的警告引发了关于AI数据来源的重要讨论,合成数据是否能成功填补这一缺口,仍需时间来检验。返回搜狐,查看更多
责任编辑: