核心论点:数据,而非算法
在人工智能的飞速发展中,一个核心观点正浮出水面:真正推动时代进步的,或许并非精巧的算法或架构,而是庞大、鲜活且无序的数据生态——互联网。当算力不再是瓶颈,我们便进入了一个由数据主导的新范式。
“真正推动AI大规模进步的不是Transformer,而是互联网。没有互联网提供的海量数据,就算有了Transformer,我们也造不出GPT-4。”
四重定义:解构AI世界的基石
算法 (Algorithm)
是解决特定问题的“精确配方”。如同工匠的独门手艺,它精于细节,但过度沉迷于此,无异于只见树木,不见森林。
架构 (Architecture)
是系统的“总体设计蓝图”。它决定了各部分的协同方式,但再完美的蓝图,若无充足的“砖石”(数据),也无法建成宏伟的殿堂。
产品 (Product)
是那个“活起来的生态系统”。它与用户互动,自发产生数据与需求,拥有自我演化的生命力。互联网是监督学习的完美产品,而强化学习仍在寻觅它的归宿。
进步 (Progress)
真正的进步,是能力的“边界扩张”。它源于从环境中汲取养分、拓宽认知的能力,而非在原有框架内的优化。改变世界的,从来不是算法,而是产品。
未来的挑战
当所有研究者都在优化算法时,谁来优化数据?强化学习(RL)正面临着这样的困境。它缺乏一个像互联网之于监督学习那样的“原始汤”。未来的突破,将不取决于理论的修补,而在于能否创造出一个全新的、能自发产生海量、多样化任务的“产品”或“世界”。