对于这个问题,学术界的主要解决办法是通过调整目标函数或是正则化的方式缩减模型的表达能力,以防止所谓的“过拟合”。
然而江铭却说,是因为整个人工智能的训练方式都是错的,才导致的泛化性问题?
王光伟也反复琢磨着刚刚江铭的发言,不敢随便下定论。
或许真的是这样?
“...我认为,人类的学习方式与现在的人工智能训练方式存在本质的不同。我将之总结为三点:无目标感知、多模态联想与思维预演。”
“目前屏幕上所展示的结构,就是我为了模仿人类的学习方式,所设计的超大规模人工智能模型。而它的训练方式,我称之为随机掩蔽双向自回归预测训练。”
台下仍旧没人说话,众人都在咀嚼着江铭刚刚抛出的陌生名词,他顿了顿,继续道。
“就像我们人类看到一段鸟群飞过的视频,即使遮住其中某些局部,或是拿掉其中几帧,大脑也有能力利用上下文信息把这些内容想象出来。”
“这种双向的联想能力才是人类学习的本质,而我构建的模型就是通过这种方式把文本、声音、图像甚至视频这些不同模态的信息聚合到同一个知识空间,使其涌现出真正的智能!”
“具体来说,算法通过类似完形填空的方式,随机掩蔽信息中的某些部分,并让模型根据过去与未来的信息对掩蔽部分进行预测。最终令人工智能足以聚合多个模态的知识,并产生媲美人的自主学习能力。”
江铭讲到这里就暂时停住了,他要给台下的教授们留出思考的时间。
就在其他人还在皱眉思索的时候,高泽已经率先理解了江铭的思路,他就像是一个发现了新玩具的孩子,眼中透出兴奋的光。
“你小子野心不小!”,他鼓着掌笑道。
这一次真的是发自内心的笑,整个会场的气氛如同春风化雨、冰雪消融。
王光伟看这阵势也是长舒一口气。
还好江铭顶住了,不然晋升答辩会一结束,高泽绝对会为了金陵这边研究员的研究偏好问题让自己做出解释。
“不过我还有一个问题。”,高泽又再次看向江铭演示文稿中的结构,询问道:“你这个模型参数量看起来很大啊,具体的参数量以及训练的数据量是怎么考虑的呢?”
江铭神色微正,不愧是华国唯一的信息学特级研究员,一下子便问到了关键问题。
幸好这个问题他提前思考过,江铭淡然开口道。
“人类的大脑总共有百万亿左右的神经元突触连接,考虑到人对大脑的开发不足1%,两万亿的参数量足够表达出远超人类的智能水平。”
“而想要将这个量级的参数模型训练到收敛,所用数据量估算将会达到1000000TB。”
“什么,这么多?”,台下顿时爆发出一阵窃窃私语声。
众人都倒吸一口冷气。
这么大的数据量,即使是信息学的教授们都没听说过。
一般对于一些小的文字类模型,1TB的数据量就足以训练出不错的效果了。
而对于一些几百TB数据量的特定训练需求,几乎要用上一个实验室全部的计算芯片同时训练,才能训练得完。
但是1000000TB,这怎么训?
甚至连把这么大数量级的数据传输到电脑上都是问题。