曲线一上一下地不断震荡,似乎根本找不到方向。
这不可能!米切尔瞳孔微缩,这又不是那种需要探索的策略梯度算法,就是一个监督学习,怎么可能loss不下降!
这相当于给训练提前划好了路线,顺着走就好了,即使是最最简单的全连接神经网络,都是能保证loss下降到收敛的。
他们所训练的这个模型结构,不但是江铭提出来的,而且米切尔还自己亲自确认过全部的代码逻辑,根本不可能出现问题。
那问题到底出在哪里!他狠狠抓了抓自己的头发,怎么都想不明白。
对了,一定是这样,是因为涌现!
米切尔眼睛一亮,所谓量变产生质变,如此大规模的参数量,只有学习数据到达一个量级才能突然涌现出智能来!
他用左手按住自己颤抖的右手,努力压下紧张的情绪,继续等待。
2%...
5%...
10%...
一个小时就在米切尔的忐忑中飞速流逝,那loss曲线已经画出了极长的一段,却如同密歇根的湖面一般,震荡出层层涟漪。
下降啊,你倒是下降啊!米切尔在心中嘶吼,手指在胸前画着十字,向着自己本来不信的神灵祈祷着。
到了这种关头,任何有可能增加一点点训练成功几率的方法他都愿意尝试。
20%...
30%...
50%...
整整五个小时过去,米切尔的眼睛充血,仍然死死盯着屏幕。
每一次曲线的波动都深深牵动着他的内心,他的心中不断地幻想着,也许就是这一次波动,loss曲线就会飞流直下,再也不反弹回来。
可惜事与愿违。
loss曲线不断地反弹,就像一个没头苍蝇一般,在高维的参数空间里乱转,找不到任何一条可行的通路。
米切尔焦急地频频看表,还有三个小时日不落那边就要天亮了,自己随时都会失去与江铭竞争的机会。
难道江铭早就算到了,在1000000TB的数据全部训练完的那一刻,才会产生智能?
如果真是这样,还来得及吗?
“格兰,去把全部的芯片频率再提高一倍!”,他似是下定了什么决心,冲楼下的高个子研究员喊道。
“导师!这样的话这些芯片的温度还会更高,真的会损坏的!”,格兰惊叫道。
“你只用告诉我能坚持多久!”
“两个小时,这样的话最多能维持两个小时!”
“够了,照我说的做!”,米切尔紧绷着脸道。
他已经顾不上关心这些芯片烧毁究竟要付出什么代价了,或者说他已经为了这一次实验付出了太多。
不成功,则成仁!