蛋白质结构预测模型的训练比江铭的预计要慢了不少。
已经在服务器上跑了三天,竟然还没训练完。
搞得江铭有些焦虑,一天登上服务器看八百次loss曲线,祈祷着曲线赶紧收敛。
这焦虑的原因倒不是因为他自己,而是最近这两天也不知道高志师哥怎么回事,隔几个小时就跑过来问一次训练的怎么样了。
江铭正趴在实验室的桌子前,拿着笔在草稿纸上写写画画,冥思苦想能怎么改进一下transformer的模型。
不过系统设计的东西,岂会是那么好改的,江铭磨蹭了一个小时也没想好该怎么做。
忽然,他的肩膀被人拍了一下,江铭无奈地转过头去,果然是高志。
高志冲他露出一个和蔼微笑,开口道:“训练得怎么...”
“训练得怎么样啊?”,江铭同步开口,两个人的声音直接重合到了一起。
“额,你怎么知道我要说什么?”,高志挠了挠头,有些尴尬。
“师哥,你最近是没有自己的事情做嘛?”,江铭无奈地叹气,道:“而且,你到底是怎么进来的,简直是把我们实验室当你自己家一样。”
“还没有脚步声!刚刚你都吓我一大跳你知道吗。”
“额...不用在意这些细节,这只是一个侦探的基操罢了。”,高志干脆搬了个椅子坐在江铭身边看他工作:“你这个训练怎么花了这么久啊,就不能多用几台机器训练吗?”
“哎,我也想啊,但是做不到啊。”,江铭叹道:“多台机器处理数据是可以的,但是最关键的训练那一步,还是只能在一台机器上训练的。算了,说多了你也不懂。”
高志却是来了兴趣:“那你就给我讲讲呗,反正在这里等着训练也没事做。”
江铭无奈,点了下头算是答应了高志的请求,拿出一张新的草稿纸,在上面画了起来。
“蛋白质结构预测这个任务,我不知道你们生命科学界怎么分析。从信息学的角度,我把他定义为一个高维输入输出,且具有超远距离依赖关系的一个序列预测问题。”
“而我画的这个图,是我为了解决这类问题专门...额,设计的。我给他起名叫transformer。”
“为什么要叫它变形金刚?”,高志一脸疑惑地问。
“变形金刚?你在说什么,什么变形金刚?”
“就是那个机车人的动画片啊,老早之前就有了,最近还出了新作呢,里面的机车人甚至都能合体了。”,高志一边用嘴发出机械音,一边做了个机器人变形的动作:“你的模型也能合体吗?”
江铭只感觉话题被高志带的越来越偏,师哥在耍宝上的天赋似乎比在科研上的天赋还高。
不过他还是一本正经地回答道:“模型的话肯定是不能合体的,这种序列预测问题,神经网络在时间步上需要一步步迭代,没法...”
等等,不对!
江铭突然意识到自己之前陷入了误区!
他之前训练神经网络来解决序列预测问题的时候,用的都是LSTM、RNN这种循环神经网络,的确需要一步一步在时间方向做迭代。
但是,transformer的核心部分不是循环的,根本没有在时间步上的信息传递,而是一个全参考的相关性计算!
这岂不是意味着,这个模型是可以分布式并行训练的,在不同机器上训练也没关系,最后把模型“合体”,就可以了。