就在江铭修改代码,集合两个实验室之力,开启了并行训练之后的两天后,模型终于是训练完成了。
江铭和高志坐在屏幕前,看着loss曲线终于收敛到极限,心里充斥着满足。
“快,快试试效果。”,高志催促道。
“行,我们先用模型把测试集里的数据全跑一遍。”,江铭轻点几下鼠标,启动了测试程序。
在开始训练之前,江铭就早已把数据集分成了两部分。一部分训练集和一部分测试集。
训练集顾名思义是训练模型的,而测试集相当于是一个全新的模型没见过的数据,用于测试模型效果。
屏幕里,一个个蛋白质的三维结构不断涌现,而对比程序也在飞快计算着IDDT值。
94、96、92、99...
高志看着一溜九十几分的数字,惊得下巴都快掉了。
IDDT是他们常用的分析预测出的结构与真实结构误差的一个指标,代表着预测结构中残基间距离与真实结构残基间距的一致性。
他们平时的预测,能达到40分就已经算是一个非常棒的成果了,这还是因为他们有冷冻电镜加持的缘故。
然而在江铭这里,竟然是清一色接近满分的结果!
要知道,蛋白质分子又不是什么坚硬的晶体,本来这些残基的间距也是不完全固定的。
就算是两个一模一样的蛋白质分子,其之间的IDDT值也就在97-98之间。
这意味着,江铭的模式所输出的结果,几乎是完全正确的!
不单单是准确率的问题,这个预测速度也快得不可思议。
从江铭点击运行开始,计算机几乎就是以20秒一个的速度不断生成一幅幅蛋白质分子的三维图像。
有时候高志都还没看完这一张,计算机就已经跳到下一张去了。
就这样,在高志的震惊中过了整整半个小时,测试程序才最终跑完,平均的IDDT得分竟然达到了95之高。
“卧槽,卧槽!师弟,我们真的发大了!”,高志格外激动,他整个人都跳了起来,在实验室跳了一段踢踏舞。
没有人比他更清楚这种速度与准确率的蛋白质结构预测算法意味着什么。
“你知道么,师弟,从此以后,蛋白质结构预测再也不是一个问题了,整个生命科学界都要迎来巨大的变革。”
“哈哈哈哈哈,别说什么科研成果目标翻倍了,有了这个成果,就是翻三倍四倍,都能轻松完成!”
...
此时的吕慧莹,正在办公室里焦虑地踱着步。
刚刚出版的Nature子刊,NatureBiotechnology中,吕慧莹又看到了两篇有关蛋白质结构预测的文章,都是计算机辅助预测的方法,甚至有一篇还登上了封面。
鹰国的技术团队,竟然已经把计算机辅助预测的IDDT值提高到了38!
这几乎与人工预测没什么差别了,她们实验室积累了这么多年,也就能把IDDT做到40左右。
吕慧莹作为从业多年的科研工作者,第一有了一种落后于时代的感觉,而这种感觉令她无比羞耻。
在科研竞争如此激烈的蓝星里,一步落后,就是步步落后。
科技的爆炸性发展的,这也意味着有的时候落后一方追赶的速度,甚至赶不上科学前沿不断向前推进的速度!
忽然,一阵急促的手机铃声打断了她的思绪,她点开手机屏幕,竟然是她的学生高志打来的。