第73章废话少说,放码过来_从信息学霸到神级科学家

然后是environment文件，写着有关围棋的规则，以及智能体和环境交互的逻辑。这个文件可以想象成一个虚拟的棋盘，而智能体就是在这其中自我对弈自我训练的，

最后一个是policy文件，包含了智能体本身的神经网络结构，以及梯度反向传播的逻辑等等与智能体更新进化有关的内容。

此时，江铭已经把policy文件中的代码几乎删了个精光，只留下一个神经网络结构的代码。

这操作令一众教授都更加迷惑不解起来。

策略梯度算法，最关键的部分就是有关智能体的代码，从policy这个文件名就能看出，其实这部分代码才是真正的核心。

“这是要彻底放弃策略梯度了吗？”，文森特喃喃道：“嘶，也对，这个问题的确没法用这种方式来解...难道是他又想到了全新的方法？”

“但是，为什么还要保留有关神经网络的代码呢？这个神经网络如果没有策略梯度算法，该拿什么来训练呢？”

还未等文森特思考出结果，江铭竟用鼠标框选出神经网络这段代码，在下面又复制出一个一模一样的网络结构。

“这难道是想要把黑棋与白旗分开来，单独训练出两个智能体吗？”，文森特惊讶出声：“可是这有什么用呢，按理说这样也不会提高训练效率啊，还是没有解决探索效率问题。”

“不对，他好像没有准备这样做。”，钱峰盯着江铭的屏幕看，表情忽然变得严肃。

只见江铭连按几下删除键，删掉了这个新神经网络的最后一层输出层，原本通过softmax函数输出动作分布的一层，在江铭的修改下变成了输出一个值。

这是在做什么？钱峰更疑惑了，做一个输出一个值的神经网络又能有什么用呢？

众教授也是越凑越近，如果不是怕遮挡了江铭的视线，简直都要趴到屏幕上去。

似乎是怕大家看不懂，江铭沉吟片刻，便把两个神经网络改了一下名字，分别命名为行动者网络和评论家网络。

钱峰的双眼瞬间眯起，随即睁开了一丝难以置信。

这个命名一出来，他已经大概猜到了。

瑞秋的眼眸中也亮起一丝明悟的光，她捏紧拳头，暗自祈祷江铭的想法真的能成。

江铭的编写还在继续...

一分钟过去。

两分钟过去。

整整十分钟过去了。

两个神经网络的输入输出，模拟环境以及整个训练主循环，在他的编辑下，巧妙地组合在了一起。

众教授一点点看着江铭的代码，一言不发。

会展中心仍然充斥着不同学者交流的声音，但是在江铭周围，却是静悄悄的。

教授们都还在琢磨着这代码的运转逻辑。

并非是因为江铭的代码写得不清晰，而是这个训练的循环与普通的训练不同，甚至都不是像瑞秋的工作那样两个模型交替训练。

这个逻辑像是...

钱峰最先想明白了其中的关键，他忍不住惊呼：“我明白了！这，这真的太妙了。”

他指着江铭的屏幕，感叹道：“原来还能这样，江铭，你真是把神经网络用到了极致...”

第73章 废话少说,放码过来（2 / 2）