然后是environment文件,写着有关围棋的规则,以及智能体和环境交互的逻辑。这个文件可以想象成一个虚拟的棋盘,而智能体就是在这其中自我对弈自我训练的,
最后一个是policy文件,包含了智能体本身的神经网络结构,以及梯度反向传播的逻辑等等与智能体更新进化有关的内容。
此时,江铭已经把policy文件中的代码几乎删了个精光,只留下一个神经网络结构的代码。
这操作令一众教授都更加迷惑不解起来。
策略梯度算法,最关键的部分就是有关智能体的代码,从policy这个文件名就能看出,其实这部分代码才是真正的核心。
“这是要彻底放弃策略梯度了吗?”,文森特喃喃道:“嘶,也对,这个问题的确没法用这种方式来解...难道是他又想到了全新的方法?”
“但是,为什么还要保留有关神经网络的代码呢?这个神经网络如果没有策略梯度算法,该拿什么来训练呢?”
还未等文森特思考出结果,江铭竟用鼠标框选出神经网络这段代码,在下面又复制出一个一模一样的网络结构。
“这难道是想要把黑棋与白旗分开来,单独训练出两个智能体吗?”,文森特惊讶出声:“可是这有什么用呢,按理说这样也不会提高训练效率啊,还是没有解决探索效率问题。”
“不对,他好像没有准备这样做。”,钱峰盯着江铭的屏幕看,表情忽然变得严肃。
只见江铭连按几下删除键,删掉了这个新神经网络的最后一层输出层,原本通过softmax函数输出动作分布的一层,在江铭的修改下变成了输出一个值。
这是在做什么?钱峰更疑惑了,做一个输出一个值的神经网络又能有什么用呢?
众教授也是越凑越近,如果不是怕遮挡了江铭的视线,简直都要趴到屏幕上去。
似乎是怕大家看不懂,江铭沉吟片刻,便把两个神经网络改了一下名字,分别命名为行动者网络和评论家网络。
钱峰的双眼瞬间眯起,随即睁开了一丝难以置信。
这个命名一出来,他已经大概猜到了。
瑞秋的眼眸中也亮起一丝明悟的光,她捏紧拳头,暗自祈祷江铭的想法真的能成。
江铭的编写还在继续...
一分钟过去。
两分钟过去。
整整十分钟过去了。
两个神经网络的输入输出,模拟环境以及整个训练主循环,在他的编辑下,巧妙地组合在了一起。
众教授一点点看着江铭的代码,一言不发。
会展中心仍然充斥着不同学者交流的声音,但是在江铭周围,却是静悄悄的。
教授们都还在琢磨着这代码的运转逻辑。
并非是因为江铭的代码写得不清晰,而是这个训练的循环与普通的训练不同,甚至都不是像瑞秋的工作那样两个模型交替训练。
这个逻辑像是...
钱峰最先想明白了其中的关键,他忍不住惊呼:“我明白了!这,这真的太妙了。”
他指着江铭的屏幕,感叹道:“原来还能这样,江铭,你真是把神经网络用到了极致...”