斗破小说 > 网游 > 从信息学霸到神级科学家 > 第73章 废话少说,放码过来

第73章 废话少说,放码过来(2 / 2)

    然后是environment文件,写着有关围棋的规则,以及智能体和环境交互的逻辑。这个文件可以想象成一个虚拟的棋盘,而智能体就是在这其中自我对弈自我训练的,

    最后一个是policy文件,包含了智能体本身的神经网络结构,以及梯度反向传播的逻辑等等与智能体更新进化有关的内容。

    此时,江铭已经把policy文件中的代码几乎删了个精光,只留下一个神经网络结构的代码。

    这操作令一众教授都更加迷惑不解起来。

策略梯度算法,最关键的部分就是有关智能体的代码,从policy这个文件名就能看出,其实这部分代码才是真正的核心。

    “这是要彻底放弃策略梯度了吗?”,文森特喃喃道:“嘶,也对,这个问题的确没法用这种方式来解...难道是他又想到了全新的方法?”

    “但是,为什么还要保留有关神经网络的代码呢?这个神经网络如果没有策略梯度算法,该拿什么来训练呢?”

    还未等文森特思考出结果,江铭竟用鼠标框选出神经网络这段代码,在下面又复制出一个一模一样的网络结构。

    “这难道是想要把黑棋与白旗分开来,单独训练出两个智能体吗?”,文森特惊讶出声:“可是这有什么用呢,按理说这样也不会提高训练效率啊,还是没有解决探索效率问题。”

    “不对,他好像没有准备这样做。”,钱峰盯着江铭的屏幕看,表情忽然变得严肃。

    只见江铭连按几下删除键,删掉了这个新神经网络的最后一层输出层,原本通过softmax函数输出动作分布的一层,在江铭的修改下变成了输出一个值。

    这是在做什么?钱峰更疑惑了,做一个输出一个值的神经网络又能有什么用呢?

    众教授也是越凑越近,如果不是怕遮挡了江铭的视线,简直都要趴到屏幕上去。

    似乎是怕大家看不懂,江铭沉吟片刻,便把两个神经网络改了一下名字,分别命名为行动者网络和评论家网络。

    钱峰的双眼瞬间眯起,随即睁开了一丝难以置信。

    这个命名一出来,他已经大概猜到了。

    瑞秋的眼眸中也亮起一丝明悟的光,她捏紧拳头,暗自祈祷江铭的想法真的能成。

    江铭的编写还在继续...

    一分钟过去。

    两分钟过去。

    整整十分钟过去了。

    两个神经网络的输入输出,模拟环境以及整个训练主循环,在他的编辑下,巧妙地组合在了一起。

众教授一点点看着江铭的代码,一言不发。

    会展中心仍然充斥着不同学者交流的声音,但是在江铭周围,却是静悄悄的。

    教授们都还在琢磨着这代码的运转逻辑。

    并非是因为江铭的代码写得不清晰,而是这个训练的循环与普通的训练不同,甚至都不是像瑞秋的工作那样两个模型交替训练。

    这个逻辑像是...

    钱峰最先想明白了其中的关键,他忍不住惊呼:“我明白了!这,这真的太妙了。”

    他指着江铭的屏幕,感叹道:“原来还能这样,江铭,你真是把神经网络用到了极致...”

最新小说: 总裁爹地慢点宠 都市:重生反派后手眼通天! 乱套 三国:不装了,我是霸王项羽 我真是情痴啊 还没穿越,我就有神级资质了? 别逼我当皇帝 七零娇美人,撩得冷知青心肝颤 超神:开局抽到鬼影兵团! 从网络神豪开始