商汤组了「最强大脑」局正儿八经解释为啥搞起电竞AI
栏目:最新消息 发布时间:2022-08-15

  近日,在世界人工智能大会的圆桌论坛《从电竞到AI》中,商汤道出了其目的:

  许多现实生活中的 AI 应用,都涉及到多个智能体在复杂环境中的相互竞争和协调合作。

  针对商汤入局的星际争霸,是一种即时战略(RTS)游戏的研究,也就是解决这个大问题过程中的一个小目标。

  换而言之,类似星际争霸的挑战,实际上就是一种多智能体强化学习算法的挑战。

  而DeepMind的AlphaStar,可以说是在 AI 挑战星际争霸过程中,发展较为成熟的一个。

  去年其研究还登上了顶级期刊Nature—— AlphaStar已经超越了99.8%的人类玩家,在神族、人族和虫族三个种族上都达到了宗师(Grandmaster)级别。

  AlphaStar学会打星际,还是靠深度神经网络,这个网络从原始游戏界面接收数据 (输入) ,然后输出一系列指令,组成游戏中的某一个动作。

  神经网络给每一个智能体的权重,也是随着强化学习过程不断变化;而不断变化的权重,就是学习目标演化的依据。

  比起星际争霸2需要操纵甚至上百个单位,Dota2这款5V5游戏,只需要操纵5个智能体,但是操作精准度和策略复杂度要高一些。

  OpenAI Five 是 OpenAI 首先开发出来的电竞 AI,和人类顶级团队——世界冠军 OG 的较量中,以2:0的明显优势碾压。

  而后,OpenAI 又开发一出 Rerun,胜率再次翻新,达到了98%。

  根据 OpenAI 发布的研究来看,policy (π) 被定义为从观察数据到动作概率分布的函数,这是一个有1.59亿个参数的RNN神经网络。这个网络主要由一个单层、4096-unit的LSTM构成。

  选手们的训练,使用的是扩展版的近端策略优化(PPO)方法,这也是OpenAI现在默认的强化学习训练方法。这些智能体的目标是最大化未来奖励的指数衰减和。

  在训练策略的过程中,OpenAI Five没有用到人类游戏数据,而是通过自我博弈。

  与 Dota2 类似的电竞 AI ,还有国内的手游《王者荣耀》——腾讯绝悟 AI。

  绝悟的 1v1 版本首次露面,是在2018年的 KPL 秋季总决赛上,而后在去年8月份,在5v5比赛中击败了人类职业战队,实力不容小觑。

  而有关绝悟的技术细节,在去年年底时,腾讯在一篇入围AAAI 2020的论文中也有所披露。

  研究人员在论文中指出,基于这样的方法训练一个英雄,使用48个P40 GPU卡和18000个CPU 内核,训练一天相当于人类打500年,训练30个小时就能达到王者段位水平,70个小时比肩职业玩家。

  在昨天的世界人工智能大会中,「从电竞到AI」的圆桌成了大会中的亮点,与会嘉宾包括:

  在星际这样一个充了满尔虞我诈的复杂环境,AI 在决策上还是太单纯了。虽然 AI 在操作上有一定优势,但是对整个游戏没有建立起抽象的认知,容易被欺骗,还有很大提升空间。

  但许多人对于类似星际2这样的电竞AI,提出了「公平性」方面的质疑——毕竟机器在某些方面的能力,是远远超越人类的。

  在 AI 的操作方面,我个人觉得可以用一个简单的方式去衡量:让这一项目最顶尖的选手,尝试去模仿 AI 的操作,如果人能模仿成功那就是公平的。而在信息方面,AI 跟人类能获得的信息需要保持一致。具体到星际上来说,星际每一步是45ms,人做不到在这么短时间观察信息并且做出反应,但是 AI 可以,限制 AI 的操作频率是有必要的。另外,AI 和人类在与游戏的交互方式上有很大不同。人是通过图像和声音了解的整个地图的局部信息,但是 AI 目前通过星际的游戏接口获取的信息会比人更加全面,这方面也需要加以限制。

  当然,目前的电竞 AI 还无法做到100%碾压人类,对于其弱点,周航认为:

  目前,星际AI 的弱点还是很明显的。星际的整个状态空间太大,AI 在训练过程中,有很多的局面都是没经历过的,在这些罕见局面就会出现不会应对的情况,所以在与 AI 对战的过程中,只要你打的天马行空、不按套路出牌就行了。因此,也可以发现电竞 AI 研究的难点和重点,一方面是增强 AI 的泛化能力,做到像人类一样抽象地思考问题;另一方面是希望能够超越人类的认知,做出比人类更优的决策。

  我希望做到的是从 AI 模仿人类出发,再到人类去模仿它;我希望AI真正拓展人类的认知,拓宽人类的想象力

  那么,问题就来了,决策 AI 为什么会受到如此重视,就连深耕计算机视觉的商汤科技也要入局?

  过去几年时间中,商汤在计算机视觉的感知层面做了大量的技术积累。通过感知能力,解析了大部分的图片和视频,一定程度上提高了行业的智能化和自动化程度。

  但随着感知的能力越来越强,信息的维度越来越高,这就为运营、控制、决策类的问题的提升带来了更多的可能性,但是要求也越来越高。

  例如交通的信号灯控制、车辆的调度和管理、封闭空间人流的优化、大规模活动时人力的调度等等。

  这些问题已经超越了人,甚至专家的能力,需要决策型的AI提供相关辅助,从而走通最终的价值闭环。

  而且,在决策型 AI 的研究和应用方面,国外整体还处于更加领先的状态,正如 DeepMind 和 OpenAI 的研究。

  那么,在如此「内忧外患」的情况下,商汤又该如何下好「入局电竞 AI」这步棋呢?

  初期跟不同行业头部客户一起迭代,在满足客户需要的前提下,逐渐完善技术框架,提高技术框架的泛化性能,并进一步用有限的人力服务更多的客户。

  首先,商汤在前期计算机视觉等技术落地的过程中,已经积累了众多的客户和真实场景,这些客户对决策型AI深化落地有了一定的接受度和预期。

  决策型AI可以用于自动驾驶的驾驶策略,包括三个层面:行为层、规划层、以及控制层。行为层面,包括是否要换道、是否要减速等;规划层面,主要为本车确定可行驶路线;控制层面,则直接为本车输出油门刹车、方向盘指令。在仿真环境中,可以为他车、人等交通参与者的行为进行模拟,尤其是在与本车产生交互的场景中(例如本车汇入车流),从而帮助更好地在仿真中验证本车自动驾驶性能。

  商汤在前几年储备了大量的AI领域的人才,有完善的研发体系和资源,来支撑重点问题的攻关。

  总体上我们相信,决策型AI的发展会类似几年前计算机视觉领域。算法效果上每年有指数级别的提升,逐渐能够突破使用的红线,在一两个领域打开局面,然后开始更多的下沉和与行业深入结合。

  特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

  男朋友做贷款的,在公司是管理,现在公司被查封了,他也进去了,已经40多天了,想问一下会被判多久?

  Doinb躺进季后赛笑出声,记得谈排名:TES大概率第一,RNG很悬!

  RNG淘汰冲上热搜LPL粉破防?观众:没买RNG12分钟敲出GG够善良了

  Dota2-TI11直邀形势:CN赛区仅占2席,今年或将成为“歉收年”?