第二届腾讯“开悟”大赛初赛放榜,在王者峡谷中的强化学习研究还能这么快乐?
一场发生在王者峡谷的赛事,背后竟然惊动了清华、北大、中科大、电子科技大学……等20多所名校的学生和老师?
这不是一场简单的电竞赛事,而是一场AI领域的科研赛事——由王者荣耀、腾讯AI Lab、腾讯高校合作、腾讯游戏学院等联合举办,由腾讯云计算提供底层资源支持的第二届腾讯开悟多智能体强化学习大赛(简称开悟大赛)。不同于常规电竞比赛,选手们并不是亲手操作英雄去战斗,他们的定位更类似于教练,通过编写的程序利用AI进行对抗。赛事基于“开悟”AI开放研究平台举行,依托于腾讯太极机器学习平台,选手可获取“开悟”提供的算法、算力、脱敏数据等资源。就在上周,开悟大赛在官网发布了初赛成绩。10支队伍脱颖而出,晋级复赛。初赛的目标并不复杂:参赛队伍需要训练AI学会露娜、鲁班七号、橘右京等三位英雄,并在1v1墨家机关道地图中战胜对手的同一英雄,打爆对方的水晶。除了“召唤师”是AI以外,整体规则与《王者荣耀》游戏一致。你可能要说:就这?但达成这个目标,对AI来说并不简单。《王者荣耀》是一款需要玩家根据复杂多变的战场情况进行实时反应,制定策略的游戏,要求玩家掌握并融合实时感知、分析、理解、推理、决策等多种能力。因此,如何设计AI的行为权重、操作触发条件,以及决策是否正确的反馈机制则成为了比赛制胜的关键。在初赛赛题中,就考查了智能体解决方案,模型结构设计,强化学习算法设计和训练方式探索等AI强化学习领域的硬核知识点。初赛阶段,主办方希望让参赛者能够比较轻松地上手,并在“开悟”平台上体验到AI强化学习训练的完整流程。因此,赛事主办方为参赛队伍提供了一份benchmark,包括了训练所需要的所有环境配置以及基础的算法框架代码,让选手无需关心复杂的游戏逻辑以及搭建训练环境,就能快速掌握训练流程,并专注于核心算法的优化。得益于此,初赛大部分学生都顺利完成了赛题并提交了自己训练出来的模型。在初赛的一场露娜1V1中,我们看到了一次可媲美真实玩家对战的AI精彩对决。随着欢迎来到王者荣耀的语音响起,战斗正式打响,双方一级狭路相逢,在短暂交手试探后,便默契分开,各自靠小兵发育。接下来,在没有把握完成击杀的情况下,双方并没有选择穷追猛打,而是点到为止的交手了几次,都在血量告急时暂时退避,战况暂时陷入了胶着。蓝方率先抓住了机会,该出手时就出手,越塔完成了首次击杀。终归还是蓝方靠着前期积攒的优势,更甚一筹,对着红方发起了最后一击。虽然红方露娜在还剩最后一丝血皮时逃出生天,但难以力挽狂澜。最终,以蓝方露娜击破红方水晶塔获胜。可以看到,经过短短两个月的学习和研发,学生们已经交出了可圈可点的答卷。当然,这离不开老师和同学们大量的心血投入。自AlphaGo一鸣惊人后,越来越多AI研究团队意识到,游戏是AI的最佳训练场之一:若AI能在如此复杂的环境中,学会人一样实时感知、分析、理解、推理、决策到行动,就可能在多变、复杂的真实环境中发挥更大作用。在游戏环境中开发AI,这对清华大学计算机系队的陈华玉同学并不陌生,在清华校内就有类似的比赛。但他没有想到,有一天能够将自己的专业与所喜爱的《王者荣耀》游戏结合起来。在收到老师通知之后,他马上决定参加赛事,并承担起了拉人组队的工作。除了喜欢游戏以外,更主要的原因是“开悟”整合游戏环境、算法、算力、脱敏数据等资源,能够提供一个研究强化学习算法的理想环境。“之前一直没有机会去做,因为它需要一个非常大的平台,以及大量的计算资源,以个人的能力去做会很困难。”陈华玉说,与他有相同想法的同学很多,招人信息发出去后,马上收到了20多份简历。当然,“开悟”大赛的玩法和普通的游戏局并不一样。来自深圳大学的唐致烨同学是第二次参赛,去年止步于初赛的他今年格外上心,在开赛前就开始研究腾讯AI Lab过往几篇关于“绝悟”(达到王者荣耀电竞水平的策略协作型AI)的论文。“我们在赛事过程中更像是一个电竞教练。”他这样评价参加“开悟”大赛的体验。“我们要分析玩家在游戏时会考虑哪些因素,然后对这些因素进行思考,也会请擅长王者的队友看视频辅助调参数,挺有趣的。”陈华玉和唐致烨的队伍都进入了复赛。在对自己队伍的初赛表现进行复盘时,两位都认为,在面对一个比较复杂的研究项目时,队伍内部的分工合作很重要。“有人负责开发,有人负责动作空间,有人专门负责实验。”他们形容,这和玩游戏时的组队奋战有点像,5个人运用不同的“职业”特长,走在不同的路线上,最终一起攻破水晶。而在老师的眼中,同学们在比赛中展现出的学习热情更让人惊喜。清华计算机队的指导老师阎栋表示:“现在的这些同学们非常喜欢王者荣耀,利用兴趣驱动去做事,也能提升主动学习积极性。”尽管平台还有许多需要不断迭代优化的空间,但对于这样一个国内少见的集算法、算力、脱敏数据和训练环境于一体的平台,老师们都寄予厚望。深大指导老师王旭就非常期待与“开悟”平台的进一步合作:“我期待平台能够进一步开放,与专业课进一步深度结合,形成一个类似于训练或者教育的平台。”事实上,为普及多智能体强化学习研究,“开悟”早已向高校抛出了橄榄枝。今年4月,腾讯“开悟”联合国内多所高校成立了人工智能科教联盟,并携手高校、科研院所、产业园区、投资机构组建人工智能科创联合体。王老师的期望也即将变成现实。今年8月,腾讯宣布与四所国内一流高校(北京大学、电子科技大学、清华大学、中国科学技术大学)的老师合作开发基于“开悟”平台的人工智能实践课程,理论授课包括但不限于机器学习、强化学习、多智能体决策等相关的知识点,运用王者荣耀作为实践验证场景,以更轻松的方式,传授同学们AI相关知识。未来,这一课程将逐步推广向更多有意接入的高校。在接下来的两个月内,选手们将迎来更高难度的复赛——3v3团体战。这一课题意味着选手需要在设计AI时,考虑到多个智能体之间的配合协作。此外,复赛长平攻防战使用的地图,也比初赛的墨家机关道更复杂。场地分为上野区、下野区和中路三部分,且新增了草丛(可隐藏角色的地图区域)、野怪(击杀可掉落金币)等元素,意味着AI拥有了更大的状态空间,且需要考虑不同定位的英雄的奖励函数设计,难度再次升级。更高难度的挑战,正是参赛者们所期待的。陈华玉至今印象最深刻的,还是初赛期间所遇到的难题,以及解决这些问题时巨大的成就感:“当发现我们想出的数据,真的有助于算法改进的时候,这种感觉还挺好的。”研究的快乐,也让唐致烨想要探索更遥远的地方:“在比赛过程中,我发现强化学习是挺有意思的一个领域,我未来可能也会往这个方向去走。”“开悟”的目标则看得更远:赛事希望更高难度的挑战,能帮助参赛者沉淀更多的强化学习研究经验,从而为AI与现实场景的结合创造更多可能。基于游戏虚拟场景,训练AI的通用能力,让更智能的AI在各领域服务人类,是游戏AI研究的核心目标。举个例子,假如AI在王者峡谷中,能够快速分析瞬息万变的环境和对手并作出决策,这个能力运用于同样复杂的真实城市路况,就是自动驾驶AI的雏形;当AI学会了如何控制5个队友配合互助,或许就能在工业环境中操作多个机器人,完成复杂的生产任务。在“助力产学研,共享AI新生态”愿景的引领下,“开悟”希望能够成为这些年轻人们走向星辰大海的第一块阶梯。随着他们的成长,AI将加速与医疗、工业、农业、交通等更多场景融合,并逐步成为全真互联世界的基建设施,构建未来数字生活新体验。