8月18日,第二届 “腾讯开悟MOBA多智能体强化学习大赛”(下称“大赛”)宣布启动。该大赛由腾讯王者荣耀、AI Lab、腾讯高校合作、腾讯游戏学院等共同发起,由腾讯云计算提供底层资源支持。
“开悟”AI开放研究平台依托于腾讯太极机器学习平台,基于平台拥有的算法、算力、脱敏数据等资源优势,为学术研究人员和算法开发者开放国际一流的研究与应用探索平台。
本届赛事沿用过往面向高校的邀请赛制,进一步扩大了开放规模,邀请20余所国内外知名高校参赛。参赛队伍需要在指定的时间内,在给定的资源下训练出最优模型,并最终部署好使用最优模型的AI服务器,提交系统完成1V1、3V3对局挑战。
相比起第一届赛事,本届赛事重点实现了轻量化和易用化:在保证赛题研究价值的同时,降低了参赛者理解游戏规则及研发操作的成本,帮助他们能更聚焦于AI开发本身。
在算法框架和组件层面,腾讯太极机器学习平台为开悟平台提供机器学习/深度学习等核心加速组件,结合腾讯内部业务的沉淀,经过了万亿级的数据训练和流量访问,为参赛者提供更有力的支持。
在计算资源层面,腾讯云计算作为本次大赛独家算力支持平台,将为参赛队伍提供高性能的云服务器资源供数据建模与学习推理。基于腾讯云 GPU 云服务器超强的并行计算能力,可完成传统计算资源无法处理的大规模部署AI 推理任务,极大地提升运算效率,高度匹配了深度学习训练,推理和科学计算场景下日益增长的高精度高效率算力需求。”
王者荣耀执行制作人、腾讯天美L1总经理黄蓝枭也表示:“我们开放了《王者荣耀》的核心机制,提供标准接口、核心算法、脱敏的测试数据、评估工具和计算集群等,给高校老师和同学们进行多智能体的机器学习算法研究、学习成果交流、对算法成果反复迭代升级。同时,也期待这些研究成果,能够落地到其他产业环境中,为工业机器人、救灾机器人等提供助力。”
同时,腾讯 AI Lab 总经理杨巍指出,“开悟平台承载了技术、资源、人才等生态原料,始于又不止于竞赛。开悟将逐步发展为竞赛-课程-科教联盟-科创联合体的生态聚集地,未来会进一步延展平台承载力,推进AI与教育融合,提高学生的创造力与研究才能,为生态贡献跨学科技术、跨界人才和多方资源。
聚焦多智能体博弈
王者荣耀与“开悟”联动高校破局AI研究困境
多智能体强化学习主要研究在同一个环境中的多个智能体,如何进行合作或者竞争完成指定的目标。因为具有较高的研究难度,也有广泛的应用前景,这一议题近年广受AI企业及科研院校关注。
从研究难度说,多个智能体同时进行决策与动作,会对环境状态带来复杂的变化;同时每个智能体仅能获取局部的观测信息,但无法得知其他智能体的信息。而要在这样的条件下进行合作与竞争、完成特定任务,就对所需要的研究方法提出了更高的要求。
从应用前景说,这样具有复杂性、不确定性及信息局限性的场景,更符合真实世界中人类决策时面对的环境。换句话说,攻克多智能体强化学习方法,即有望帮助AI解决真实世界的复杂问题,例如城市/空中交通管理、多机器人协调、能源分配等。
与此同时,AI学界持续面临面四大要素的挑战:算法、数据、算力、场景。以强化学习为例子,每个要素都有很多挑战,比如研究场景稀缺,没有数据,算法测试困难到算力昂贵等。
对于高校研究,这些挑战更加严峻:目前高校研究普遍面临着数据量较少、数据的多样性不足、数据质量参差不齐等问题;同时,随着高校强化学习算法研究的不断深入,项目对计算资源的需求也水涨船高。而除了机器资源本身,也缺乏容易上手的好用的AI开放实验平台。
[ 策略协作型AI“王者绝悟”(红方)合作击败对手 ]
《王者荣耀》是一款移动端的5V5 MOBA类游戏,这样高复杂度、高挑战性、强协作性的环境,正是AI研发所需要的理想环境。在王者对局中,玩家的动作状态空间高达10的20000次方,远远大于围棋及其他简单游戏,甚至超过整个宇宙的原子总数(10的80次方)。
自2018年起,腾讯 AI Lab 持续投入多类“AI+游戏”研究,并与王者荣耀团队合作打造策略协作型AI”王者绝悟“。3年来,王者绝悟AI在对局中飞速成长,得到了学术界认可,相关论文已先后被 AAAI、NeurIPS 等 AI 顶级会议收录。2021年,全英雄达到职业电竞水平的“王者绝悟”亮相2021世界人工智能大会,受到社会广泛关注。
成立人工智能科教联盟
联合高校开发创新课程
2019年的“818无限开放日”,腾讯AI Lab与王者荣耀宣布共同建设“开悟”AI多智能体与复杂决策开放研究平台,依托双方在算法、脱敏数据、算力方面的核心优势,为学术研究人员和算法开发者开放的国内领先、国际一流研究与应用探索平台。
2020年首届开悟大赛邀请了北京大学、电子科大、清华大学、中科大等18所国内高校同台竞技,提供包括王者荣耀的游戏测试环境、脱敏游戏数据集及游戏核心集群等独家资源,腾讯 AI Lab 搭建的算法、计算平台、评估工具、腾讯云计算的算力支持等,帮助参赛者开发、测试和提升 AI 在复杂环境中的多维度决策水平。
首届开悟大赛成功扩大社会各界对“AI+游戏”研究的认知,验证“开悟”平台对人工智能教育与科研的促进作用。
作为参赛队伍指导老师,电子科技大学谢宁教授表示:“开悟平台提供游戏AI框架、强化学习算法框架及基础算力等资源/服务,解决了我们AI教育中面临的AI应用与实训平台的缺口。在去年的赛事中,游戏环境有效提升了学生团队对AI的兴趣,帮助他们积累了深度强化学习模型设计与实现的经验。”
首届赛事参赛学生代表,中国科学技术大学学生赵鉴在分享赛后感想时表示:”很高兴有机会接触如此大型游戏的AI设计,开悟平台让团队能将本身游戏爱好与专业相结合,提高了我们对人工智能领域的研究兴趣。“
基于首届比赛的成功经验,第二届开悟大赛进行了易用性与轻量化升级,降低高校学生的研究门槛。
在易用性上,开悟对平台操作进行了多项优化,帮助使用者更快上手,更高效地开发。具体包括:进一步完善说明文档,帮助参赛者快速接入平台;开放标准化环境接口代码,允许参赛者在本地环境确认AI效果并进行调试;提升训练效率,大幅缩短模型训练时间等。
作为国内领先的公有云平台,腾讯云在通用 CPU 和异构 GPU 丰富的实例配置与规格可以满足不同业务算力需求。尤其是在 AI 训练与推理场景下,引入腾讯云 GPU 异构计算对于效率的提升非常可观。
在轻量化上,降低参赛者学习游戏规则及进行基础工作的成本,更聚焦于算法开发工作。具体包括:统一开发完备的环境信息,参赛者不需陷于特征工程;开放基准算法,让参赛者“站在巨人的肩膀上”快速迭代等。
与此同时,开悟携手高校合作开发课程,进一步普及多智能体强化学习教育。2021年8月,腾讯宣布与四所国内一流高校共建教学内容和课程体系改革项目。北京大学李文新、电子科技大学谢宁、清华大学李秀、中国科学技术大学周文罡等四位教授将基于腾讯开悟平台,分别构建一门至少20学时的多智能体及强化学习平台的专业课程,理论授课知识点包括但不限于机器学习、强化学习、多智能体决策等相关的知识点。
开悟对AI产学研用全链条的推动作用,也正受到社会各界广泛关注。2021年4月8日,首届“开悟”大赛颁奖仪式暨首届腾讯STAC科创联合大会在成都召开。腾讯“开悟”联合高校成立了人工智能科教联盟,并携手高校、科研院所、产业园区、投资机构组建人工智能科创联合体,共同在关键核心技术联合攻关、人才培养聚集和促进产业链上下游交流合作等方面共同努力。
助力产学研
共享AI+游戏新生态
业界普遍认为,下一个AI里程碑可能会在复杂策略游戏中诞生:若AI能在如此复杂的环境中,学会人一样实时感知、分析、理解、推理、决策到行动,就可能在多变、复杂的真实环境中发挥更大作用。
腾讯 AI Lab 已在“AI+游戏”领域取得多项成果,包括前文提及的策略协作型AI“王者绝悟”,现担任中国国家围棋队训练专用AI的围棋 AI “绝艺”。同时探索AI在游戏产业全链路应用,用AI提高游戏开发效率、打造新玩法、辅助游戏平衡性测试等。
长远来看,“AI+游戏”研究将是腾讯攻克 AI 终极研究难题——通用人工智能(AGI)的关键一步。借助开悟平台,腾讯王者荣耀和AI Lab希望联动更多有兴趣的高校和学者参与,共同在游戏环境中探讨和研究这些难题,并寻找AI新技术覆盖更多场景的可能性,如医疗、工业、农业、交通等现实场景,及虚实结合的元宇宙世界(Metaverse)等。