技術(shù)
導(dǎo)讀:該比賽近年來(lái)吸引了包括騰訊AI Lab,華為諾亞方舟,啟元,清華,北大,中科院,香港中文大學(xué),南洋理工大學(xué),斯坦福大學(xué),美國(guó)西北大學(xué)、德國(guó)比勒費(fèi)爾德大學(xué)在內(nèi)的眾多工業(yè)界和學(xué)術(shù)界的相關(guān)研究人員。
近日,在NeurIPS會(huì)議上舉辦的MineRL 2021 Diamond Competition落下帷幕,來(lái)自網(wǎng)易互娛AI Lab的Athena AI憑借高超的挖鉆技巧,在以《我的世界》游戲?yàn)楦?jìng)技環(huán)境的比賽中拿下Intro賽道的冠軍以及Research賽道的亞軍。
這是AI第一次在《我的世界》中挖掘到鉆石。
該比賽由CMU, OpenAI, DeepMind, Microsoft Research等機(jī)構(gòu)聯(lián)合舉辦,是強(qiáng)化學(xué)習(xí)方向最負(fù)盛名的比賽之一。比賽自2019年起,每年在機(jī)器學(xué)習(xí)和計(jì)算神經(jīng)科學(xué)領(lǐng)域頂級(jí)學(xué)術(shù)會(huì)議NeurIPS上舉辦,今年為第三屆。
該比賽近年來(lái)吸引了包括騰訊AI Lab,華為諾亞方舟,啟元,清華,北大,中科院,香港中文大學(xué),南洋理工大學(xué),斯坦福大學(xué),美國(guó)西北大學(xué)、德國(guó)比勒費(fèi)爾德大學(xué)在內(nèi)的眾多工業(yè)界和學(xué)術(shù)界的相關(guān)研究人員。
今年的比賽同樣有來(lái)自海內(nèi)外近60支隊(duì)伍、超過(guò)400名研究人員同場(chǎng)競(jìng)技。
本屆MineRL比賽劃分為了Intro和Research兩個(gè)賽道。與Research賽道注重高效地利用玩家數(shù)據(jù),對(duì)訓(xùn)練數(shù)據(jù)表征、訓(xùn)練規(guī)模等方面進(jìn)行了諸多的限制不同,Intro賽道更加貼近游戲AI開(kāi)發(fā)中的真實(shí)場(chǎng)景,需要參賽者根據(jù)游戲特性設(shè)計(jì)針對(duì)性的算法,最大限度地提升AI的水平。
MineRL比賽要求參賽者在我的世界(MineCraft)游戲生存模式中,訓(xùn)練出一個(gè)能夠從零開(kāi)始收集各種資源、制作工具最后挖到鉆石的智能體。
該任務(wù)的主要難點(diǎn)有:
1、巨大的動(dòng)作空間和狀態(tài)空間:
我的世界是一款3D開(kāi)放世界游戲,智能體僅能依賴(lài)經(jīng)過(guò)壓縮處理的游戲畫(huà)面以及背包中的部分物品數(shù)量信息來(lái)感知周?chē)h(huán)境,能夠執(zhí)行的動(dòng)作包括移動(dòng)、攻擊、視角調(diào)整、工具制作、裝備切換、物品放置等所有玩家能夠進(jìn)行的操作,動(dòng)作空間巨大。
2、復(fù)雜的工具鏈:
我的世界中存在龐雜的資源系統(tǒng)和物品合成體系,即使是僅為了獲取鉆石也需要智能體學(xué)會(huì)按順序收集并制作各種所需的資源和物品。
例如為了保證在挖到鉆石前制作出鐵鎬,智能體必須學(xué)會(huì)在探索到地下深處時(shí)做好木棍、收集至少三塊鐵礦和一些燃料并在放置好的熔爐邊燒制出所需的鐵錠。
3、長(zhǎng)期規(guī)劃能力:
在MineRL環(huán)境中智能體能夠與環(huán)境進(jìn)行至多18000次交互,這就要求智能體能夠具備長(zhǎng)期規(guī)劃的能力。
例如智能體需要在游戲開(kāi)始時(shí)就根據(jù)出生地周?chē)h(huán)境,決定是否在收集完附近的木質(zhì)資源后直接向地下探索礦物或是花費(fèi)時(shí)間離開(kāi)出生地尋找更多的木材以避免下礦后可能出現(xiàn)沒(méi)有木頭制作工具的尷尬。
4、數(shù)據(jù)集有限且不完美:
主辦方提供了可供AI學(xué)習(xí)的約200場(chǎng)人類(lèi)玩家數(shù)據(jù),數(shù)據(jù)集規(guī)模十分有限且并不是所有場(chǎng)次中的玩家最終都獲得了鉆石
在本次比賽中,在其他隊(duì)伍更傾向于利用玩家數(shù)據(jù)集并使用層次化訓(xùn)練方法的氛圍中,網(wǎng)易互娛AI Lab,另辟蹊徑,采用端到端的純強(qiáng)化學(xué)習(xí)方案,史無(wú)前例地訓(xùn)練出了能夠從零開(kāi)始獲得鉆石的Athena AI。
Athena AI通過(guò)合理地約束有效動(dòng)作,達(dá)到了對(duì)狀態(tài)的搜索空間進(jìn)行剪枝的目的,使得AI在不使用分層策略的情況下依然能夠高效地在巨大的狀態(tài)空間中進(jìn)行探索和學(xué)習(xí)。
Athena AI的實(shí)現(xiàn)方案表明,即使是在多任務(wù)且任務(wù)之間有著復(fù)雜依賴(lài)關(guān)系的游戲場(chǎng)景內(nèi),單一的端到端模型的表現(xiàn)也是可以達(dá)到甚至超過(guò)精細(xì)設(shè)計(jì)的分層訓(xùn)練方式。
在最終Intro賽道的結(jié)果中,來(lái)自網(wǎng)易互娛AI Lab的隊(duì)伍WinOrGoHome以645.55分奪得冠軍,在100場(chǎng)游戲中累計(jì)21場(chǎng)都成功挖到了鉆石,超越第二名的隊(duì)伍近50%的分?jǐn)?shù)。
值得一提的是,作為智能AI系統(tǒng),網(wǎng)易互娛AI Lab研發(fā)的Athena AI目前已經(jīng)落地應(yīng)用于網(wǎng)易互娛旗下的多款游戲。
網(wǎng)易互娛AI Lab成立于2017年,AI Lab所提供的人工智能服務(wù)包括計(jì)算機(jī)視覺(jué)、自然語(yǔ)言處理、語(yǔ)音信號(hào)處理、游戲AI多個(gè)方面。
目前技術(shù)已應(yīng)用于網(wǎng)易互娛旗下多款熱門(mén)游戲,如《夢(mèng)幻西游》、《哈利波特:魔法覺(jué)醒》、《陰陽(yáng)師》、《大話西游》、《荒野行動(dòng)》、《明日之后》等等。