上周,英偉達和國內幾家科研機構幾乎同時發布了兩篇相似的論文。首先是英偉達宣布開發了一個名為“VOYAGER”的全新游戲AI智能體,該智能體將AI大模型GPT-4整合到《我的世界》游戲中。基于GPT-4,VOYAGER能夠在《我的世界》中擴充自己的物品和裝備,完成建造、挖礦、收集等基本生存技能,并且可以獨立進行開放式探索,前往不同的城市和地點,甚至搭建傳送門。
英偉達表示,VOYAGER在《我的世界》中的物品增加了3.3倍,旅行距離增加了2.3倍,解鎖關鍵技能樹的速度也比之前的方法快了15.3倍。接著,商湯科技聯合清華大學、上海人工智能實驗室等機構發布了通才AI智能體“Ghost in the Minecraft(GITM)”。同樣將大語言模型(LLM)整合到《我的世界》中,GITM在《我的世界》的主世界中實現了100%的任務覆蓋率,成功通關解鎖了完整的科技樹,而此前所有智能體的總和只能覆蓋30%。此外,在“獲取鉆石”任務上,GITM的成功率達到67.5%,相比之前的最佳成績,即OpenAI的VPT方法,提高了47.5%。
GITM在《我的世界》中的任務覆蓋率遠高于現有的AI智能體。雖然這些論文中涉及了一些技術細節,但我們可以先不談論它們。為什么他們會不約而同地選擇《我的世界》作為實驗平臺呢?
一、《我的世界》是一個大型AI試驗場
《我的世界》已經成為訓練AI的理想場所。在過去的幾年中,許多AI都在《我的世界》中進行了訓練。著名的莫拉維克悖論指出,對于人類而言困難的任務(如下棋)對AI來說很簡單,而對人類來說相對簡單的任務(如在開放世界中與環境交互、進行規劃和決策)對AI來說卻是巨大挑戰。正是因為這種情況的存在,早在AI發展不像現在這么成熟的幾年前,科學家們就開始在《我的世界》中使用AI完成一些簡單的任務。
繼續訓練AI的原因之一是《我的世界》提供了一個廣闊的、復雜的開放世界環境,讓科學家們能夠挑戰AI在規劃、決策和與環境交互等方面的能力。在過去的幾年里,許多科學家和研究機構都選擇在《我的世界》中進行AI訓練。
2019年,Facebook開發了一款名為"craftassist bot"的AI助手,可以執行玩家指定的各種任務,如建造城市、與村民交互等。同年,卡內基·梅隆大學、微軟、DeepMind和OpenAI聯合舉辦了名為"MineRL"的《我的世界》AI比賽。這些活動都標志著AI在《我的世界》中的應用逐漸從簡單的指令執行發展到更復雜的任務。
隨著時間的推移,越來越多的公司和研究機構開始在《我的世界》中訓練AI。美國國防高級研究計劃局(DARPA)在2020年啟動了ADAPT項目,旨在利用AI協助指揮官進行決策。Aptima公司利用《我的世界》訓練AI與人類進行互動。哥本哈根信息技術大學、紐約大學和上海大學的研究者使用3D神經元胞自動機系統在《我的世界》中創建了復雜的實體。
去年,OpenAI通過引入視頻預訓練法成功訓練出熟練的《我的世界》AI,掌握了高階玩法。此外,DeepMind開發了名為"DreamerV3"的AI智能體,在《我的世界》中摸爬滾打17天,學會了如何挖鉆石。這些成果的取得證明了《我的世界》作為AI訓練場所的價值。
二、沒有誰比《我的世界》更合適了
《我的世界》是一款受歡迎的游戲,具有廣泛的玩家基礎。其開放世界的游戲屬性使其成為科學家們訓練AI的理想場所。與其他游戲相比,如LOL和王者榮耀等單一的戰略對戰游戲,《我的世界》的游戲過程更為復雜,挑戰了AI的極限。
《我的世界》不預先設定目標,提供了兩種模式:生存和創造。在生存模式中,玩家需要通過采集資源、建造和生存來維持自己的生活。這種自由度很大程度上反映了現實世界的復雜性,給AI提供了更多的學習和適應的機會。
此外,《我的世界》的游戲世界是無限生成的,擁有各種地形、生物和物品。這種多樣性使得AI在游戲中面臨各種挑戰,需要具備多樣的技能和決策能力。AI必須能夠規劃路徑、進行資源管理、解決問題和與環境進行交互,這些都是現實世界中重要的技能。
另一個重要的因素是《我的世界》的社交性質。玩家可以在游戲中與其他玩家進行合作或競爭。這種社交互動提供了一種機會,讓AI學會與人類合作、協調和競爭。這對于AI在未來實際應用中的發展至關重要。
三、《我的世界》中的AI在本次開發中具有以下特點:
1.引入大語言模型(LLM):與以往基于《我的世界》訓練的AI相比,本次開發采用了大語言模型作為核心訓練方法。這一方法能夠使AI自主驅動地探索并掌握廣泛的技能,從而更好地模擬人類的學習過程。
2.自主驅動的探索:通過大語言模型的訓練方法,AI可以根據總體目標提出問題并自動生成多個小任務。它通過存儲有助于解決任務的行動程序,逐漸建立起技能庫。當面臨相似任務時,AI可以根據描述從技能庫中檢索相關知識。這使得AI能夠自主驅動地探索和應對各種情況。
3.終身學習者:大語言模型方法使得AI能夠在較長時間跨度內逐步獲取、更新、積累和遷移知識。它能夠緩解傳統持續學習方法中的“災難性遺忘”,更好地適應新環境和任務。
4.類人類決策過程和行為方式:通過訓練和自主探索,《我的世界》中的AI能夠根據當前技能水平和世界狀態提出合適的任務,完善技能并存儲已掌握的技能。它還能夠自主探索世界,并以類似于人類的決策過程和行為方式進行行動。這使得AI在決策和行為上與人類非常相似。
5.面向現實世界的推測:AI能夠通關《我的世界》表明它在該虛擬環境中具備高度適應能力。這引發了人們對于AI在現實世界中的潛在能力的思考。未來,AI可能能夠像人類一樣生活、具備各種技能,并且具有自己的想法,使人們難以區分其與真實人類的區別。
綜上所述,通過大語言模型方法在《我的世界》中訓練出的AI更接近于真實人類,具備自主學習、決策和行動的能力。這種訓練方法的發展也引發了對于AI在現實世界中潛在應用的思考和想象。