天天色一色-天天色影院-天天色资料-天天色综-免看一级一片一在线看-免看黄

讓人工智能來打王者榮耀 狄仁杰成最強(qiáng)英雄

如果讓人工智能來打王者榮耀,應(yīng)該選擇什么樣的英雄?近日,匹茨堡大學(xué)和騰訊 AI Lab 提交的論文給了我們答案:狄仁杰。在該研究中,人們嘗試了 AlphaGo Zero 中出現(xiàn)的蒙特卡洛樹搜索(MCTS)等技術(shù),分析王者榮耀的對(duì)戰(zhàn)與英雄,讓我們一起看看吧。
讓人工智能來打王者榮耀 狄仁杰成最強(qiáng)英雄-DVBCN

AI與游戲的化學(xué)反應(yīng)

對(duì)于研究者而言,游戲是完美的 AI 訓(xùn)練環(huán)境,教會(huì)人工智能打各種電子游戲一直是很多人努力的目標(biāo)。

AlphaGo 在圍棋上戰(zhàn)勝人類頂尖選手之后,DeepMind 與暴雪合作開展星際爭(zhēng)霸 2 的人工智能研究。去年 8 月,OpenAI 的人工智能也曾在 Dota 2 上用人工智能打敗了職業(yè)玩家。

那么如果是手機(jī)上流行的多人在線戰(zhàn)術(shù)競(jìng)技游戲(MOBA 游戲)《王者榮耀》呢?最近,匹茨堡大學(xué)、騰訊 AI Lab 等機(jī)構(gòu)提交到 ICML 2018 大會(huì)的一篇論文揭開了王者榮耀 AI 研究的面紗。

案例分析:《王者榮耀》MOBA 游戲 AI

《王者榮耀》中,玩家被分為對(duì)立的兩隊(duì),每一隊(duì)有一個(gè)基地,分別在游戲地圖的相反角落。每條線上有防御塔來防御,它可以攻擊在一定范圍內(nèi)的敵人。每支隊(duì)伍的目標(biāo)是推塔并最終摧毀對(duì)方的水晶。

讓人工智能來打王者榮耀 狄仁杰成最強(qiáng)英雄-DVBCN

該實(shí)驗(yàn)中采用 1v1 模式,使用AI分析1V1對(duì)戰(zhàn)中的游該方式,不同英雄的對(duì)戰(zhàn)方法。結(jié)合模擬戰(zhàn)斗訓(xùn)練,分析出英雄的強(qiáng)弱。

實(shí)驗(yàn)設(shè)置

系統(tǒng)的狀態(tài)變量是一個(gè) 41 維的向量,包含直接從游戲引擎獲取的信息,包括英雄位置、英雄健康度(血量)、小兵健康度、英雄技能狀態(tài)和不同結(jié)構(gòu)的相對(duì)位置。有 22 個(gè)動(dòng)作,包括移動(dòng)、攻擊、治療術(shù)(heal)和特殊的技能動(dòng)作,包括(扇形)非指向技能。

獎(jiǎng)勵(lì)函數(shù)的目標(biāo)是模仿獎(jiǎng)勵(lì)形態(tài)(reward shaping),使用信號(hào)組合(包括健康、技能、傷害和靠近水晶的程度)。研究者訓(xùn)練了五個(gè)《王者榮耀》智能體,使用的英雄是狄仁杰:

1、FBTS 智能體使用基于反饋的樹搜索算法進(jìn)行訓(xùn)練,一共迭代 7 次,每次進(jìn)行 50 局游戲。搜索深度 d = 7,rollout 長度 h = 5。每次調(diào)用 MCTS 運(yùn)行 400 次迭代。

2、第二個(gè)智能體因?yàn)闆]有 rollout 被標(biāo)注為「NR」。它使用和 FBTS 智能體相同的參數(shù),除了未使用 rollout。總體來看,它在批量設(shè)置上與 AlphaGo Zero 算法有些相似。

3、DPI 智能體使用 Lazaric et al., 2016 的直接策略迭代技術(shù),進(jìn)行 K = 10 次迭代。沒有價(jià)值函數(shù)和樹搜索(因?yàn)橛?jì)算限制,不使用樹搜索就可能進(jìn)行更多次迭代)。

4、AVI 智能體實(shí)現(xiàn)近似價(jià)值迭代(De Farias & Van Roy, 2000; Van Roy, 2006; Munos, 2007; Munos & Szepesvari ´ , 2008),K = 10 次迭代。該算法可被認(rèn)為是 DQN 的批量版本。

5、最后是 SL 智能體,它通過在大約 100,000 個(gè)人類玩游戲數(shù)據(jù)的狀態(tài)/動(dòng)作對(duì)數(shù)據(jù)集上進(jìn)行監(jiān)督學(xué)習(xí)來訓(xùn)練。值得注意的是,此處使用的策略架構(gòu)與之前的智能體一致。

AI分析模型

事實(shí)上,策略和價(jià)值函數(shù)近似在所有智能體中都是一樣的,二者分別使用具備五個(gè)和兩個(gè)隱藏層的全連接神經(jīng)網(wǎng)絡(luò)和 SELU(scaled exponential linear unit)激活函數(shù)(Klambauer et al., 2017)。

初始策略 π0 采取隨機(jī)動(dòng)作:移動(dòng)(w.p. 0.5)、直接攻擊(w.p. 0.2)或特殊技能(w.p. 0.3)。除了將移動(dòng)方向挪向獎(jiǎng)勵(lì)方向之外,π0 不使用其他啟發(fā)式信息。MCTS 是 UCT 算法的變體,更適合處理并行模擬:研究者不使用 UCB 分?jǐn)?shù)的 argmax,而是根據(jù)對(duì) UCB 得分應(yīng)用 softmax 函數(shù)所獲得的分布進(jìn)行動(dòng)作采樣。

讓人工智能來打王者榮耀 狄仁杰成最強(qiáng)英雄-DVBCN

與理論不同,在算法的實(shí)際實(shí)現(xiàn)中,回歸使用 cosine proximity loss,而分類使用負(fù)對(duì)數(shù)似然損失。由于在該游戲環(huán)境中我們無法「倒帶」或「快進(jìn)」至任意狀態(tài),因此采樣分布 ρ0 由第一次采取的隨機(jī)動(dòng)作(隨機(jī)的步數(shù))來實(shí)現(xiàn)并到達(dá)初始狀態(tài),然后遵循策略 πk 直到游戲結(jié)束。

為了減少價(jià)值逼近中的相關(guān)性,研究者丟棄了在這些軌跡中遇到的 2/3 的狀態(tài)。對(duì)于 ρ1,研究者遵循 MCTS 策略,偶爾帶入噪聲(以隨機(jī)動(dòng)作和隨機(jī)轉(zhuǎn)向默認(rèn)策略的方式)來減少相關(guān)性。在 rollout 中,研究者使用游戲內(nèi)部 AI 作為英雄狄仁杰的對(duì)手。

實(shí)驗(yàn)結(jié)果

由于該游戲幾乎是確定性的,因此研究者的主要測(cè)試方法是對(duì)比智能體對(duì)抗內(nèi)部 AI 對(duì)手的有效性。研究者還添加了游戲內(nèi)建 AI 的狄仁杰作為「完整性檢查」基線智能體。

為了選擇測(cè)試對(duì)手,研究者使用內(nèi)建 AI 狄仁杰對(duì)抗其他內(nèi)建 AI(即其他英雄)并選擇六個(gè)內(nèi)建 AI 狄仁杰能夠打敗的射手類英雄。研究者的智能體每一個(gè)都包含內(nèi)建狄仁杰 AI,使用智能體對(duì)抗測(cè)試對(duì)手。

下圖顯示了每個(gè)智能體打敗測(cè)試對(duì)手的時(shí)間長度(單位為幀)(如果對(duì)手贏了,則顯示為 20,000 幀)。在與這些共同對(duì)手的戰(zhàn)斗中,F(xiàn)BTS 顯著優(yōu)于 DPI、AVI、SL 和游戲內(nèi)建 AI。

讓人工智能來打王者榮耀 狄仁杰成最強(qiáng)英雄-DVBCN

但是,F(xiàn)BTS 僅稍微超出 NR 的表現(xiàn)(這并不令人驚訝,因?yàn)?NR 是另外一個(gè)也使用 MCTS 的智能體)。研究者的第二組結(jié)果幫助可視化了 FBTS 和四個(gè)基線的對(duì)決(全部都是 FBTS 獲勝):下圖顯示了 FBTS 智能體及其對(duì)手的金幣比例,橫軸為時(shí)間。

讓人工智能來打王者榮耀 狄仁杰成最強(qiáng)英雄-DVBCN

王者榮耀游戲中英雄對(duì)敵人造成傷害或者戰(zhàn)勝敵人時(shí),都會(huì)得到金幣,因此金幣比例大于 1.0(高出紅色區(qū)域)表示 FBTS 的良好性能。如圖所示,每個(gè)游戲結(jié)束時(shí) FBTS 的金幣比例都在 [1.25, 1.75] 區(qū)間內(nèi)。

同時(shí)也展示出幾種智能體戰(zhàn)勝其他射手英雄所用時(shí)間(以幀為單位,即幀的數(shù)量),數(shù)字越小越好。其中 FBTS 為新研究提出的智能體。

相關(guān)文章
吉視傳媒與360合資成立新公司 涉及AI業(yè)務(wù)
吉視傳媒與360合資成立新公司 涉及AI業(yè)務(wù)
【一線觀察】山東廣播電視臺(tái)AI技術(shù)發(fā)展應(yīng)用規(guī)劃
【一線觀察】山東廣播電視臺(tái)AI技術(shù)發(fā)展…
中國電信研究院院長張成良:搶抓AI與6G發(fā)展機(jī)遇,實(shí)現(xiàn)高水平科技自立自強(qiáng)
中國電信研究院院長張成良:搶抓AI與6G…
全國人大代表、湖北電信總經(jīng)理張敏:乘“智”而上 勇攀“高”峰
全國人大代表、湖北電信總經(jīng)理張敏:乘“…
廣西廣電:加快落實(shí)“人工智能+”行動(dòng) 提出三年行動(dòng)計(jì)劃
廣西廣電:加快落實(shí)“人工智能+”行動(dòng) 提…
政府工作報(bào)告:培育量子科技、具身智能、6G等未來產(chǎn)業(yè)
政府工作報(bào)告:培育量子科技、具身智能…
我還沒有學(xué)會(huì)寫個(gè)人說明!
主站蜘蛛池模板: 亚洲国产精品日韩在线观看 | 免费人成年短视频在线观看免费网站 | 欧美国产在线看 | 国产午夜亚洲精品第一区 | 中午字幕在线观看 | 久久99亚洲精品久久久久网站 | 亚州一级毛片在线 | 美女拍拍拍爽爽爽爽爽爽 | 欧美成人看片一区二区三区 | 午夜视频久久 | 亚洲国产精品综合久久网络 | 在线观看毛片视频 | 久草视频福利 | 日产一区二区三区四区 | 久一在线 | 成人a毛片手机免费播放 | 欧美日本一区二区三区道 | 日本免费二区三区久久 | 亚洲男人的性天堂 | 精品国产品国语在线不卡丶 | 久久这里一区二区精品 | 国产在线精品一区二区不卡 | 美女黄色在线观看 | 9久久99久久久精品齐齐综合色圆 | 一本色道久久88加勒比—综合 | 全国最大色成免费网站 | 亚洲欧美二区三区久本道 | 日本三级香港三级妇三 | 日韩欧美一区二区精品久久 | 狠狠色丁香婷婷综合小时婷婷 | 最新步兵社区在线观看 | 最新国产美女肝交视频播放 | 成人精品区 | 视频一区免费 | 又黄又湿又爽吸乳视频 | 成人性欧美丨区二区三区 | 国产a级特黄的片子视频 | 国产精品亚洲综合天堂夜夜 | 爱爱爱久久久久久久 | 亚洲成人高清在线观看 | 香港三级日本三级妇人三级 |