先是撂倒人類圍棋界頂尖高手李世石、柯潔的“阿爾法狗”,接著又是零基礎(chǔ)自學(xué)成才、100比0擊敗“阿爾法狗”的“阿爾法元”。隨著“阿爾法狗”和“阿爾法元”的誕生,掀起了深度強化學(xué)習(xí)技術(shù)的一輪熱潮,該方向已成為人工智能領(lǐng)域最熱門的方向之一。作為2017-2019年度“中國計算機協(xié)會青年人才托舉工程”和天津市青年千人計劃專家入選者的天津大學(xué)軟件學(xué)院副教授郝建業(yè),就在深度強化學(xué)習(xí)領(lǐng)域碩果累累,先后主持參與過多項相關(guān)方面的國家及省部級科研項目,并致力于將那些宏偉的人工智能憧憬落實到實際的日常生活中去。
深度強化學(xué)習(xí)就是用具有感知能力的深度學(xué)習(xí)自動提取網(wǎng)絡(luò)動態(tài)場景的特征,然后通過具有決策能力的強化學(xué)習(xí)做出最優(yōu)決策。郝建業(yè)團隊通過研究設(shè)計單個體及多個體(深度)強化學(xué)習(xí)及博弈算法和模型,提升智能體在復(fù)雜環(huán)境下學(xué)習(xí)到最優(yōu)決策的性能和效率。其研究成果主要應(yīng)用于自動談判、智能電網(wǎng)等領(lǐng)域。
在智能電網(wǎng)領(lǐng)域,郝建業(yè)團隊同帝國理工大學(xué)合作,針對倫敦市歷年電量生產(chǎn)和消費數(shù)據(jù),設(shè)計了基于深度強化學(xué)習(xí)的電價定價策略,以最優(yōu)化電力市場收益。其研究方向獲得了國家自然科學(xué)基金、天津市自然科學(xué)基金、香港研究資助局基金、澳大利亞教育部獎學(xué)金等項目資助支持。其在電子商務(wù)自動談判領(lǐng)域的研究成果:《AbiNes: 一種自適應(yīng)雙邊談判算法》曾獲得2012年度國際頂級自動談判比賽冠軍;其研究的“Mercury 算法”曾獲得2015年度亞軍。目前其團隊還同網(wǎng)易游戲開發(fā)部門合作,針對其游戲產(chǎn)品,通過深度強化學(xué)習(xí)算法共同研發(fā)高效游戲智能體,提升用戶游戲體驗。比如,在對戰(zhàn)游戲中,人工智能體能根據(jù)不同游戲玩家的水平展現(xiàn)不同的技能水平,并隨著用戶游戲水平的提升相應(yīng)提升自己的技能。
隨著“互聯(lián)網(wǎng)+”時代的到來,網(wǎng)絡(luò)空間安全防御變得尤為重要。天津大學(xué)軟件學(xué)院副教授郝建業(yè)團隊的“大數(shù)據(jù)環(huán)境下移動互聯(lián)網(wǎng)網(wǎng)絡(luò)攻擊在線檢測技術(shù)”項目通過提出安全博弈論模型,結(jié)合多智能體強化學(xué)習(xí)技術(shù),研究設(shè)計應(yīng)對不同類型網(wǎng)絡(luò)攻擊的最優(yōu)防御策略。
中間人攻擊是一種常見的網(wǎng)絡(luò)攻擊方法,是指攻擊者通過使用某種技術(shù)手段與原本正常通訊的雙方分別建立獨立的連接,這樣就可以作為中間人監(jiān)聽整個通訊過程,在通信雙方毫不知情的情況下,竊取用戶的敏感信息。由于現(xiàn)有的中間人攻擊防御技術(shù)無法完全消除該攻擊的存在,之前的防御策略都是通過切換端口或加密的方式進行防御。郝建業(yè)團隊則從一個全新的角度來研究中間人攻擊防御問題:通過對用戶信息進行等級區(qū)分,誘導(dǎo)攻擊者攻擊相對次要的信息,通過迷惑攻擊者,降低其獲取用戶敏感核心信息的概率。其相關(guān)研究成果《重復(fù)博弈下中間人攻擊的防御》《針對中間人攻擊的最優(yōu)個性化防御策略》分別在人工智能大會頂級會議——第26屆和31屆人工智能大會上發(fā)表。