
在演示中,這個火柴棍一樣的小人自動完成了所有的動作。跳躍、躲避和下蹲,所有這些動作都是計算機自行設計的行為,并且獲得從A到B的最佳途徑,而DeepMind的程序員要做的,只是給配備一組虛擬的傳感器,然后觸發使其前進。
研究人員正在探索如何讓人工智能機器人在復雜的環境下進行復雜并且正確的動作。一般而言,強化學習產生的行為很脆弱,從一個熟悉到不熟悉的環境中,往往很難適應。比如一個會在家里爬樓梯的嬰兒,卻無法自己學會乘坐電梯。
而現在這項研究證明,通過強化學習技術可以使人工智能系統處理更復雜的運動。