【中國智能制造網 名家論談】近日,田淵棟受地平線曾經在Facebook的同事邀請,赴中國做了一期大牛講堂,分享了關于游戲和增強學習等的話題。
田淵棟
1. AlphaGo目前是世界的圍棋選手,在此之后,研究智能圍棋還有什么意義?
我覺得圍棋是很有意思的游戲,AlphaGo雖然把它做出來了。但很多東西的做法和人是不一樣的。人在學圍棋的時候有很多概念,按照概念做判斷,但是機器解決他還是比較暴力的。
一方面,你可以說人用概念來做推理局限了他的計算能力,體現出人本身有一個高度抽象的能力,就是用非常非常局限的計算能力,能達到那么強的棋力。而AlphaGo就是用非常多的計算能力去彌補這些不足,所以恰恰是互補的,我相信還是有意義的。
另一方面,聯系到后面那個問題(目前你的研究團隊,對圍棋AI的研究進展到何種地步?相比AlphaGo如何。),我們這邊在開源之后就先放在那兒了,可能等到以后我們有新想法再拿過來試一試。我們這邊是七八十人的研究機構,要讓我們花二十人做圍棋,這個是不可能的。我們這邊都是很有名的研究員,這些研究員每個人都有自己的方向,像計算機視覺和自然語言處理等等,不可能把自己的方向放棄掉來專門(搞圍棋)。
后,從本質上來說,我們的風格跟其它公司不一樣。我們研究員的一個目標是說在大家不做這個東西的時候,在比較冷門或者大家不相信它能做得更好的時候去做它,證明這條路能走通。比如說我們在做DarkForest的時候,圍棋還是很冷門的方向,大家都不認為圍棋可以做出來。我們的文章比AlphaGo早了三個月出來,證明這個東西確實有效果,而且能提高挺多的,這就是我們的貢獻。我之前在采訪里面說過,好的研究就是“于無聲處聽驚雷”。
像星際這樣的游戲,大家都不知道怎么做,研究員們的任務就是要想辦法找到一些突破口,這個突破口可能沒有人想到,或者是沒有人覺得能做成,我們的目標是在這兒。我回到個問題,就是說智能圍棋之后還有什么意義,就是我剛才說的,如果有人愿意想要做下去的話, 就看能不能自動從里面學出一些概念來,學出一些有意思的東西,比如說人有大局觀或者是大勢,或者是各種下棋時候的概念,概念是不是能從這里面自動學出來。像這些,目前大家都沒什么辦法。
(你說大局觀嗎?)
對,像這樣的東西其實對于我們如何理解人的思維方式是更重要的。職業棋手是很厲害的,人腦的神經傳導是毫秒級的,這點時間機器可以干很多事情,但人就是用這么慢的處理速度達到了這么強的水平。
2. 絕藝和AlphaGo有差距么,差距是多少,是什么造成了這種差距?
這個我稍微看了一下,我覺得絕藝肯定是比Zen要強挺多,200手不到就讓Zen認輸了。我之前看新聞是它對職業棋手可以戰勝80%甚至更高,所以我相信它已經是做得非常好了,我相信它肯定是超過了或者是相當于AlphaGo之前Paper(AI科技評論注:2016 年 1 月 28 日,Deepmind 公司在 Nature 雜志發表論文 Mastering the game of Go with deep neural networks and tree search,介紹了 AlphaGo 程序的細節。)的水平,但是它跟現在的Master相比,可能還是有差距。
3. 跟AlphaGo 3月份比賽的水平比如何?
跟3月份(對戰李世石)的時候這個我不好說,我只能說和Nature那篇論文相比做得好, 當然了跟Master比是有差距的,現在Master所有對戰是全部都是贏的,沒有輸的,勝率是100%,而且都是贏的莫名其妙。Master贏了你,你都不知道什么地方出錯了,好像下得挺好的,然后就輸掉了。所以就是已經到了不知道錯哪兒的程度了。我相信他們應該用別的方法做訓練的,而不是單純拓展之前的文章。像我是聽說他們近把訓練好的值網絡單獨拿出來,根據它再從頭訓練一個策略網絡。我覺得這樣做的好處是會發現一些看起來很怪但其實是好棋的招法,畢竟人類千百年下棋的師承形成了思維定式,有些棋在任何時候都不會走,所以按照人類棋譜訓練出來的策略網絡終究會有局限性;而用值網絡作為指導,從頭訓練一個策略網絡的話,確實會發現很多新招。
(AlphaGo用其他的方法迭代的?)
我相信他們也用了別的辦法,但是細節我也不知道,因為我近也沒有做,所以我也不知道他們用什么樣的辦法,我覺得這方面需要創新。
4. 絕藝這次是跟電腦圍棋比賽,跟下一次的真人比賽區別在哪?
電腦圍棋我們之前也參加過,就是大家坐著,連上之后讓計算機自己下,下到什么地方就說我輸了你輸了,然后就結束了,有可能說我們看看剩下好像不行了,但是機器誤判,就讓人去認輸。 基本上是這樣的過程。
(那我可以這樣理解嗎?跟電腦圍棋比賽的是兩個既定程序的對戰,比如說電腦圍棋絕藝跟真人,比如柯潔對戰的時候,是變動性更大一點,是嗎?)
我相信是的,因為電腦圍棋至少在之前都是有些明顯的風格,比如說有些喜歡在角上和你拼,不愿意去外面搶大場。人可能能看出來這個風格,就會擊敗它,特別是水平不是很高的兩個AI下的話,很明顯能看出問題,比如我們DarkForest就有死活的問題,我們自己會說,你看這里下得不對,肯定是這里下錯了,這個地方他可能判斷有問題,以為這塊棋是活的,其實是死的,所以會有各種各樣的問題。當然了,如果是達到絕藝或者是AlphaGo這樣的水平的話,我肯定是看不出來,我需要計算機輔助幫我下到后面才能看到,但是我相信職業棋手還是能看出來,但Master我不知道,我不是特別清楚。
5. 以DarkForest為例,除了圍棋,這種完全信息博弈的游戲智慧要應用在其他領域需要解決哪些問題?
我覺得現在這個系統是針對于某個問題做特別優化,我之前在 talk里也說了,那么多方法,要依照不同的游戲用不同的方法,沒有那么通用的。比如說你在象棋上用蒙特卡洛樹搜索肯定是不行的,你可能漏搜了某一條特別重要的分支,然后導致一個殺王的走棋序列沒有看到,這是非常有可能的。所以整個AlphaGo是一個大的系統工程和框架結構,它需要有幾個人每天花時間在上面,還得每天不停地調啊調。所以說,現在所謂的 “人工智能” 還是比較弱的,還是需要人去監督,然后把它做出來。
(如果是要針對某一個特定領域呢?)
就是我剛才說的,你先要對這個領域有了解,然后去設計。比如說圍棋和象棋就不一樣,象棋每步的可能性比較少,對局面的判斷相對容易,因為這個原因,你要換一個方法做,而不是用原來的方法做。所以對于方法的選擇,其實是完全依賴于這個問題本身的,所以這個是需要大量的人工智能相關知識才能做出來的。