|
據日本共同社1月28日報道,英國《自然》雜志當地時間27日發文稱,美國google公司旗下的人工智能(AI)開發商“DeepMind”(位于英國)研發的圍棋電腦軟件“AlphaGo”(阿爾法圍棋)打敗了職業棋手,開創全球先河。 圍棋下法復雜,一般認為圍棋的對弈軟件開發比國際象棋和日本將棋更難,此次憑借人工智能新技術大幅提高了判斷力。開發人員等召開記者會時稱“正因為規則單純才很難做,可應用于疾病圖像的診斷等需要判斷情況的場合”。
. o+ k& d- ~( C 與“AlphaGo”一較高下的棋手是2013年至2015年的歐洲圍棋冠軍、生于中國的樊麾。2015年10月,雙方以正式比賽中使用的十九路棋盤進行了無讓子的5局較量,“AlphaGo”贏得滿堂紅。: s( I+ H0 q6 |' L o+ R4 l
今年3月,“AlphaGo”將挑戰全球頂級的韓國九段棋手李世石,獎金是100萬美金。李世石表示:“(人工智能)厲害得讓人吃驚,聽說一直在進化,不過我有信心取勝。”" W" C* F; n$ O! C& s, `
圍棋因為其非常復雜,之前最強的圍棋軟件基本上連業余棋手都無法戰勝,而google改變了思路,通過機器學習的方式提高AI,并且直接戰勝了圍棋職業棋手,如果今年3月份的比賽李世石戰敗的話,人類最后一個能戰勝人工智能的棋類游戲就將終結了。
1 B! n0 F) R, n7 k w! s5 t; i1952年計算機掌握了第一款游戲——井字棋 (也稱三連棋),接下來是1994年的西洋跳棋,1997年,“深藍”贏得了國際象棋比賽,國際象棋AI第一次打敗頂尖的人類;2006年,人類最后一次打敗頂尖的國際象棋AI。歐美傳統里的頂級人類智力試金石,在電腦面前終于一敗涂地,應了四十多年前計算機科學家的預言。
7 w \9 c$ }& w) k; F3 g& y/ p 至少還有東方,人們自我安慰道。圍棋AI長期以來舉步維艱,頂級AI甚至不能打敗稍強的業余選手。長期以來,圍棋仍然是橫亙在人工智能研究者面前的難題:計算機的圍棋水平只能達到業余選手的程度。這似乎也合情合理:國際象棋中,平均每回合有35種可能,一盤棋可以有80回合;相比之下,圍棋每回合有250種可能,一盤棋可以長達150回合。這一巨大的數目,足以令任何蠻力窮舉者望而卻步——而人類,我們相信,可以憑借某種難以復制的算法跳過蠻力,一眼看到棋盤的本質。5 T, I6 h5 G2 {# `0 n s
但是,無論人怎么想,這樣的局面當然不可能永遠延續下去。就在今天,國際頂尖期刊《自然》報道了google研究者開發的新圍棋AI。這款名為“阿爾法圍棋”(AlphaGo)的人工智能,在沒有任何讓子的情況下以5:0完勝歐洲冠軍,職業圍棋二段樊麾。
( H7 h& T( Z; U) y: r) z* jAI下圍棋到底有多難?
( \6 I# `: n. _1 u 計算圍棋是個極其復雜的問題,比國際象棋要困難得多。圍棋最大有3361 種局面,大致的體量是10170,而已經觀測到的宇宙中,原子的數量才1080。國際象棋最大只有2155種局面,稱為香農數,大致是1047。( A6 F/ I6 J, T: h, h& \* `
面對任何棋類,一種直觀又偷懶的思路是暴力列舉所有能贏的方案,這些方案會形成一個樹形地圖。AI只要根據這個地圖下棋就能永遠勝利。然而,圍棋一盤大約要下150步,每一步有250種可選的下法,所以粗略來說,要是AI用暴力列舉所有情況的方式,圍棋需要計算250150種情況,大致是10360。相對的,國際象棋每盤大約80步,每一步有35種可選下法,所以只要算3580種情況,大概是10124。無論如何,枚舉所有情況的方法不可行,所以研究者們需要用巧妙的方法來解決問題,他們選擇了模仿人類大師的下棋方式。
1 l0 R! A2 @6 [* ? 機器學習
* ^7 m7 g1 ?2 }$ g2 I& k 研究者們祭出了終極殺器——“深度學習”(Deep Learning)。深度學習是目前人工智能領域中最熱門的科目,它能完成筆跡識別,面部識別,駕駛自動汽車,自然語言處理,識別聲音,分析生物信息數據等非常復雜的任務。
: Z' \& ~! `8 P; V# b: G1 I; A 傳統的人工智能方法是將所有可能的走法構建成一棵搜索樹 ,但這種方法對圍棋并不適用。所以在征服圍棋的過程中,google決定另辟蹊徑,將高級搜索樹與深度神經網絡結合在一起。這些神經網絡通過12個處理層傳遞對棋盤的描述,這些處理層包含數百萬個類似于神經的連接點。其中一個神經網絡“策略網絡”(policy network)選擇下一步走法,另一個神經網絡“價值網絡”(value network)預測比賽勝利者。
/ m- f% b. T- }3 \0 q google用人類圍棋高手的三千萬步圍棋走法訓練神經網絡,直至神經網絡預測人類走法的準確率達到57%。不過google的目標是擊敗最優秀的人類棋手,而不止是模仿他們。為了做到這一點,AlphaGo學習自行研究新戰略,在它的神經網絡之間運行了數千局圍棋,利用反復試驗調整連接點,這個流程也稱為鞏固學習(reinforcement learning)。
9 X6 q' O4 u$ _. G& X3 W/ J/ m. S. h" r! O# E
" v9 w7 C9 Y2 `4 c2 f
AlphaGo 的核心是兩種不同的深度神經網絡。“策略網絡”(policy network)和 “值網絡”(value network)。它們的任務在于合作“挑選”出那些比較有前途的棋步,拋棄明顯的差棋,從而將計算量控制在計算機可以完成的范圍里,本質上和人類棋手所做的一樣。' }+ T# i6 G: Z+ U g$ o
其中,“值網絡”負責減少搜索的深度——AI會一邊推算一邊判斷局面,局面明顯劣勢的時候,就直接拋棄某些路線,不用一條道算到黑;而“策略網絡”負責減少搜索的寬度——面對眼前的一盤棋,有些棋步是明顯不該走的,比如不該隨便送子給別人吃。將這些信息放入一個概率函數,AI就不用給每一步以同樣的重視程度,而可以重點分析那些有戲的棋著。) \* y: [' [, ~5 X( r8 Y5 q
AlphaGo利用這兩個工具來分析局面,判斷每種下子策略的優劣,就像人類棋手會判斷當前局面以及推斷未來的局面一樣。這樣AlphaGo在分析了比如未來20步的情況下,就能判斷在哪里下子贏的概率會高。! I; _% |5 ?5 C
研究者們用許多專業棋局訓練AI,這種方法稱為監督學習(supervised learning),然后讓AI和自己對弈,這種方法稱為強化學習(reinforcement learning),每次對弈都能讓AI棋力精進。然后他就能戰勝冠軍啦!
) \5 a( j# K3 q# t7 P6 ? 人類在下棋時有一個劣勢,在長時間比賽后,他們會犯錯,但機器不會。而且人類或許一年能玩1000局,但機器一天就能玩100萬局。所以AlphaGo只要經過了足夠的訓練,就能擊敗所有的人類選手。9 I r% L* a8 Y8 [8 z9 _2 S
人工智能研究者面對這樣的成就當然欣喜。深度學習和強化學習等技術完全可以用于更廣泛的領域。比如最近很火的精準治療,我們可以訓練它們判斷哪些治療方案對某個特定的人有效。. a1 J( K( v$ @# T; f9 P% K
但是,圍棋畢竟不僅僅是一項智力成就。就像十多年前的國際象棋一樣,圍棋必定也會引發超出本領域之外的討論。等到計算機能在圍棋上秒殺人類的時候,圍棋是不是就變成了一種無聊的游戲?人類的智力成就是不是就貶值了?AI還將在其他層面上繼續碾壓人類嗎?傳統認為AI不可能完成的任務是否也都將被逐一打破?人類最后是會進入AI烏托邦還是被AI淘汰呢?# y, q) W; M. J0 o3 M) W" r
沒人知道答案。但有一點毫無疑問:AI一定會進入我們的生活,我們不可能躲開。這一接觸雖然很可能悄無聲息,但意義或許不亞于我們第一次接觸外星生命。人工智能如果能實現自我學習,那將是一件很可怕的事情,因為機器學習的速度遠遠高于人類學習的速度,史蒂芬·霍金曾警告說“一旦經過人類的開發,人工智能將會自行發展,以加速度重新設計自己。由于受到緩慢的生物演化的限制,人類不能與之競爭,最終將會被代替”" B# ^* J% v& Z) U$ j1 S' q4 L T# S
q, S% f! X" H* R
' w- ]. W0 Q, ]8 w6 m" G# x |
本帖子中包含更多資源
您需要 登錄 才可以下載或查看,沒有賬號?注冊會員
×
|