Experimentation
在ImageNet的幫助下,AlexNet煥發生機,它貪婪地吸收著ImageNet的內容,在ImageNet規模和多樣性的土壤中生根發芽,茁壯成長。
秋色已盡染日本京都。午後的陽光明媚,從子彈頭列車的車窗向外望去,綠色、橙色和紅色飛掠而過,如同一幅幅生動的畫作。列車以每小時320千米的速度飛馳著,窗外的鄉村樹木蔥鬱,景色絢麗。然而,美景當前,我卻無心欣賞。這段旅程漫長而艱辛,焦慮如影隨形。在之前的計算機視覺與模式識別大會上,ImageNet三流水準的初次亮相令人失望,此後的幾個月更是連遭挫敗。我們的批評者依然對這個數據集不屑一顧,其他研究實驗室也對其興趣寥寥,ImageNet走向無人問津似乎已經不可避免。為了力挽頹勢,我臨時決定去儘可能多的大學做現場講解,儘管聽眾席上坐的往往是持懷疑態度的研究生和博士後。我能做的不多,但僅僅是讓這個不可避免的結局推遲出現,也感覺像是一場小小的勝利。
現在,提高我們知名度的又一個大好機會就在眼前,今年的國際計算機視覺會議即將在京都召開。與我同行的是亞歷克斯·伯格(Alex Berg),他是紐約州立大學石溪分校的助理教授,也是跟我志同道合的計算機視覺研究者,他的研究生導師是吉滕德拉。亞歷克斯極具天賦,他本著與我和彼得羅協作時相似的精神,致力於探索“物體識別”的挑戰。他在博士論文中使用了Caltech 101,對數據集的價值非常認同,也成為ImageNet為數不多的支持者之一。能與同道中人共勉固然讓人振奮,但也凸顯了前路之孤寂和艱辛。
眼下的一切與我們剛搬到斯坦福大學的實驗室時的興奮之情形成了鮮明對比。彼時的我們堅定地認為,我們所掌握的不僅僅是一個數據集,更是一個測試平臺,可以把我們的想法與整個視覺世界聯繫起來,拓寬我們算法的感知能力,同時用比以往更嚴格的方式對算法進行測試。如果說可以把圖像數據集視為計算機視覺研究的語言(也就是算法及其開發人員可以探索的概念集合),那麼ImageNet就是詞彙量的突然爆發性增長。
我們實驗室所做的每一件事都充滿了活力。有一次,我們利用ImageNet快速訓練了數百個圖像分類算法的實例,讓它們識別一組日常事物,然後將所有實例應用在一張照片上。實驗目的並不是簡單地檢測單個物體的存在,而是通過尋找物體組合來詮釋整個場景。例如,如果檢測算法發現了一個人、一艘船、一隻槳和一片水域,它就會將照片作為一個整體歸類為“划船”。這是一種更深層次的理解,可以說接近於原始的視覺推理。
就像我們那個時代的許多實驗一樣,我們使用的算法準確性很不穩定,還有很大的改善空間。畢竟,就連簡單的圖像識別也仍處於起步階段。但困難只會進一步激發我們的冒險精神。我們的研究大膽且具有前瞻性,雖然並不完備,但能引發思考,其中很多在概念上也很簡單。但直到ImageNet出現,一切才變得切實可行起來。
與此同時,鄧嘉也開始在學術領域嶄露頭角。在ImageNet發佈後一年左右,他發表了題為《對超過10000個圖像進行分類能告訴我們什麼》的論文,總結了ImageNet出現後圖像識別領域發生的根本性變化。儘管論文技術性很強,但其中所蘊含的哲學思想使它有別於一般的學術論文。這篇論文宛如一個預言,甚至觸及了存在的本質。鄧嘉認為,ImageNet不僅代表了規模的擴大,還代表了分類邏輯的轉變,類似於物理學領域的“相變”,在這種轉變中,甚至現象的最基本屬性也會發生變化。ImageNet極大地拓寬了算法面臨的可能性,但因為規模太大,也給算法造成了挑戰(相比而言,小型數據集就不會有這個問題)。
說得更專業一些,ImageNet所提供的“語義空間”在不斷擴大的同時,也變得更加密集,導致正確答案與錯誤答案之間的差距越來越小。在實際應用中,這通常意味著那些在區分少量差異較大的類別時運行出色的技術,在處理ImageNet的上萬個類別時會表現不佳,因為很多類別之間的差別都非常細微。有些技術甚至會完全失效。這種現象剛開始時令人羞愧,但最終會催人振奮,因為它表明未來的算法不僅是當前算法的改進,而且會以一種我們預料不到的方式,從根本上發生變化。
“你知道我最喜歡Caltech 101哪一點嗎?”亞歷克斯的話把我拉回了現實,“除了裡面的訓練數據,它還讓我有機會用完全相同的圖像,把我的研究結果和你的進行比較,做同類對比。”
“相當於一個基準。”我回答道。
“沒錯,這樣就很容易衡量進展。還有什麼比這更能激勵研究人員呢?就像是發起了一個挑戰,就像打賭一樣。”
就像打賭一樣,我喜歡這個說法。
“那麼……如果我們用ImageNet做同樣的事呢?”我問道,邊思考邊說,“或者,乾脆我們就用ImageNet搞一個完整的競賽怎麼樣?”
“你是說像PASCAL那樣的嗎?”
PASCAL視覺對象類別數據集(通常稱為PASCAL VOC)是一個歐洲研究團隊彙編的數據集,包含大約1萬張圖片,分為20個類別。PASCAL VOC與Caltech 101類似,但有一個重要區別:PASCAL VOC是年度計算機視覺大賽的基礎數據集。該大賽始於2005年,每年都有來自世界各地的參賽者提交經過PASCAL VOC訓練的算法,然後用這些算法去識別一組以前沒有見過的新圖片,最後根據分類的準確度對算法進行排名,錯誤率最低的即為獲勝算法。比賽既具有協作性,又具有競爭性,吸引了各方對計算機視覺領域最新進展的關注。而參賽者所使用的數據集僅有ImageNet的千分之一大小。
“那就有意思了。”亞歷克斯回答道,“我都可以想象研究人員在互相交流新想法的時候問:‘它在ImageNet上的表現怎麼樣?’”
這樣一來,ImageNet也成了計算機視覺領域的北極星了,我想。
如果鄧嘉論文的核心思想是正確的,如果ImageNet真的會引起一場大洗牌,帶來新的規則、新的直覺,甚至全新的範式,那麼還有什麼比通過比賽來探索這個數據集更好的方式呢?激烈的競爭壓力可以激發合作的集體力量。比賽要遵循一定的規則,但又要有探索性。即使經過多年的努力創建了ImageNet,僅僅是想像著把它做成比賽,也為它注入了新的生機。
這也意味著將ImageNet推向世界的工作尚未結束。
一回到美國,我就開始了比賽的籌備工作。乍看之下,比賽規程似乎簡單明瞭:使用ImageNet來訓練算法,用一組算法從未見過的圖像對其進行測試,評估算法對圖像標註的準確率,以此計算排名,總錯誤率最低的算法勝出。然而,從實際操作上看,將數據集轉化為競賽本身就是一項科學挑戰。
在象棋、撲克或籃球等比賽中,勝負的概念簡單明瞭。然而,在科學競賽中宣佈獲勝者類似於做出了一項承諾:承諾不僅參賽算法在某些方面表現優異,而且算法設計對整個領域做出了貢獻;承諾獲勝算法能給我們帶來全新的啟示、深刻的見解,甚至變革性的成就;承諾比賽結果就是邁向北極星的下一步。這是一個重要而莊嚴的聲明,發表的時候必須充滿信心。
在這種情況下,競賽的嚴謹性和透明度都至關重要。為了實現這兩大目標,我們起草了大量文件,詳細解釋算法的分析方法,解讀對算法性能進行量化的精確公式。除此之外,靈活性也很重要。畢竟,當給照片分配標籤時,就算是人類,也可能會對哪個物體最相關產生分歧。例如,想象在一張水果擺盤的圖片裡,草莓和蘋果都非常顯眼,因此都可以被視為照片的核心特徵。如果給這張圖片標註“草莓”而不是“蘋果”,算“錯誤”嗎?
為了避免誤判表現優異的算法,我們允許算法給每個條目添加五個標籤,標籤以相關性排序。比如,在上面的例子中,“草莓”和“蘋果”這兩個標籤都算正確答案。我們把這種評估標準叫作“五大標籤錯誤率”。這種標準可以鼓勵參賽者明智地分散識別風險,確保他們的能力得到最充分、最公正的展現。
就像ImageNet本身的創建過程一樣,比賽帶來了一連串意料之外的挑戰。我們花了數週時間研究與參賽者共享數據集的統籌問題,最終選擇分發一個精簡的子集:比賽所用數據庫約佔ImageNet圖像總量的十分之一、總類別數的二十分之一,共包含約140萬張圖片,涵蓋1000種日常物品、植物和動物。為了確保為算法提供新穎的測試,我們再現了ImageNet的大部分開發過程——我們重新下載並標註了數十萬張新圖片,又進行了一輪眾包標註。總之,我們花了幾個月的時間來籌備比賽。
在籌備過程中,鄧嘉的支持團隊不斷壯大,其中就有像奧爾佳·魯薩科夫斯基(Olga Russakovsky)這樣的新人。奧爾佳是一位聰明且充滿活力的研究生,一直在尋找有意思的項目來貢獻自己的力量。她雙眼有神,捲髮及肩,說起話來很有感染力,在人群中非常顯眼。從我們第一次見面開始,我就很喜歡她,尤其讓我印象深刻的是她身上那種不著痕跡的反差:她性格活潑,很容易被誤認為是土生土長的加州人,但事實上,她出生在烏克蘭,經常談起她還住在哈爾科夫的祖母。她不僅智商高,也是我們系裡少有的社交能手。我知道她有足夠的才智在幕後為項目做出貢獻,但我也暗自揣測,也許有一天,她可以利用自己天生的才智成為代表項目的公眾人物。
“激動嗎?”奧爾佳問道。
我確實很激動。網站第二天就要正式上線了,競賽消息也會同時公佈。團隊正在實驗室裡熬夜做收尾工作。
“告訴我,”鄧嘉說,“你在這裡的終極目標是什麼?”
ImageNet項目進入最黑暗的日子以來,我幾乎再也沒有思考過其他問題。考慮到我們所做的一切工作,我發現僅僅將ImageNet視為一個數據集就過於狹隘了。即使到了現在——尤其是現在,在比賽近在眼前的時刻——ImageNet仍然只是一個假設、一個賭注,賭的是計算機視覺領域最需要的東西,是獲得長久以來哺育著人類感知能力的多樣性和變化性。
我樂觀地認為突破就在眼前,但又擔心通往突破的道路崎嶇難行,畢竟ImageNet體量龐大,對任何一種算法來說都是難以駕馭的。我們討論了目前流行的各種算法,如支持向量機(Support Vector Machine,SVM)、隨機森林(random forest)、自適應提升(boosting),甚至是我和彼得羅在單樣本學習論文中使用的貝葉斯網絡,都會不堪重負,這迫使我們去創造一些真正的新算法。
“我不認為ImageNet會把現有的算法變得更好。”我說,“我認為它會讓它們過時。”
比賽的正式名稱為“ImageNet大型視覺識別挑戰賽”(ImageNet Large Scale Visual Recognition Challenge,ILSVRC),對所有人開放,獲勝者會即刻獲得認可。首屆比賽將於2010年舉行,5月開放報名,9月統計結果,同年晚些時候,會在克里特島舉行的歐洲計算機視覺大會(European Conference on Computer Vision,ECCV)研討會上公佈獲勝者。在研究界看來,賽事的準備工作似乎進行得天衣無縫,但其實這多虧了幕後一些外界力量的幫助。
考慮到我們缺乏辦賽經驗,再加上ImageNet的知名度還很低,我們聯繫了PASCAL VOC的創始組織者馬克·埃弗林厄姆(Mark Everingham)。馬克是牛津大學的研究員,也是計算機視覺領域冉冉升起的新星。當時PASCAL VOC已經進入第六個年頭,而ImageNet才剛剛起步。馬克非常熱心,同意把ImageNet作為PASCAL VOC競賽的一個新賽道。這一舉動非常慷慨,讓我們有機會在已經建立起來的框架中學習相關技巧。
當時與計算機視覺相關的競賽相對較少,因此創辦新競賽足以激起不小的水花,吸引一些早期的關注。我們一開始就收到了150份報名表,最終共有11個團隊提交了35個參賽作品。雖然參賽算法不是很多,但我們終於邁出了第一步。
在某種程度上,在首屆ImageNet挑戰賽前夕,我們的心情甚至比一年前ImageNet發佈的時候還要激動。發佈產品是我們向世界展示自己創造的東西;而現在,世界將向我們展示他們用ImageNet創造的東西。我們整個項目都是以生物視覺原理為基礎,而挑戰賽就是對相關生物影響的有力延續。ImageNet的基本理念是算法需要直面其所處環境的全部複雜性和不可預測性,也就是真實世界的本質。競賽將使算法面對的環境充滿真正的競爭壓力。
就像我們的三葉蟲祖先漂流在古老海洋中一樣,現代世界的計算機視覺算法即將墜入自己的進化熔爐,接受嚴峻的考驗。提交的作品代表了使用ImageNet完成的第一代研究成果。手握這些作品,我不禁想,這是否就是答案了?我們即將瞥見某個新的前沿了嗎?
然而,現實卻與我們的期望背道而馳。
獲勝算法來自一個由NEC實驗室、羅格斯大學和伊利諾伊大學的研究人員組成的聯合團隊。他們採用的是支持向量機算法,這也是我此前認為無法駕馭ImageNet的一種算法。支持向量機這個名字聽上去相當晦澀,取自該算法利用的高維幾何的一個特徵,象徵著其抽象本質。支持向量機在過去幾年非常流行,到2010年,它似乎已經成為物體識別的實際標準。這個參賽算法的表現確實可圈可點,我們對每位參賽者的努力表示讚賞。不過,與計算機視覺領域其他方面的前沿工作相比,這些算法只能算略有改進,很難說開啟了新的時代。
在ImageNet的發展歷程中,有很多令人洩氣的時刻,這次就是其中之一。如果說2010年的比賽虎頭蛇尾的話,那麼2011年的比賽則給人一種末日之感。2011年的獲勝算法來自法國施樂研究中心,也是一種支持向量機算法,識別表現雖然比前一年有所提高,但也只是將準確率提高了2個百分點左右。
我開始意識到自己可能誤判了。正如我猜測的那樣,大多數算法都難以應對ImageNet,但支持向量機比我想象的要強大,它為參賽者提供了安全的避風港,阻礙了我夢寐以求的激進創新。連續兩年,司空見慣的算法都只是在能力上略有提升,幾乎沒有任何真正的進步。最糟糕的是,參賽人數也出現急劇下降:第二年的報名人數從150人減少到96人,參賽算法也從35個減少到15個。願意為此付出努力的人似乎越來越少,也許這並不奇怪。
說這種經歷“讓人羞愧”已經遠遠不足以描述我們的心情了。為了推動ImageNet的發展,我們傾注了多年的心血,蒐集的圖片數量遠遠超過以往的任何數據集,還精心策劃了一場國際競賽來探索它的能力,但結果卻只是簡單地重複了現狀。如果說ImageNet是一場賭注,是時候開始思考我們是不是已經輸了。
“西爾維奧!快看!我剛才就想給你看!”
我聽到父親在走廊那頭得意地喊道,讓西爾維奧過去看他在車庫市場中的最新收穫。我們居住的加州郊區面積大,全年氣候宜人,尤其適合進行車庫市場。搬到這裡後,父親依然對他最大的愛好充滿熱情。他還是對那些帶有一絲意大利血統的物品情有獨鍾,尤其引以為豪的是最近買的一條腰帶,上面蓋著他最喜歡的印章:“意大利製造”。我不禁想,這麼多年過去了,他是否意識到,他的女兒其實比他更勝一籌:不僅找到了意大利製造的稀世珍品——一個好男人,還跟他成了夫妻。父親正拿著一條腰帶給這個男人看。
“啊。”我聽到西爾維奧回應道。我暗自發笑,他的漢語詞彙量屈指可數,這個音節就是其中之一。
現在,我和父母住在校外教工區的一棟聯排別墅裡。這裡非常舒適,我們心懷感激,但我覺得自己的生活依然七零八落。我和西爾維奧還是兩地分居,一有時間就去探望彼此,所以很少跟身邊人打交道。跨國飛行仍是家常便飯,大部分時間都用來打包行李、往返機場、協調通勤。我們感覺自己就像是空中居民,並沒有生活在陸地上。
儘管如此,在喧囂的背後,仍能找到一種異常的平靜。母親的病情相對穩定。儘管異地婚姻帶來了很多麻煩,但西爾維奧經常過來看我,跟我父母的關係也日漸緊密。每次過來,他都會親自下廚,想用美食俘虜我父母的胃;而他們也報之以李,每次西爾維奧來到後的第一頓晚餐,他們都會親手準備豐盛的家常菜。這總會讓我想起小時候在成都的日子,每逢週末都會到外祖父母家,品嚐他們精心準備的燉肉、炒菜、涼拌菜、米飯和湯。
作為晚飯現場的唯一翻譯,我的任務就是幫助他們交流,主要的聊天內容就是中國美食。在西爾維奧眼裡,中國美食文化博大精深,讓他深感好奇。他的欽佩之情發自內心,並不是為了討岳父母歡心。父母做的中餐非常地道,並沒有照顧西方人的口味,反而讓西爾維奧更加喜歡。吃晚飯的四個人都是移民,但在這張餐桌上,國界似乎消失了。
一切都很美好,只可惜,這種美好太過短暫。
僅僅幾個月後,我就動彈不得了,無形的疲憊感深入骨髓。我步伐沉重,抬不起胳膊,睜不開眼睛,好像有千鈞重負壓在身上。我和西爾維奧非但沒有解決異地婚姻的任何問題,反而做出了一個極其理性的決定,讓問題變得更加複雜:我們決定要孩子了。我的孕期反應非常大。
特別是到了孕晚期,我感覺度日如年。除了常見的孕期反應,我還出現了一些找不到原因的症狀,醫生告誡我,在分娩之前,不可以再出行。但是,世界並沒有放慢腳步,時代的洪流繼續沖刷著我——學生、研究、教職員工和正在進行的ImageNet項目。我每天都盯著電腦辦公,手機震動個不停。
有一次,手機突然在半夜震動起來。我拿起手機,發現是瓊·薩貝拉打來的。我覺得有些不對勁。
“瓊,怎麼了?”
電話那邊停頓了片刻。“飛飛,鮑勃摔倒了。”
“什麼?什麼意思?他受傷了嗎?”
“不是,不是。我的意思是,問題挺嚴重的,他好像失去平衡能力了,感覺很不正常。”
我還是沒明白。瓊聽起來像是在描述別人的祖父,而不是鮑勃。鮑勃還年輕,不可能發生這種事。
“你帶他去醫院了嗎?”
“我現在就是在醫院給你打的電話。醫生做了快速腦部掃描,我們還在等詳細結果,但是……”她慢慢地嘆了口氣,“飛飛,情況看起來很不好。”
我使勁嚥了咽口水,坐直了身子。我說想跟鮑勃通話。我聽到瓊把電話遞了過去,用我幾乎聽不清的聲音說:“是飛飛的電話。”
“喂?”
這不是鮑勃的語氣。
“是鮑勃嗎?呃……瓊說你摔倒了。你還好嗎?現在感覺怎麼樣?”
我本來想跟他說說話,確認他沒事,但他的聲音聽起來很遙遠,似乎說話很費力氣。
“鮑勃,”我意識到問題的嚴重性,聲音越來越輕,“你想讓我飛過去嗎?我可以馬上過去。”
鮑勃在電話那頭沉默了片刻,這時我才意識到,我的話讓他始料未及。他知道我的預產期還有幾個月就到了,也知道醫生禁止我出行。在這種情況下,我還提議去看他,已經能夠說明事情的嚴重性了——直到把話說出口,我自己才意識到這一點。
沉默。然後是一陣急促的呼吸聲。微弱、嘶啞、顫抖。不可能是我想的那樣。他……在哭嗎?鮑勃從來沒有在我面前哭過。我聽到了激動的摸索聲,瓊又拿回了電話。
“怎麼了?飛飛,你對他說了什麼?!”
在接下來的24小時裡,我坐立不安,焦急地等待著瓊的消息。
終於有信兒了——膠質母細胞瘤。晚期。無法手術。
鮑勃要死了。
我不敢相信。我開始給我認識的每個人打電話,迫切地尋找可以提供幫助的人。在我家多次出現健康危機時,他一直是我們的救命恩人,我也一定要盡全力幫他。一個偶然的機會,我通過一個獎學金項目聯繫上了附近一所大學醫院的神經生物學部門。第二天,他被轉到最先進的護理病房。
鮑勃對我太重要了,我盡了自己最大的努力,卻無法控制病情的發展。他的身體狀況急劇惡化,在發現腫瘤短短几天后就完全失去了意識。醫生們竭盡所能,但他再也沒有醒過來。不到三週,那個從高中起就一直是我的第三位家長、如同我家人一樣的人,就這樣與世長辭了。
我們全家人都沉浸在極大的悲痛之中。父親一聽到這個消息就淚流滿面。母親依舊沉默寡言,但我知道她和父親的心情是一樣的。他們也和這位“大鬍子數學老師”有著特殊的情誼,多年來,他們一起幫助我這個容易陷入痴迷的移民女孩度過了艱難的青春期。就連西爾維奧也受到了影響,他只見過鮑勃幾次,但已經逐漸明白他在我生命中獨一無二的重要性。此外,鮑勃的家人跟西爾維奧一樣來自意大利那不勒斯。西爾維奧知道依照醫囑,我不能去參加葬禮,但他擔心我會因此遺憾終身,於是他放下手頭的一切,從西海岸到東海岸,飛越整個美國,代表我參加了葬禮。
我仍然記得鮑勃在帕西帕尼高中的辦公室“數學實驗室”,牆上的書脊如彩虹一般。我還記得,我們的談話為我提供了每日的避風港。我還記得,如果我考試成績不好,他會嚴肅地批評我。在加州理工學院讀書的時候,他告訴我研究生宿舍房間應該怎麼選,對各種大小事情,他都像慈父一樣給我建議。我還記得,我們每週都會打電話,這些通話在我的生活中勾勒出一條連續的軌跡。我還記得,他慷慨解囊,借錢幫我家開乾洗店,把我們從絕境邊緣拉了回來。我還記得,不到一年前,我最後一次去新澤西是參加鮑勃的退休聚會;他站起來發表演講,毫不隱晦地說,他為“他的兩個兒子……和他的女兒”感到驕傲,聽到這樣的話,我一時不能自已。
斯人已去,但足跡不滅,思想不朽。鮑勃的夢想是出版自己的科幻作品,雖然這個夢想沒能實現,但他始終筆耕不輟,也總會在每個月底把自己的日記通過電子郵件發送給我。我們成了數字筆友,像往昔年代的人一樣通過長篇通信保持聯繫。這些郵件成為我所認識的那個人的最後遺存:每一個黑白網頁都記錄著他的所思所感,有的深刻,有的平淡。時至今日,這些文字仍讓我時而莞爾,時而捧腹,偶爾還會翻白眼,但總能引發我的思考。我的職業生涯致力於理解人類心靈的本質,而我此生最大的榮耀之一就是有機會更好地瞭解鮑勃的本性。
生活的腳步並沒有放慢的跡象。我緬懷著鮑勃,忍受著讓我動彈不得的大肚子,也無時無刻不在惦記著ImageNet。這三重思緒構成了生活的主旋律,因此每當西爾維奧過來看我,我都特別感恩。
有一次晚餐時,氛圍異常安靜。他問道:“你在想什麼?是鮑勃嗎?”
“鮑勃一直都在我心裡。”我惆悵地笑了一下,“不過不僅僅是他。”
“ImageNet?”
“是啊,我也不知道,整個比賽的想法……感覺很順理成章,結果才做了兩年,參賽的人數就開始下降了。天啊,難道我一直是錯的嗎?難道答案就這麼簡單?我的意思是,‘假設’就是這樣的,對吧?有時候,‘假設’就是錯誤的意思。”
“當然,有時候確實是這樣。”
我抬起頭來看著他。
“但這次不是這樣。你知道嗎,從你第一次提到這個想法,我從來沒有勸你放棄過,這是有原因的。不僅僅因為你是我的妻子,還因為我也相信ImageNet !也許這個數據集太超前了,也許吉滕德拉是對的,你的跨越幅度太大了。但這並不意味著ImageNet是錯的。”
我笑了。他並沒有解決我的問題,但他的話鼓勵了我。
“還有,”他接著說,“我認為潮流正在轉向。我們實驗室研究的視覺問題跟你們的完全不一樣,但你知道大家開始談論什麼了嗎?更大的數據集、更多種類、更加廣闊的世界圖景。這就是假設的另一個特點——有時候,假設需要一些時間才能贏得所有人的認同。”
即使是西爾維奧最溫暖的安慰也充滿了理性,他很擅長幫我振奮精神。不過,沒過多久,我就不再需要他的鼓勵了。科學總是以一種耐人尋味的方式打破預期,即便那些與之最接近的人也始料未及。
2012年8月,讓我夜不能寐的事情終於不再是ImageNet了——我們的孩子出生了,我的生活主題變成了哺乳、換尿布和永遠不夠的斷斷續續的睡眠。
這一年,ImageNet挑戰賽的結果將在意大利佛羅倫薩宣佈,因為孩子的原因,我本不打算親自去參加,但有一天,鄧嘉深夜打來電話。這個時間點很不尋常,我的第一反應是出了什麼事。
“喂?”
聽得出他很激動,但感覺不像是痛苦,而更像是興奮,準確地說,是迷茫而興奮。因為鄧嘉一向淡定,所以他的語氣讓我格外留意。
“是這樣的……我們一直在評估今年的參賽作品,其中的一個算法是……我的意思是……”
他遲疑了一下。
“怎麼了?是什麼?”我問道。
“好吧。獲勝的團隊使用了非正統的算法,是一種神經網絡算法,你敢相信嗎?”
我的耳朵豎得更直了。如果說剛才我的注意力還沒有完全集中在他的身上,那麼現在我肯定百分之百地在聽他說話了。
“感覺像是……老古董。”
我不由得笑了起來。一個21世紀的學生用“老古董”這個詞來形容幾十年前的工作,足以證明我們的領域是多麼年輕(可能也證明我正在變老——我選擇無視這種可能性)。但他說得沒錯。神經網絡是由生物學啟發、層次分明的相互連接的決策單元陣列。由於計算機視覺領域的迅速發展,到了21世紀初,我們中的大多數人已經把神經網絡看成是塵封已久的藝術品,包裹在玻璃罩中,四周用天鵝絨繩索保護,閒人勿近。
“真的嗎?是神經網絡算法?”
“是的,但還不止這些。飛飛,你不會相信算法的表現有多好。”
飛機窗外一片漆黑。雖然飛機還在跑道上,但還是什麼都看不見。坐在中間座位的我,能看到的只有前排的座椅。我告訴自己:“一會兒就能到佛羅倫薩了。”但我心裡清楚,這只是個幻想。因為臨時決定參加歐洲計算機視覺大會,我不得不放下一切,家庭生活陷入了混亂,但鄧嘉的消息讓我別無選擇。不得不承認,當嬰兒急需照顧時,和父母同住還真是益處多多。
訂票的時候,我回想起我和西爾維奧度蜜月時,從舊金山國際機場到佛羅倫薩機場並沒有直飛航班,於是我費了一些功夫找到了能讓我最快時間回家、回到孩子身邊的航線。雖然很不情願,但我最後還是選擇了一趟20小時的航班,飛機空間狹小,肯定也睡不好,唯一的中途停留休息就是轉機,可能在巴黎、蘇黎世或其他一些我在迷迷糊糊狀態下無法辨認的標誌性城市。但現在已經無法回頭了。飛機開始在跑道上緩緩滑行,引擎開始轟鳴。擴音系統裡傳出廣播:抬起小桌板,繫好安全帶。我想睡一會兒,但思緒卻翻滾個不停。
我一直在思考這次的獲勝算法。它的識別準確率高達85%,比上一年的冠軍高出10個百分點,創造了計算機視覺領域的世界紀錄。可以用一個數據來說明這個準確率的意義:我所看到的研究表明,人類的平均識別準確率約為97%,而這還是對簡單得多的二元選擇而言(比如判斷一張照片上是否有動物)。相比之下,算法需要篩選上千個選項才能找到正確答案。因此,雖然這個算法還沒有達到人類的水平,但已經比其他任何算法都更加接近,而且差距已經小到驚人。
飛機廣播“嘟”了一聲,然後傳來機長的聲音:我們已進入巡航高度。
這個參賽算法最令人驚訝的地方,也許在於它提高準確率的具體方法。儘管發展了數十年的支持向量機等現代算法已經引起廣泛興趣,並曾在前兩年的比賽中獲勝,但這次獲勝算法的研發團隊卻選擇了讓神經網絡重出江湖,並在比賽中大顯身手,把第二名遠遠甩在身後。冠軍算法名為AlexNet,是向這項技術和項目的主要作者、多倫多大學研究員亞歷克斯·克里熱夫斯基(Alex Krizhevsky)致敬。
飛機遇到氣流,顛簸了一下。
準確率竟然在短短一年內大幅提高了10個百分點?而且是通過神經網絡實現的?飛機從一個時區穿越到另一個時區,我的大腦運轉不停。這就像是聽說一輛本田思域以每小時160千米的速度差打破了陸地速度的紀錄。根本不可思議。進步不應該是這樣的。
還是說,進步就是這樣的?我想到了鄧嘉在論文中闡述的內容,包括在使用ImageNet進行算法訓練時的一些發現。在小型數據集上運行良好的技術,在大型數據集上訓練時卻突然表現不佳,反之亦然。有沒有可能,神經網絡一直以來都更適合理解ImageNet這種更大、更密集的可能性空間?有沒有可能,神經網絡一直都能同時應對類別總數的大幅增加和類別間差異的急劇縮小,而它最先進的競爭對手卻做不到?我急切地想找到更多線索,於是打開筆記本電腦,調出了AlexNet團隊在參賽算法中附帶的幻燈片,仔細研究他們所做的設計選擇。
AlexNet是卷積神經網絡(Convolutional Neural Network,CNN)的一個實例。卷積神經網絡的叫法源於圖形卷積過程。在這個過程中,一系列濾波器在圖像上掃過,尋找與網絡所識別事物相對應的特徵。這是一種獨特的有機設計,靈感來自休伯爾和威塞爾對哺乳動物視覺系統的觀察,即視覺處理在多個層次上進行。就像在自然界中一樣,卷積神經網絡的每一層都會逐漸整合更多的細節信息,從而形成越來越高層次的感知,最終將真實世界的物體完整地呈現在我們的視野中。
這樣就形成了一種類似視網膜的算法,凝視著周圍的環境。就像真正的眼睛一樣,算法的最外層把成千上萬個感受野應用於圖片的像素,每個感受野都經過特定調整,能夠識別出獨特的微小圖案,並在遇到這種圖案時被激活,比如以一定角度傾斜的對角線邊緣、兩種色調之間的模糊混合、條紋圖案或明暗交替等等。在這種感知水平上,濾波器可以對任何事物做出反應,比如小狗皮毛的圖案、廚房櫃檯的邊緣,或者陽光下玫瑰花瓣輪廓上的閃光。事實上,AlexNet能夠捕捉到所有這些特徵,甚至更多,這不僅是因為它接受了ImageNet的訓練,更重要的是,這種算法忠實於生物視覺的進化本質。研究團隊沒有預先決定網絡應該尋找哪些特徵,而是讓數十萬個神經元在沒有人工干預的情況下,完全依靠訓練數據逐漸學習到自己的敏感度。AlexNet就像生物智能一樣,也是自身所處環境的自然產物。
接下來,來自成千上萬個感受野的信號會深入神經網絡,匯聚融合成更加豐富、清晰的提示信息。每個新的感知層都在比上一層更加複雜的感知水平上運行,當感知到熟悉的事物時(也就是感知到算法此前已經被訓練識別的東西),就會做出反應,就像生物神經元的生化反應被激活一樣。微小的圖案越來越大。這些圖案進一步像拼圖一樣連接起來,形成越來越容易辨認的片段——老虎的條紋、木頭的紋理、映在地上的影子。
最終,經過各層過濾後,僅剩下少數幾個信號被融合成識別對象的詳細圖像,進入網絡的最後階段:識別階段。摩托車、豹子、算盤、母雞、電視機,或是其他上千種選擇中的任何一個。所有這些都來自同一種算法,其精確度越來越接近人類水平。
當然,這些並不是什麼新的創意。自從貝爾實驗室成功將卷積神經網絡應用於手寫郵編,楊立昆多年來一直對卷積神經網絡保持著驚人的忠誠。在AlexNet誕生時,他已經花了20年時間堅持不懈地完善算法、發表研究成果,但一直沒有必要的資源來充分實現這些成果。現在,幾乎在一夜之間,這種常被視為誤入歧途的執著似乎變得極具先見之明。楊立昆把自己的卷積神經網絡算法巧妙地命名為LeNet(呼應他的英文名Yann LeCun),其指導理念在AlexNet中熠熠生輝,宛如重生般煥發生機。
這種聯繫讓AlexNet背後的三人團隊備受矚目。他們都是多倫多大學的研究人員,負責人是與項目同名的亞歷克斯·克里熱夫斯基,以及他的合作伙伴伊利亞·蘇茨克維(Ilya Sutskever)。這兩個聰明的年輕人資歷尚淺,仍在建立自己的聲譽。然而,第三個名字立刻引起了我的注意:傑弗裡·辛頓。就是這位辛頓,在20世紀80年代中期開發了反向傳播技術,成為早期機器學習的先驅。反向傳播的突破性方法首次實現了對大型神經網絡的可靠訓練。就是這位辛頓,曾經指導過彼時還是他實驗室學生的楊立昆。和他的學生一樣,辛頓拒絕放棄對神經網絡的研究,即使這讓他在同事中顯得形單影隻。看來,AlexNet絕不僅僅是一個參賽算法。這是一個歷經四分之一個世紀的正名時刻。
隨著我對算法架構研究的不斷深入,它根源的意義變得更加清晰。雖然相隔20多年,但AlexNet和LeNet的主要區別似乎微乎其微,兩者都運用了傳統的神經網絡範式。但有一個關鍵的區別是顯而易見的:AlexNet這個新的演化版要龐大得多。
與LeNet相比,AlexNet可以處理大約10倍規模的圖像,通過一個大小約為其兩倍的卷積核(可以理解為神經網絡的“焦點”)來掃描圖像。在此基礎上,AlexNet通過一個更深的網絡對識別的細節進行過濾,這個網絡比LeNet多出幾層,因此能夠更全面地處理所獲得的信息,並做出更復雜的推斷。最後,LeNet的設計目標是將分析結果轉化為10種可能結果中的一種,對應於它要識別的10個手寫數字,而AlexNet可以識別出1000個物體類別,也就是比賽中選擇使用的ImageNet子集中所包含的類別總數。
但所有這些都只是程度上的差異,而非本質上的差異;從理論層面看,兩種算法幾乎沒有什麼區別。然而,AlexNet的表現卻創下了前所未有的輝煌。
這是如何實現的呢?
部分原因肯定是算法運行所需的硬件。在很長一段時間裡,神經網絡的訓練難度很大,硬件的明顯限制是致命的。即使是利用過去幾十年中規模小得多的網絡來訓練算法,從操作層面看,也很難實現。事實上,用世界上最大的圖像集合來訓練類似AlexNet這樣的網絡似乎是難以想象的。但技術已經取得了長足的進步,尤其是出現了針對特定應用進行了優化的計算機硬件,價格低廉但性能出色,讓大規模數據集訓練成為可能。有意思的是,一切都要歸功於電子遊戲的流行。
這就引出了另一個命運轉折點:從功能上看,神經網絡所傾向的數字運算方式類似於視頻遊戲的圖形渲染方式。自20世紀90年代以來,價值數十億美元的電子遊戲產業一直推動著定製硬件的進步和商業化,助推了英偉達等超級品牌的崛起。到2012年,相關硬件——一種被稱為“圖形處理器”(Graphics Processing Unit,GPU)的專用處理器——已經以優惠的價格成為消費產品。對辛頓的實驗室來說,這意味著實現AlexNet所需的硬件不再需要政府撥款和施工許可,而是可以在百思買電器大賣場的貨架上買到。
然而,“可行”不一定意味著“方便”。即使有如此強大的硬件,利用ImageNet來訓練AlexNet也需要使用多個處理器,每天24小時運行整整一週的時間。所以,在2012年年初的某一週,當世界各地數以百萬計的圖形處理器忙於渲染抖動的機槍、成群結隊的殭屍和彈片飛濺的爆炸時,有兩臺圖形處理器卻正在多倫多的某個地方將一種新型神經網絡從理論變為現實。
儘管算法性能取得了顯著進步,但在嚴格意義上講,並沒有什麼新穎的東西。進步的作用只是讓現有進程能夠在更加實際的時間內完成。如果要說2012年的世界與LeNet時代有什麼真正的不同,那一定是用於訓練網絡的數據之充裕。畢竟,在1989年,數字圖像還處於起步階段,大規模的圖像庫也非常罕見。在那個時候,組織一套用於神經網絡訓練的數據集——不僅僅是數字圖像集合,更是一個針對特定應用、每個圖像都由人工精確標註的海量集合——似乎完全是無稽之談。
當然也有例外情況,那就是用來訓練LeNet讀取郵編的掃描圖像。在當年,即使打造一套手寫數字圖像的訓練集,也是勉勉強強才能完成的工作。郵編圖片訓練集和現代圖片訓練集的對比情況引人深思。與數百萬像素的全綵照片不同,掃描的數字圖片尺寸很小,顏色單一,佔用的內存也相對較少。而且,只需數千個示例(而不是自然世界所需的數以億計的示例),就足以涵蓋其特異性所需的多樣性。因為當時只能找到手寫郵編的圖片訓練集,所以,在20多年的時間裡,卷積神經網絡算法的唯一成就是識別手寫郵編也就不足為奇了。從這個角度來看,數據似乎有種為系統注入活力的能力。
事實上,在ImageNet的幫助下,AlexNet煥發生機,它貪婪地吸收著ImageNet的內容,在ImageNet規模和多樣性的土壤中生根發芽,茁壯成長。一直以來,神經網絡並不需要更花哨的數學公式和更奇特的抽象概念。我們期待神經網絡能夠理解世界,而它們只是在等待我們提供更加清晰的圖景,等待一些真正有學習價值的東西。大數據訓練了LeNet去理解複雜的人類筆跡,現在它也在訓練AlexNet去理解萬物。
後來我才知道,在2012年之前的幾年裡,辛頓重拾激情,想要證明神經網絡的可行性。2011年,他認為自己比以往任何時候都更接近轉折點,於是開始以一種既對抗又合作的方式與同事溝通,他的表達方式聽起來更像是提出挑戰,而不是提出問題。他跟同行探討下一步行動計劃,其中一個同行就是吉滕德拉。雖然他們兩人早有交情,但吉滕德拉一直對辛頓的項目持懷疑態度。
“我要怎麼做,才能讓你相信神經網絡是未來的趨勢?”辛頓問道。
“你真的想打動我嗎,傑弗裡?那就讓我看看它們能不能處理一些真正的任務。”
“比如?”
“比如物體識別,真實世界中的物體識別。”無論吉滕德拉對ImageNet有什麼看法,他的確相信視覺分類的力量,這一點我在加州理工學院時就瞭解到了,“你參加過PASCAL VOC嗎?”
“參加了啊。但沒什麼用,他們的數據集太小了,例子不夠,所以我們給神經網絡展示新圖片的時候,泛化效果並不好。”
“那你就需要更大的數據集。你關注過飛飛的實驗室嗎?等你準備好迎接真正挑戰的時候,可以看看她組織的比賽。”
不管吉滕德拉是真的對我的項目改變了看法,還是隻是想打老朋友的臉(這兩種情況似乎都有可能),辛頓都認真地聽取了建議。
每一個翻騰的思緒似乎瞬間匯聚,讓我從迷迷糊糊的旅行中清醒過來,我突然想到了一件事:神經網絡與ImageNet對世界的呈現是天然的契合。回顧過去,楊立昆的網絡與筆跡識別相得益彰。他的網絡對筆跡進行分析,從最小的像素簇到筆觸的紋理,再到完整的數字,在每個分析尺度上都發現了有意義的模式。這是從數據中自發產生的感知流暢性,自然而然地形成了意識的層次。休伯爾和威塞爾在貓的視覺皮質中看到了同樣的現象。而在加州大學伯克利分校的實驗室裡,我們看到了更深層次的理念。神經網絡一直都能進行物體識別,但直到現在,它們才具備了實現目標所需的計算能力。
ImageNet的數據廣泛而全面,覆蓋了世界上絕大多數物體。現在看來,AlexNet和ImageNet也屬於相互成就。簡而言之,這就是最大的不同——現在算法可以探索的數據範圍大大增加了。一想到訓練完成後AlexNet的層級中包含的內容,我就驚歎不已:形狀、邊緣、圖案、紋理,涵蓋我們多年來從互聯網上捕捉到的所有人物、動物和物體。現實世界中幽靈般的碎片,以恰到好處的方式組織起來,供算法來查看。
飛機抵達佛羅倫薩,機輪觸地,飛機輕輕地顛簸著。我仍然難以相信AlexNet就是我們夢寐以求的進步。這個飛躍似乎太大了。但我越想越覺得它具備每一個偉大突破的特徵:瘋狂的外表包裹著一個有意義的想法。
第二天一早,消息就傳開了。據傳,會上將宣佈一個具有歷史意義的事件。這些含糊不清的傳言激起了與會者的好奇心。當我到達時,研討會現場已經人滿為患,楊立昆本人不得不靠後牆站著,因為他稍微晚了幾分鐘,沒能找到座位。
從研討會開始的那一刻起,現場的氣氛就異常緊張,人群分成了三派。第一派是ImageNet的少數支持者,包括我、亞歷克斯·伯格和辛頓實驗室的成員。第二派佔絕大多數,由中立但感興趣的觀察者組成。第三派雖然人數不多,但態度強硬,也最直言不諱。他們是那些從早期就反對ImageNet理念的批評者,雖然我通常不理會他們的態度,但在會議現場很難忽視他們的存在。
更糟糕的是,我們並沒有形成統一戰線。辛頓無法親自參會,因為他長期患有背部疾病,幾乎不可能進行國際旅行,所以他派了亞歷克斯·克里熱夫斯基代他出席。亞歷克斯非常有才華,也是算法的主要作者,所以可以代替辛頓。但就像許多傑出的人一樣,他的個人表現與他工作成果的高度並不相符——我不確定他是否完全理解這一點。他的表現笨拙而輕率(這在學術界並不罕見)。一個典型的例子是,我在研討會開始前多次給他發短信確認會面時間,但他完全沒有回應(但幸好,他按時到了現場)。由於聽眾的懷疑態度空前高漲,他只擺事實、不帶情感的演講更難贏得他們的認同。
提問環節一開始,現場的緊張氣氛就越來越濃。我們聽到了所有常見的抱怨:ImageNet太大了,不實用;沒有必要包含這麼多類別;物體識別模型還太原始,不需要如此龐大的數據集;等等。事實上,AlexNet幾乎是逐點證明了相反的觀點,但奇怪的是,觀眾卻不信服。同時,也出現了一些新的批評聲音,有些甚至非常離譜。一位與會者(來自頂尖大學的後起之秀)煞有介事地提出,描繪T恤的圖片類別多樣性不夠,因而無法可靠地訓練模型。對此我更多的是感到好笑。是認真的嗎?T恤圖片是致命弱點?會議現場的其他人也都一頭霧水。
但那些認真傾聽的人得到了回報。在27張幻燈片中,大多數只有黑白文字和圖表,卻以我們從未見過的清晰方式展示了神經網絡的本質,極具啟示性。繼羅森布拉特的感知機、福島的新認知機和楊立昆的LeNet之後,AlexNet實現了計算機視覺領域的新跨越。這一步早就應該邁出,卻歷經了數十年的醞釀,現在終於橫空出世,利用大型數據集充分彰顯了潛力。
尤其值得注意的是AlexNet的學習過程。
與所有神經網絡一樣,AlexNet的初始狀態是無形的、惰性的,就像虛空中的一塊掛毯。然後,學習過程就開始了:面對從ImageNet庫中隨機選擇的圖片,神經網絡的任務是從上千個標籤中選擇一個正確的標籤,對圖片進行標註。這個過程週而復始,不斷重複。一開始,標註幾乎是不可能完成的任務;AlexNet的數千萬個神經元是隨機配置的,對世界甚至連一點兒模糊的理解都沒有,只會產生錯誤的結果。把一張蘑菇圖片標註為“瓶蓋”。錯誤。把一張拖車圖片標註為“電吉他”。錯誤。把一張稜皮龜圖片標註為“浴巾”。錯誤。
但失敗並非無用功。錯誤會觸發糾正信號,在網絡的數千萬個組成部分中蔓延開來,同時對每個部分對於結果的貢獻進行評估,並按比例推動它們下次採取不同的行動。這是最簡單的學習方式:減少失敗的行為,增加成功的行為。但學習的規模極大,算法會仔細審查每個錯誤的每個細節:每一片光影、每一個圖案和紋理、每一個柔和的漸變和堅硬的邊緣。
在早期階段,效果並不明顯,當AlexNet再次看到類似它之前錯誤分類的圖片時,很可能會再次出錯。不過,錯誤會更小一些。如此循環往復,直到正確為止,哪怕只是靠運氣。這一次,信號的目的是強化,而不是削弱:強化任何看似指向正確方向的東西。訓練繼續進行。錯誤。錯誤。錯誤。正確。錯誤。錯誤。正確。正確。錯誤。
ImageNet規模巨大,算法學習也註定是個漫長的過程,即使只是為比賽挑選的1000個類別的子集,完成學習也需要很長時間。ImageNet涵蓋了各種各樣的對象,比如數字鐘、籬笆、盤式制動器、秒錶、意大利灰狗、微波爐、醋栗,每個類別都有上千個不同的品種。不過,AlexNet本身也是個龐大的網絡。它有65萬個獨立神經元,通過6.3億個連接組成網絡,其中有6000萬個微小的、幾乎無法察覺的權重影響著連接的強度,當信號從網絡的一端流向另一端時,一些連接會增強,另一些則會減弱。
作為整體,這些連接提供了一張巨大的畫布,足以描繪整個世界。在一輪又一輪的標註中,權重不斷變化,有的變強,有的變弱,有的搖擺不定,形成了一種柔韌結構,對訓練做出有機的優雅反應。承載這些龐大數據的是兩個英偉達圖形處理器,高度專業化的硅芯片並行工作,以最快速度進行著一輪又一輪運算。
訓練從早到晚不停地進行,直到每幅圖像的每個像素都被研究完畢。幾個小時變成幾天,幾天又變成一週。圖形處理器推動之。ImageNet挑戰之。AlexNet適應之。隨著數以千萬計的權重一次又一次地調整,整個網絡出現了更龐大、更奢侈的結構。就像鐵匠用錘子敲打發光的鋼鐵。每次微小的增量積累,直到近乎肉眼不可見的擾動變成山脈和山谷,延伸到數千維的超空間。這個網絡是世界無數細節的幽靈般的均值,是1000種不同事物、每種事物1000幅不同照片留下的痕跡。這裡有1000只達爾馬提亞犬,那裡有1000個洗衣籃,另一處有1000個馬林巴琴。
就像地質變化一樣,種種印記凝聚成了地形,從AlexNet的一端延伸到另一端。削筆刀、清真寺、海星、曲棍球——所有事物都鑲嵌在這個地形之中。算法不僅“看到”了這些東西,還成為它們。我們花了數年時間在互聯網上搜尋照片,這些照片形成了完整多元的機器意識空間,原始而強大,成為世界一切事物的統一表徵。
在經過140萬輪標註後,最後幾張圖片與其說是一場磨鍊,不如說是一場加冕禮。網絡的焦點穿過像素,隨著熟悉模式的識別而亮起,並傳遞到下一層,與其他模式相結合,形成越來越強大的感知。算法的反應不再是隨機的,大多數也不再是錯誤的。土狼。正確。檯燈。正確。敞篷車。正確。顯然,這是硬件、軟件和數據的神奇組合,比計算機視覺領域所打造的任何成果都更接近於捕捉到塑造了人類這種哺乳動物思維的進化精神。
ImageNet的多樣性是在全世界眾包志願者的共同努力下實現的。它所形成的拓撲結構無比多樣、強大,達到了聖盃的境地。AlexNet是計算機視覺領域有史以來最大的神經網絡,它的訓練數據比此前任何神經網絡都要豐富,而且具備了泛化能力。
我們要花上幾個月的時間,才能真正理解在那個會議室裡看到的一切,但即使在那一刻,我們也清楚地知道我們正在見證非凡之物。這麼多年來,我一直希望ImageNet能夠推動新事物的誕生,現在我終於明白,一切的一切,都是為了認可和表彰一種永恆的成就,我們對此刻期待已久。受生物學啟發的算法幾十年來一直凝視著我們,它只是需要適當的挑戰,才能充分展現出來。
這個下午也讓我們有機會回顧計算機視覺領域在過去10年的發展歷程。我的實驗室將所有賭注都押在了長達數年的、規模空前的數據追尋上,而辛頓的實驗室則將他們的聲譽都押在了卷積神經網絡這套幾乎已經被專業領域拋棄的算法上。我們都在賭,都有可能賭錯。但在那一天,當我們看到神經網絡在ImageNet強大訓練能力的支持下展現出的驚人能力時,我意識到,雖然兩個項目都獲得了認可,但這只是因為它們是同步發展的。所有參與者都不知道,我們的每一步都相互依賴。
我往返佛羅倫薩的飛行時間比在佛羅倫薩當地待的時間還長。但在返程的航班上,我的感受與來時完全不同。飛機上的擁擠程度絲毫未減,我的疲憊感更加濃重,但思緒已經不再飛速奔湧——至少不像來時那樣。我親眼見證了成果。沒有錯誤,沒有疏忽,也沒有文書方面的失誤。神經網絡起死回生,比以往任何時候都更龐大、更復雜、更強大。ImageNet已經教會了它們所需知道的一切,讓它們在一次嘗試中就達到了與人類能力相當的水平。
生物視覺的出現導致遠古海洋波濤下的寒武紀大爆發,距今已經5億年。而如今,我們很難不去聯想:我們是不是正處於一個類似拐點的邊緣?機器視覺的興起是否會引發一輪數字進化新浪潮呢?
我在來時飛機上狂躁的思緒和焦灼的問題一掃而空,取而代之的是一種意外的感覺。不是平靜,而是大悟,是沉思。這一次,從起飛到著陸,我一直靜靜地坐著,腦子裡只回蕩著一個念頭:歷史剛被創造出來,而世界上只有少數人知道。