The North Star

2004年,我們創建的Caltech 101完工,成為有史以來為機器學習配置的最大規模的圖像集合,裡面有超過9000個圖像,分佈在100個類別中,另外我還獨自完成了一個新類別的圖像整理。如果彼得羅想要100個類別,我就給他101個。

帕薩迪納黎明的微光從地平線上緩緩升起,色調溫暖而多變。在這個城市生活久了,我逐漸發現,這是獨屬於加州的顏色。朝霞召喚人們走到戶外,讓人不禁想要暫時拋開白天要盡的種種義務,投身其中,盡情享受。但天空再藍再美,也沒有科學發現的希望誘人。今天是開啟新實驗的第一天,實驗室就在地下等著我,我已經為此準備了好幾個月。

我們的實驗在科赫實驗室的心理物理學實驗區進行。這個地下室幽閉陰暗,隱藏在加州理工學院陽光下的草坪和自行車道之下。這裡沒有自然光,大多時候也沒有人工光線,空間接近完全封閉。我們在實驗區裡搭建了三個完全相同的小隔間,每個隔間只能容納一個實驗對象。隔間裝有遮光窗簾,可以完全隔絕實驗對象的視覺感知。

實驗對象進入小隔間以後,會一隻手握持鼠標,另一隻手放在鍵盤上,凝視黑暗。在片刻沉寂之後,會有一個顯示器亮起來,顯示一系列彼此毫無關聯、頗有達達主義之風的圖像:隨意排列的英文字母、無序擺放的場景照片、突然閃過的隨機元素。每個圖像出現的時間都精確到毫秒,實驗對象通過點擊鼠標和按鍵做出反應,我們則對其反應進行精確測量。然後,在幾秒鐘之內,隔間重新陷入黑暗。片刻的寂靜過後,此前播放的圖像組合再次出現,實驗就此不斷循環往復。

實驗雖然乍一看雜亂無章,但沒有一個細節是隨意安排的。所有的周折都是為了一個目的,那就是解讀大腦活動,或者至少推斷出大腦活動內容的部分片段。實驗對象手指抽動、呼吸變淺、瞳孔放大,這短短几秒鐘的信息被轉化成一系列數據,這些數據可能需要幾天、幾周甚至幾個月才能完全理清。感官的奧秘深藏不露,要把它們誘騙到實驗裝備上,揭開它們的面紗,哪怕只是短暫的一瞬,也是奇事一樁。

在長達5億年的時間裡,進化不斷對光敏蛋白質施壓。在其不懈的推動下,光敏蛋白質跨越漫長的歲月,發展成為一個精密到讓人幾乎無法參透的結構。進化的辛勤勞動打造了整個視覺皮質,從眼睛的玻璃表面一直延伸到大腦的最深處。所以在加州理工學院,我們要拜進化成果為師,嘗試揭開視覺之謎。在我的導師看來,要實現機器智能,關鍵的第一步是更好地瞭解人類。

除了有機會沉浸在自己心儀的視覺研究領域,我並不知道自己想從研究生階段獲得什麼,但我希望在此期間找到可以全力追求的目標。我會像自己的榜樣那樣全情投入,就像埃裡克·維斯喬斯把對果蠅異常現象的痴迷轉化成了諾貝爾獎,或者尼爾·德格拉西·泰森把宇宙變成了數字詩歌。我想要一顆屬於自己的北極星。但在找到北極星之前,我只想圍繞一個問題展開思考,那就是不可言喻的視覺體驗究竟是如何實現的,用《視覺科學》那本教科書生動的副標題來說就是,光子是如何成為現象學的。這本教科書讓我邁出了理解視覺體驗的第一步。書的前言由普林斯頓大學心理學家安妮·特雷斯曼(Anne Treisman)撰寫。她是實驗界的奇才,也是20世紀認知科學的巨人。早在數字技術出現的幾十年前,她就把特別簡單的工具和原始創造力相結合,來探究人類的感知(如果當時就有數字技術,那麼她的研究會大大加速)。

特雷斯曼提出的“注意的特徵整合理論”幾乎成為理解視覺意識本質的通用理論基礎。在實驗中,她會以極快速度向實驗對象展示一些抽象物品,比如在一堆綠色和紅色方塊中夾雜一個紅色圓圈,由此確定他們在不同深度層次上理解圖像所需的時間。她發現,人們幾乎可以立即意識到紅色的存在(也就是知道圖像的某個地方包含紅色),但找到紅色圓圈這樣的元素則需要花費更長時間,因為在紅色圓圈中,一個物體同時包含了“顏色”和“形狀”兩種不同的特徵。換言之,把對“紅色”的感知和對“圓形”的感知整合在一起,不僅需要更長時間,而且似乎屬於一個完全獨立的視覺處理階段,這個階段的信息處理更為密集。

特雷斯曼的研究範圍很廣,解釋翔實,但她的核心理論是統一的,即人類視覺從識別微小細節開始,然後建立它們之間的關係,直到揭示出一幅完整的畫面。這個論點非常符合直覺,也為理解視覺的工作原理提供了衡量標準:人類可以迅速識別特徵較少的簡單物體(如灰色人行道上的橙色小球),而識別更復雜的場景(如蜿蜒的林間小道或朋友的面部細節)則需要更多時間。

在計算機視覺研究中,我反覆看到以下模式:研究人員編寫算法並不斷改進,以識別照片和其他圖像中的基礎性細節(如清晰的邊緣、光線和顏色的變化、紋理或圖案的碎片等),然後構建更高層次的算法,來識別這些細節之間的聯繫,並將它們與更有意義的事物(如人和物體)聯繫起來。雖然我對視覺原理的瞭解有限,但我覺得這種方法很有道理。然而,情況很快就變得非常複雜。

“飛飛,我給你準備了一些閱讀材料。”彼得羅一邊說一邊把一篇文章放在我面前的桌子上。

“這個嗎?”

我拿起翻看,發現這篇文章的長度還不及大多數發表論文的四分之一。彼得羅露出了會心的微笑。

“相信我。這是你想讀的內容。”他不是在開玩笑。

這是神經科學家西蒙·索普(Simon Thorpe)於1996年提交給《自然》雜誌的一篇通訊文章,題為《人類視覺系統的處理速度》。雖然標題平淡無奇,篇幅也只有三頁,但在當時卻產生了極大的影響,因為它對整個領域公認的正統觀念提出了疑問。這個例子彰顯了科學界最偉大的傳統:雖然既定的觀念符合直覺,廣為人知,卻能被更加錯綜複雜的現實打破。

在實驗中,索普向實驗對象展示計算機顯示器上的圖像,使用腦電圖(EEG)來測量他們大腦表面的電信號。當一張照片在屏幕上僅閃爍27毫秒時(即蜜蜂扇動幾下翅膀所需的時間),實驗對象就能極其準確地識別出照片內容。通過進一步研究,索普精確地指出,大腦中的識別時刻是在圖像出現後僅僅150毫秒(大概相當於眨眼的一瞬間)。這是迄今為止對人類視覺處理速度最精確的調查,其結果顯示,識別所需時長遠遠小於特雷斯曼理論的預測。

在特雷斯曼的實驗中,實驗對象在極短的時間內識別基本的顏色和形狀。而索普的實驗對象則能夠在同樣短的時間內處理整個圖像,辨別其中的細節、視角、微妙的光照和意義。每個閱讀這篇文章的人都會心生疑問:這是怎麼做到的?我明白了為什麼彼得羅這麼想讓我讀這篇文章,也明白了為什麼在這篇文章發表三年多後,他和克里斯托夫還經常就此展開討論和爭辯。我立刻和他們一樣沉迷其中。

於我而言,這篇文章頗為超現實,因為它才發表沒多久,就在我來到加州理工學院的前幾年。即使在今天,人們也很容易忘記對人類視覺的現代研究歷程其實是多麼短暫,最早的出版物也只能追溯到幾十年前。物理學的傳奇歷史綿延了數個世紀,從伽利略到牛頓再到玻爾,無不充滿傳奇色彩。相比之下,不管是過去還是現在,視覺在很大程度上仍是一片未知領域。計算機視覺研究則更為年輕,這感覺就像我手裡拿著一張還在繪製過程中的地圖,而我的研究生早期生活也因此充滿了激情和動力。每週從帕薩迪納給薩貝拉先生打電話時,我總是滔滔不絕地和他聊個不停。

“我從來沒見過這樣的情況。”我說,“這個領域太複雜、太激動人心了,而且幾乎是全新的!就在我們聊天的時候,計算機視覺領域很多最牛的學者還在積極地做著研究呢!”

我與彼得羅和克里斯托夫相處的時間越長,就越欣賞他們的冒險精神,這也是他們作為學者最明顯的特徵。雖然他們的背景分別是物理學和工程學,但兩人都對心理學、認知科學和神經科學等領域充滿了熱愛。他們和系裡的其他人一樣經常閱讀計算機科學期刊,但他們還會專注閱讀《心理學評論》《美國國家科學院院刊》和享有盛譽的《自然》等刊物。

因為受到熱愛的驅使,所以他們都抱持著鮮明的觀點,渴望開拓知識的前沿。這意味著要直面索普和特雷斯曼研究成果之間的差異。有強力證據表明,視覺在某些方面(也就是識別現實世界風景的能力)幾乎是毫不費力的。但這種毫不費力背後的原因是什麼呢?這種原因可以被量化嗎?這對我們理解整個大腦有什麼幫助嗎?這些都是值得探索的問題,而對我的導師們來說,還有一點好處:相關研究工作會非常繁重,足以讓他們門下這位執著的新研究生忙上一陣子了。

如何閱讀一個人的大腦?

在實驗室裡,經常需要準確捕捉實驗對象的感知、期望甚至決策。要設計相應的實驗方法,就需要綜合運用工程學、心理學、人體工程學,甚至是類似於變戲法的手段。具有諷刺意味的是,雖然我們的實驗看起來與在許多其他實驗室看到的沒有什麼不同——都是實驗對象身上掛滿了電極,助手們處理大量數據,等等——但實驗的設計卻堪稱一種藝術。

與一般實驗不同,我們的目標非常籠統。我們會向實驗對象展示照片,每張照片的展示時間只有幾分之一秒。我們要看他們能否在不把注意力集中在照片上的情況下,準確識別上面的內容。索普已經確定了完成識別任務的速度,但他沒有探究有意識的注意力所起的作用。在觀看圖像的時候,我們需要有意識地集中注意力嗎?還是說我們的識別能力會在無意識的情況下持續運轉,無論我們是否刻意關注,都能感知周圍的世界?我們懷疑是後者,但我們需要加以證明。

克里斯托夫實驗室的訪問博士後阿希姆·布勞恩(Achim Braun)為我們提供了實驗的靈感。布勞恩當時正在研究一個類似的假設,他假設我們的大腦會在沒有意識的情況下處理大量的視覺細節。他提出了一種“雙重測試法”。在這種方法中,他讓實驗對象的注意力集中在一個需要刻意集中注意力的中心任務上,與此同時,展示一個只需要被動觀察的外圍任務。中心任務需要高度集中注意力,這樣能確保外圍任務不會被有意識地處理。

這種方法的巧妙之處在於它可以揭示實驗對象感官的焦點。因為中心任務需要實驗對象集中注意力產生一個客觀反應,因此通過幾輪反覆實驗,就可以非常準確地確定實驗對象的注意力是否完全集中在該任務上。外圍任務雖然相對簡單,但也有一個客觀正確的反應,由此一來,便可以可靠地測量出實驗對象的次要意識。因為這兩項任務呈現的時間都只有大約200毫秒(只比眨眼的時間稍長),所以可以排除實驗對象有意識地依次執行這兩項任務的可能性。

我們的實驗對實驗對象的注意力進行了精準的控制,一旦我們確定實驗對象的注意力已經完全集中,就會向他們快速展示一張隨機選擇的戶外風景照片,然後提出一個簡單的問題:這張照片裡有動物嗎?他們的答案將充分說明注意力與視知覺之間的關係。

從實驗對象的角度來看,這個實驗的節奏快得讓人喘不過氣,因為在實驗過程中,各種圖像和圖案會閃電般地轉瞬即逝,需要他們幾乎立刻做出反應。但是,實驗的實施過程就沒那麼快了。一天又一天過去,我們感覺自己像在照看孩子,而不是在做實驗。我們以賺取週末零花錢為誘餌,吸引大學生來參加實驗,然後就在隔間外等著他們雙眼昏花地走出來。因為願意參加實驗的大學生不夠多,所以我們只能趁他們有空的時候做實驗。有好幾次,我一天的主要任務就是早上6點在實驗室門口迎接陌生人。但就算這樣,我也樂在其中。這樣的工作雖然煩瑣乏味,但依然是科學的一部分。

我們的實驗固然重要,但彼得羅和克里斯托夫也明確表示,優秀的科學家要廣泛閱讀文獻,緊跟領域的最新發展。我讀得越多,就越意識到,索普並不是第一個挑戰特雷斯曼的人。我閱讀了幾十年來的研究成果文章,發現越來越多的線索表明,除了特雷斯曼的觀點,還存在很多不同的理論。

與特雷斯曼的觀點差異最大的研究成果也許來自視覺研究員歐文·比德曼(Irving Biederman)。他跟同事設計了一項實驗,讓實驗對象快速瀏覽一些照片(而不是抽象的形狀和顏色),然後讓他們辨認看到了什麼。隨著實驗的進展,刺激物的複雜程度大大增加,實驗對象看圖片的時間也越來越短,但實驗對象的回答卻始終準確無誤。比起特雷斯曼的研究對象在一堆五顏六色的字母B中辨認出一個單獨的字母A所花的時間,比德曼的實驗對象能在更短的時間內從照片中吸收足夠的細節信息,分辨出這是一張購物中心停車場的照片,還是一張家庭廚房的照片。

另一個不同的觀點來自心理學家莫莉·波特(Molly Potter)。在使用一臺早期計算機顯示器向實驗對象展示文字段落時,她讓大字體的文字一個一個地在屏幕中央閃現。即使以每秒12個字的速度展示(是普通大學生正常閱讀速度的兩倍),實驗對象的辨識表現依然優秀。儘管特雷斯曼的演示證明了視知覺是從微小細節開始逐步建立起來的,但閱讀似乎明顯是個例外。

這項研究所用的工具非常原始,因此研究更顯得了不起。幾十年來,由於無法直接瞭解研究對象的認知,特雷斯曼、比德曼和波特這群善於思考的人巧妙地在嚴格控制的環境中,利用行為觀察來尋找令人驚歎的線索。但這種方法也有侷限性——歸根結底,我們能從外部推斷出的關於大腦的信息也只有這麼多了。要從內部理解這些現象,還需要新一代技術。

這樣的技術最終出現了——腦電圖和功能性磁共振成像(fMRI)等神經科學工具為研究人員提供了前所未有的臨床精確度。索普的論文是最受關注的研究成果之一,但相關成果遠不止於此。麻省理工學院認知神經科學家南希·坎維舍(Nancy Kanwisher)及其學生完成的研究也同樣重要。索普和比德曼等研究人員發現,人類具備快速準確的感知能力,而坎維舍團隊通過功能性磁共振成像分析,確定了與之相關的大腦區域。腦電圖測量的是整個大腦的電脈衝,它以極快的速度在大腦表面擴散,而功能性磁共振成像則通過檢測特定區域的神經元活動,來測量血氧水平的變化。

研究早期的突破包括髮現了“梭狀回面孔區”(Fusiform Face Area,FFA),這是顳葉的一個皮質區域,大小不超過一立方厘米,似乎是為識別人臉而量身定做的。接下來是附近的“海馬旁回位置區”(Parahippocampal Place Area,PPA),在識別熟悉的地點(比如自家廚房或常走的道路)方面發揮著類似的作用。另一個發現是“紋外軀體區”(Extrastriate Body Area,EBA),可以對周圍人的手臂和腿等部位的擺動情況做出反應,幫助我們感知他們的身體方向。

這些被稱為視覺神經關聯的結構有一些特別之處:它們似乎都是為特定目的專門打造的。每個結構都能且只能識別特定類別的事物,如面孔、熟悉的地點、身體姿勢等。這就解釋了為什麼我們在完成特定的識別任務時,能夠達到驚人的感知速度。我們不需要從頭開始,逐個細節地進行解碼;我們神經系統的一個專用功能會立即啟動,幾乎在瞬間就能完成識別任務。從我們的感受來看,這種識別是毫不費力的。

 

在生物學上,個體在某些過程中所付出的努力程度可以說明很多問題。進化極致追求節約體力和腦力,導致生物體只對極端的環境壓力做出反應,要麼適應,要麼滅絕。如果要使一種能力精進到如此程度,使如此複雜的事情變得自動化,那麼這種能力必須具有根本性的、獨一無二的重要性。

因此,視覺不僅僅是我們所看到的細節問題。雖然像特雷斯曼這樣的研究人員提出,圖像可以被分解、分層查看,特別是在嚴格控制的實驗室條件下,但我們在混亂世界中生存所依賴的視覺需要處理的對象是事物、人物和地方。事實上,從最早的處理階段開始,我們在感知周圍環境時,並不是將其看作顏色和輪廓的組合,而是以類別的方式來理解。

這些發現本身固然令人興奮,但它們之間的聯繫就像是尚未被發現的大陸海岸線,讓人感覺別具深意。每一個新的想法都指向一些重大的(或許是歷史性的)東西,正等待著被發現。這讓我更加迫不及待地想要看到我們的實驗結果。我們是不是就快揭曉謎底了?還是會迎來更復雜的問題?

大多數日子裡,彼得羅都會在上午到校園的紅門咖啡館,享用一杯卡布奇諾,而我也開始跟著他一起去了。我個人的經濟狀況並不支持我養成喝咖啡的奢侈習慣,但我喜歡觀察他喝咖啡的過程。他會把自己的要求告訴咖啡師,拿到定製的咖啡後,再小心翼翼地加一點點焦糖,輕輕攪拌。對多年來不停東奔西跑的我來說,他的咖啡時間恰好提醒了我,生活中的簡單時刻值得細細品味。

然而今天,我來到這裡不是為了品味生活,而是另具戰略目的:實驗結果已經出爐,我想馬上跟他分享。雖然彼得羅對自己的咖啡儀式全神貫注,但在咖啡時間跟他交流比吃午飯時更容易——吃飯的時候,他喜歡把我們的餐盤擺成五顏六色的畫面,說像流行藝術家大衛·霍克尼(David Hockney)的作品。他所謂的“霍克尼拼貼畫”主要是他在自娛自樂,一開始很有趣,但等他擺好我早已飢腸轆轆,不禁回想起他對藝術史的熱愛曾經看起來多麼高深。

他剛喝了一口卡布奇諾,我就翻開抄錄了最新結果的筆記本,開始大聲朗讀起來。經過漫長的努力,我很自豪終於有了一些切實的成果可以跟他分享。就在我把數據逐個念出時,彼得羅變得和我一樣興奮。

“飛飛,這些數據……我是說,它們——”

“我知道!簡直不可思議!”

在一次又一次的測試中,數據清晰地揭示出令人震驚的事實:我們的實驗對象在完全專注於其他事情的情況下,也依然能夠識別出真實世界場景中的照片。我們知道反應時間會很短,但實驗對象的反應速度之快、一致性之強和準確性之高,都完全出乎我們的意料。大腦能夠以驚人的辨別力和迅捷的速度識別出無數視覺概念,這是大腦的獨特特點,不僅極其強大,而且似乎完全是自動的。

我很榮幸能為這項看起來正在對該領域產生影響的研究做出貢獻,但最大的收穫在於哲學層面。我們的研究成果躋身過去幾十年的成果行列,表明人類視知覺的核心是一個簡單的概念:我們的視覺基礎在於識別定義明確的類別,也就是對事物的識別。彼得羅神情微妙,但他的喜悅之情明白無誤地寫在臉上,說明他也認同我的觀點。我越發相信,我們即將揭開一切的奧秘。

當我在加州理工學院的第二學年即將結束時,我已經閱讀了大量文獻,參加了許多研討會和專題會。隨著我們的實驗結果的發表,我也看到了足夠的第一手資料,因而認識到了一個重要的事實:視知覺依賴於分類。我們的大腦會自然而然地將我們所看到的細節歸類為更廣泛的概念,如物體、人物、地點和事件等。例如,在現實生活中,我們看到的不僅僅是簡單的綠色和藍色的圖案,而是會看到在天空映襯下的一棵樹。視覺在更高、更有意義的層面上發揮作用,用知識武裝我們的頭腦——我們可以想象樹葉隨微風搖曳的樣子或夾在指間的感覺,我們也可以立刻估計出一根樹枝的質地和重量,這兩者都與高懸在數英里高空的不可觸摸的大氣層和彩色光線截然不同。

分類的能力賦予了我們難以估量的力量。視覺沒有把我們埋沒在光線、顏色和形狀的無數細節中,而是把我們的世界變成了可以用語言描述的離散概念。有用的觀念像地圖一樣排列在我們周圍,把複雜的現實簡化成我們可以一望便知、在瞬間做出反應的世界。我們的遠古祖先就是這樣在純粹的混沌環境中生存下來的,世世代代的藝術家們就是這樣從日常生活中提煉出美感和精華的,即使在今天,我們也是這樣在這個日益複雜的世界中找到自己的方向的。

我讀到的很多內容似乎都在強化這一觀點。雖然特雷斯曼揭示了我們識別複雜物體的一種方式,但比德曼、波特和索普的研究成果提供了一種截然不同的可能性,大大增加了視覺研究的複雜性。他們認為,在某些情況下,大腦會完全繞過這種密集的自下而上的視覺信息處理方式。我們自己實驗室的研究探索了在沒有刻意集中注意力的情況下,視覺識別能夠達到的程度。坎維舍的觀點尤其具有啟發性,他認為這種不可思議的能力是通過特定用途的神經元關聯來實現的,這些神經元關聯可以映射到現實世界中的特定事物。這些證據有力地證明了大腦在生理上傾向於快速、穩健地檢測已知的視覺概念。

我們的視覺系統就像是某個神秘巨人以極大的耐心精雕細琢出的發條裝置,而我們的研究工作像是其逆向工程。雖然發條裝置的小齒輪在我們面前嘀嗒作響,但其神秘面紗仍然未被揭開,距離完全理解視覺原理還有很長一段路要走,但我們已經窺得一些非凡的東西。生物進化是宇宙中唯一能夠從零開始創造真正智能的力量,我覺得我們正在復原其線路圖,或者至少是其中的一些片段。

這也改變了我對自己所從事的計算機視覺領域的看法。雖然計算機視覺領域的靈感創意層出不窮,但它們都分散在各種各樣的研究項目中,整個領域缺乏指向同一目標的共同協作,類似於那股千年來耐心地塑造了我們自己思維發展的專注力量。我不禁思考,如果這種情況改變了,如果研究人員能夠聯合起來,共同理解並重新創造了人類認知的核心理念,世界將會變成什麼樣子?

我很難想象各方協同可能會帶來什麼發現。人工智能的未來具有無限的想象空間,但我開始認識到,這並非首要問題。我越來越確信,解開人工智能之謎的理想第一步,就是迎接一個特殊的挑戰:通過理解各種物體來理解視覺世界。畢竟,人類就是這樣看到世界的。我現在相信,這同樣適用於我們的機器。

我想到了我的榜樣們,從物理學的傳奇人物到我的教授。多年來,我一直崇敬激勵他們成為科學家的思想力量,也敬仰他們在各自領域產生的激勵效應。現在,我接受研究生教育不過短短几年時間,但我相信我在自己的視野看到了一絲微光,雖然遙遠而朦朧,但足以照亮我前進的道路。無論採取何種方法,我們將要讓機器熟悉視覺世界。我本身就比較執著,但這次的痴迷程度是前所未有的。

我找到了屬於自己的北極星。

屏幕上出現了一張噴氣式飛機的圖像,這次算法的任務是在照片上找到飛機。這是連蹣跚學步的兒童都能應對的挑戰,但在2003年,機器只有在吸收了大量示例材料後才能應對。即便如此,它們成功的概率也很低。那天下午,我和彼得羅測試了一個想法,希望能夠大幅提高機器判斷的準確率。我緊緊盯著屏幕,迫不及待地想知道算法會帶來什麼結果。

屏幕上開始出現粉色的圓點,這些圓點是視覺輔助工具,旨在突出照片中能夠吸引算法注意的細節。第一個圓點出現在了停機坪旁的一片草地上,我微微皺了皺眉。算法找錯了地方。但趨勢很快逆轉,接下來的兩個圓點出現在了噴氣式飛機的機翼上,接著又有一個圓點出現在飛機尾部。再接著,三個圓點出現在駕駛艙附近。最後一個圓點出現了——起落架。這也可以算,我想。嚴格來說,起落架也是飛機的一部分!

我興奮地呼了一口氣。到目前為止,一切都很順利。

接下來是真正困難的部分。每個突出顯示的特徵只佔據了幾個像素,因此算法會將特徵進行分組,每個組群都代表了所要識別的對象的較大部件。換句話說,算法通過這種方式大致標示了自己所識別的內容。飛機的每個部分周圍繪製著彩色圓圈——藍色和青色代表機身的不同部位,紅色代表垂直穩定器,綠色代表兩者的交匯處。果不其然,算法幾乎精確地將它們放在了各自所屬的位置。

飛機被成功識別出來了。

這是一個激動人心的時刻,但並非因為算法的成功識別,而是因為它的運作方式。以往的算法會首先學習數百張飛機的照片,涵蓋儘可能多的顏色、風格、角度和光照條件,但在這次研究中,我們只給算法展示了一張飛機的圖片。與此同時,我們還向它展示了數百張完全不相關的圖片,包括有斑點的叢林貓、摩托車、人臉(我們用彼得羅新買的高級數碼相機拍攝了實驗室夥伴的笑臉),還有一些從谷歌圖片上隨機下載的圖片。我們的假設是,先讓算法充分接觸視覺世界裡豐富繁雜的各類事物,它就更好地具備了學習特定事物的能力。因此,雖然算法被訓練識別過各種各樣的事物,但它剛剛識別出的那架飛機是它見到過的第二架飛機——自它被設計出來後見到的第二架。

我們的創造只是概念驗證,仍然存在一些錯誤。但我們的目標是證明算法和人類一樣,能夠通過看到更多的現實世界而廣泛受益。現在,北極星已成為我視野裡的一個座標點,我們已經朝著這個方向邁出了真正的一步。

我們將這種技術稱為“單樣本學習”(one-shot learning)。這種技術與當時主流的圖像識別方法背道而馳,但我們是從一個眾所周知的能力中獲得了啟發。作為人類,我們天生就有一種神奇的本領,那就是可以僅憑對陌生事物的一瞥,再次遇到時就能認出來,不管是一樣新的樂器、一種我們從未見過的動物,還是一位新當選的政治家。我們可以對這種能力做出多種解釋,但其中最簡單、最有力的解釋是,即使面對全新的事物,無論多麼新奇,我們也會藉助一生的經驗來加以理解。我們所看到的幾乎一切都深深地融入了過往的經驗——輪廓、光影、紋理和圖案等熟悉的細節,以至我們很難想象能真正孤立地看到任何東西。

我們的技術將這一概念引入了機器,而且看起來效果不錯。如果說實驗結果是一個驚喜,那麼我們的論文所受到的歡迎程度則是超乎想象的。這是一次突破性的成功,我們的論文不僅被在法國尼斯舉辦的國際計算機視覺會議(International Conference on Computer Vision,ICCV)所接受,而且為我們贏得了為數不多的口頭報告的機會。雖然這篇論文是與彼得羅和另一位名叫羅布·弗格斯(Rob Fergus)的研究員共同撰寫的,但我是主要作者。這意味著此次旅程的榮譽和責任都屬於我。

在國際計算機視覺會議上發言是一個難得的機會,尤其是對一個研究生來說。然而,我可以說完全沒有在如此重要的聽眾面前發言的經驗,因此感到壓力重重。更糟糕的是,彼得羅不能跟我一同前往。他和妻子的第一個孩子即將出生,預產期近在眼前。這是我第一次參加學術會議,也是我第一次登臺演講,而我要獨自前往了。

在飛往法國尼斯的航班上,我沒有時間緊張,因為還有要務在身。在加州理工學院的工作讓我一直忙得不可開交,而在約9100米的高空安靜飛行的13個小時,是我唯一可以用來準備演講稿的時間。在旅途的大部分時間裡,我都低著頭,以最快的速度撰寫演講提綱、製作幻燈片。

然而,一到會場,我就強烈地感受到沒有彼得羅在身邊,我心裡是多麼沒底。按照慣例,學生第一次參加會議時,無論是否做報告,導師都要陪同出席,以示支持,同時也可以幫助學生建立人脈。我開始逐漸意識到,我置身於一個擠滿數百名陌生人的活動大廳裡,不得不獨自應對一切。緊張感開始湧上心頭。

“飛飛?”一個聲音在我身後響起。我轉過身,發現一張陌生的面孔正俯視著我。

“是的,你是?”我小心翼翼地回答。

“終於見到你了,真是太好了!我是吉滕德拉。”

“吉滕……哦!吉滕德拉·馬利克嗎?你……”

“是啊,你知道我是彼得羅以前的導師吧?”他笑著說,“他讓我來陪你。你不會以為我們會讓你一個人來這裡吧?”

雖然我聽過吉滕德拉的名字,當然也知道他響噹噹的名聲,但這是我們第一次見面。我傾向於從家庭的角度來看待學術關係,所以我把導師的導師視作我的“師爺”。他的陪伴讓我倍感平靜和鼓舞,他完全無愧於這個稱謂。演講結束後,我被一群渴望瞭解更多細節的研究人員團團包圍,而吉滕德拉成了我的救星。有他陪著,就算他什麼都不做,我也覺得這不堪重負的一天可以熬過去了。我們之間也就此開啟了一段持久的友誼。

在我的演講結束後,大家展開了熱烈的討論。我突然意識到一件微妙的事情——我被問到的每個問題都與算法本身有關:你是如何建立貝葉斯方程來估計後驗概率的?你是如何估計圖像的先驗分佈的?你提到使用最近提出的變分推理算法來優化模型參數,能詳細說說嗎?在未來的改進中,你打算如何擴展算法?算法在不同情況下可能會有什麼表現?

我們選擇的機器學習算法的數學核心是“貝葉斯網絡”(Bayesian network),這是一種概率技術。接二連三的問題都是有關這種技術的,但沒有一個人問及我們訓練算法時所用的數據。數據被公然視為一種惰性商品,只在算法需要時才重要,雖然這種觀點並不稀奇,但我開始意識到,有一些重要的東西一直都被低估了。

我們算法的決定性特徵是能夠從只看過一次的圖像中學習新的事物類別,而這一特徵對數據的依賴極大。究其根本,是因為我們的算法已經見識到林林總總的各種事物,獲得了感知體驗,才可以在面對新事物時展現出卓越的識別能力。

事實上,我越想越覺得奇怪。數據具有微妙而神奇的力量,為什麼這個話題從未得到任何關注呢?我們的實驗材料極少,只不過是從幾個隨意選擇的類別中拿出幾百張圖片,卻獲得了意料之外的結果。這不禁讓人思考:如果少量數據就可以實現如此強大的能力,那麼更多的數據又將帶來什麼呢?這個問題越想越覺得具有啟發性。

如果數據量大得多呢?

“差不多了……等一下……”我又跟彼得羅在紅門咖啡館一起吃午飯,他又要把我們的拼盤擺成他的霍克尼拼貼畫系列新作,我又浪費了幾分鐘的用餐時間。“完工!”

“嗯,非常漂亮。”我說。我現在連假裝欣賞的樣子都不做了。

彼得羅微笑著看著他的作品,他顯然察覺到了我的不耐煩,但他並不在意。我從他手裡拿回托盤,開始吃飯。

“我一直在想我們的單樣本學習論文。”他轉移話題說,“我為我們取得的成就感到自豪,但我們都知道,數據才是真正的主角。”

我一邊咀嚼一邊點了點頭。

“所以我們要是創建一個全新的數據集,你覺得怎麼樣?這次的規模要更大。我覺得我們可以從頭開始全部自己來做。”

我繼續點頭。

“我的意思是,如果所有這些新數據本身就是達到下一個階段的關鍵所在呢?”

這是一個大膽的想法,足夠冒險,但也有一絲成功機會,所以會很有意思。

“那我們從最顯而易見的問題開始:我們的新數據集應該包含多少個圖像類別呢?”

我放下叉子,思考了片刻。加州理工學院有史以來最大的數據集中包含了7個隨機選擇的類別,所以明智的做法似乎是稍微增加一點兒,湊個整數。

“10個怎麼樣?”我提議道。

彼得羅皺了皺眉頭:“是比之前多了點兒,但我覺得是不是有點兒過於循序漸進了?”

我欣賞他勇於冒險的精神,但也不得不考慮現實情況。我知道收集、標記和組織圖像的實際工作將會落在我身上,所以我總是盡力平衡我們的研究需求和日常生活的實際問題。

“好。那就15個?”

彼得羅聽到後狡黠地笑了笑。

“好吧。20個!”

他仍然不為所動。不會吧?

彼得羅後來告訴我,我提的數字已經很接近了,因為他本來想著30種應該差不多了。但他注意到我倆之間的對話似乎變成了一場談判,而且我的態度非常慎重,於是他決定採取一種進攻的策略。

“我們搞100個吧,飛飛。”

彼得羅後來告訴我,當時我臉上的表情就像是被他判了死刑。這裡面涉及的工作量太大了,未來幾個月,我可能會喪失部分理智,還可能犧牲我渴望的社交生活(誠然這部分損失並不大)。但他的提議沒錯,一想到我們的模型在這種資源下的表現,我就會情不自禁地興奮起來。不過,為了不讓他得意,我盡力讓自己淡然地接受了這個提議。當然,要做到不露聲色,我還得再修煉幾年。

隨著我們的極限對話場景從記憶中逐漸消失,我對這個計劃的看法也發生了改變。是的,策劃100個類別的圖片,讓每個類別都包含各種各樣的例子,這比我這輩子做過的任何事情都要費力(包括週末在乾洗店幹活)。但這恰恰是我想要的。我的北極星在地平線上閃爍,比以往任何時候都更加明亮。

“喂,飛飛。”

“媽媽,爸爸還好嗎?店裡怎麼樣?”

“有個顧客要改衣服,他不停地說一個我不熟悉的詞,我覺得好像說的是縫什麼吧,但是……”

接著是一陣奇怪的停頓。“飛飛,我……”

她的呼吸越來越急促。我能聽到她在電話那頭的聲音,但她似乎無法做出回應。

“媽媽?媽媽?你沒事吧?”

 

壞消息總是在最不合適的時候出現。兩年的研究生課程已經讓我的體力和毅力達到了崩潰的邊緣,在這個時候得知母親患上充血性心力衰竭,我的感受無法用語言來表達。

事後看來,幾個星期前她就明顯感覺不舒服了。

家裡的乾洗店基本上相當於母親獨自一人在經營,壓力巨大。我以為她只是需要休息一下,於是讓她來我這邊幾天。但下了飛機後,母親呼吸困難,面色蒼白,我這才意識到她的病情比我想象的要嚴重得多。顯然情況已經非常緊急,但父母都沒有醫療保險,我也不知該如何應對。驚慌之下,我給所有我能想到的人都打了電話,最終有人介紹了一位在爾灣一傢俬人診所工作的會說中文的醫生。雖然開車過去要將近兩個小時,但她是唯一一位願意接待自費患者的醫生,還好心給我們打了折。醫生很快就做出診斷:母親的心臟狀況十分糟糕。

薩貝拉先生依然是我的安慰之源。“你媽媽怎麼樣了,飛飛?”

“醫生說沒有生命危險。還好我們及時發現了。”

“謝天謝地,你還好嗎?”

我嘆了口氣,把一切都和盤托出——我們家最新也是最不得已的計劃。我們的乾洗店已經經營了七年,現在我們別無選擇,只能把店賣掉。當年,在所有其他選擇看起來都遙不可及的時候,乾洗店成了我們家的救命稻草,然而,由於母親的病情嚴重,就算父親能幫忙,她也沒有辦法再經營下去。雖然生意尚可,但我們賺的錢遠遠不夠僱人幫忙。是時候另謀出路了。

我還有一個更極端的決定:讓父母搬到美國另一端的帕薩迪納和我一起生活,我們再次共同面對在美國的生存問題。我的宿舍比我們在帕西帕尼的住處還要小,但這是我們目前唯一的選擇。

薩貝拉先生在電話那邊沉默了許久。“你還會繼續你的學業,對吧?”他似乎察覺到了一些連我自己還沒有去面對的東西。

“我不知道。”

又是一陣沉默,直到我笑著說:“你覺得我至少可以在報稅單上把父母申報成為我的受扶養人嗎?”

 

一個新的現實正在浮現,它如此複雜,動搖了我以物理學專業學生的身份走進普林斯頓大學報告廳以來所做的每一個決定。畢生的好奇心把我帶進了一個競爭激烈、薪酬低廉、無法保障長久職業生涯的領域,而我的父母現在需要我無法提供的支持。我每天都在追求自己的夢想,這讓我覺得自私至極,甚至過於魯莽。我的實驗室夥伴大多來自中產階級,有些甚至家境非常富裕。我越是反思與他們家庭之間的差異,就越難以否認這樣一個事實:成為科學家是一種奢望,我負擔不起。

但故事並沒有到此結束。

幾周後,一位同學提到,世界知名管理諮詢公司麥肯錫的合夥人過來招聘了。他們正在尋找一個實習級別的分析師,這個職位將提供豐富的在職學習機會,這意味著常春藤盟校裡只要跟數學和計算機科學有一點聯繫的研究人員,都可以成為理想的候選人。在真正絕望的時刻,這似乎是一個值得考慮的機會。

當然,我以前也經歷過這種情況。我的學術目標和現實生活之間一直存在衝突,我很想把這次事件也當成最近的一次小衝突。但這一次,我內心科學家的聲音與以往不同。在母親的健康狀況受到新一輪的打擊後,它變得不那麼堅定,就連我內心那個特殊而戒備的部分也開始屈服了,我知道自己不能永遠無視現實。我把猶豫拋到一邊(這一舉動現在竟然出奇地容易),買了一套遠超我預算的衣服,小心翼翼地把標籤藏在領子下面,這樣穿完後馬上就能退貨。我申請了一次面試。

跟我預料的一樣,一切都感覺很不自然,但我無法忽視的是,命運似乎從一開始就很眷顧我。這可能是我第一次有機會在學術世界之外以一個完全成熟的個體身份展示自己,我充滿了平日裡沒有的信念。當然,我是個不折不扣的書呆子,但這只是我的一面而已:多年的奮鬥鍛鍊了我,讓我擁有其他候選人從未有過的拼搏精神,以及一種實用主義本能(我現在才意識到,這種務實使我與眾不同)。然後,一個近乎滑稽的巧合出現了。

麥肯錫公司的代表首先說道:“我們喜歡圍繞假想的商業場景來組織面試。當然,沒有人指望你真正瞭解這個行業,所以就把它當成一種創造性的練習。我們只是想了解你的直覺,你知道,就是分析推理之類的東西。”

很簡單,我想。

“我想讓你想象你是一位經理,比方說,服裝業的經理。”

哇。

面試開始時不過是例行的評估,卻意外地逐漸演變成一場內容豐富的對話,從我對物理學的熱愛和對智能奧秘的痴迷,到洗衣店供應商的世界,再到我作為乾洗店主管的業餘職業生涯,等等。儘管感覺很不可思議,但談話似乎進行得非常順利。

招聘人員顯然也是這樣認為的。麥肯錫公司立即給了我肯定的回覆,並決定將我的實習機會轉為長期的正式職位。

我的心中五味雜陳,難以言表。一方面,我將要拋下這麼多人和事——加州理工學院、彼得羅、克里斯多夫、吉騰德拉、我的同學們和我所知道的一切,最糟糕的是,要放棄追求一個具有歷史意義的夢想的天賜良機,放棄我的北極星,一想到這些,我的胃裡就感到一陣陣難受。另一方面,我親眼看到父母多年來瀕臨絕境,越來越覺得他們是為了我才做出這麼大的犧牲。這份工作似乎讓我終於可以卸下長久揹負的重擔,而我卻從未充分認識到這個重擔的分量。為了我能來美國,母親已經付出了一切。我知道現在是她最需要我的時候,我終於可以報答她了。我徑直回到家裡,準備分享我認為的好消息。

“飛飛,你穿這個去實驗室了嗎?”

我低頭看了看——我都忘了自己還穿著面試的衣服。“哦,是的。”我敷衍一笑,“別擔心,這套衣服特別划算。”我說著,向她展示了依然完好無損的標籤。

“發生了什麼事?”她更加困惑了。最近的生活太混亂了,我還沒來得及跟父母說我的計劃。

“媽媽,我們得聊聊。”

我跟她說了面試、工作機會和其他所有的一切,告訴她待遇、起薪,以及在我還沒來得及答覆之前,他們就已經提出了優厚的待遇。我解釋說,無論從哪個角度來看,這都是通往每個移民母親都希望自己孩子擁有的職業生涯的捷徑。她禮貌地聽著,但我還沒說完,就在她臉上看到了那種熟悉的表情。

“我們真的要再次討論這個問題嗎?”

“媽媽,我知道,但聽我說——”

“我瞭解自己的女兒。她不是管理顧問,或者其他什麼職務。她是個科學家。”

“想想你的身體吧,媽媽!想想我們的開銷。搞學術能給我們帶來什麼呢?”

“飛飛,我們走到這一步,不是讓你現在放棄的。”

“這不是放棄!這是我夢寐以求的工作,一份事業,可以讓我們擺脫目前的困境。看看我們現在活成什麼樣了!三個大人住在一個宿舍裡!”

我不確定自己是否相信這些話,但它們似乎是對的。母親停頓了一會兒,也許是在思考這些話,然後回答說:“飛飛,你一直在說自己走的路很‘自私’,就好像你追求科學是在犧牲我們一樣。”

“我怎麼能沒有這種感覺呢?我現在本來可以養活咱們全家,而且——”

“你沒明白我的意思。這從來就不是你一個人的路。從一開始,這就是我們全家的路。不管你是註定要成為科學家、研究員,還是其他我沒有辦法想象的職業,也不管你能不能從中賺到錢,從我們的飛機離開上海的那一刻開始,我們全家就一直在為這個目標努力。”

我不知道該說什麼。

“我再說最後一次:我們走到這一步,不是讓你現在放棄的。”

她是對的。她總是對的。這一次,不知什麼原因,我終於聽進去了她的話。我再也不會質疑自己的道路了。

“嘿,那狗叫什麼?”吃午飯的時候,我隔著空蕩蕩的實驗室問一位同學。

“哪個?”

“就是身上有棕色和白色的毛,可能還有點兒黑色,耳朵耷拉著,特別可愛的那個。天哪,我一點兒也想不起來這種狗的英文名叫什麼了。”

我們在思考只有研究生才敢面對的宇宙級問題。

“我知道是字母B開頭的……等等,別告訴我……”

我伸手去拿書桌上的那本英語詞典。我成為美國人已經將近10年,儘管互聯網逐漸取代了我們生活中的許多物品,但這本字典仍然要偶爾充當我的救命稻草。我翻了幾頁,一直往下掃視,直至看到……

“對,是Beagle !小獵犬!”

“好吧,小獵犬怎麼了?”

我停下來,又看了看那一頁。我都忘了自己為什麼會提起這件事,但沒關係。我突然意識到另外一件事。

我和彼得羅的目標是建立一個包含100個圖像類別的數據集,但我們一直在苦苦思索如何決定應該包括哪些類別。我們擔心如果由我們自己來選擇,結果可能會帶有偏見——甚至在潛意識裡,我們會傾向於選擇我們知道算法更有可能成功識別的圖像類別。

我眯起眼睛,更仔細地看了看詞典。詞典對某些詞的解釋有一種優雅的意味。大部分詞是名詞,強調的是有形的、看得見的東西——換句話說,就是物體,或者像小獵犬那樣的動物。這些看上去正是我們想要的類別。而且每個字母開頭的名詞數量基本是均勻的,我覺得分佈得很公正。於是我想:讓詞典來替我們做選擇,如何?

一切堪稱完美。這麼多年我一直帶著這本板磚一樣的大詞典,現在它竟然成了我作為計算機視覺研究人員實現理想抱負最有用的工具。看來,有時候移民身份還是有好處的。

 

拋開早期的靈感乍現不談,建立完整的數據集耗時漫長、進展緩慢,而且無聊乏味。我們花了幾個月的時間手動查詢圖像搜索引擎,挑選出最好的結果,然後裁剪和調整照片的尺寸,確保一致性。一個由三到四名本科生組成的小型標籤團隊也參與到其中,已經搬來與我同住的母親也想辦法幫忙。

雖然圖像整理是個苦差事,但這個過程讓我深受啟發。在對視覺世界的多樣性進行深入思考之後,我開始以一種前所未有的方式看待這個世界:視覺世界本身是單一的現實,其中包含了手風琴、攪拌機、手機、龍蝦、比薩、停車標誌、雨傘和其他各種各樣的東西。這是一種詩意的存在。我意識到這個世界是多麼豐富多彩、變幻莫測,而我們留意到的細節卻少之又少。

浩大的工程終於完成。我們的圖像集於2004年完工,成為有史以來為機器學習配置的最大規模的圖像集合,裡面有超過9000個圖像,分佈在100個類別中。這是前所未有的,我迫不及待地想看看這個圖像集能解鎖什麼奧秘。我們覺得自己被賦予了前所未有的力量,就好像突然擁有了一件超自然的神器,將賦予我們的創作難以想象的能力。另外,我還忍不住實現了一個細節:我獨自完成了一個新類別的圖像整理,雖然耗時耗力,但我想用這種開玩笑的方式“嘲笑”導師。如果彼得羅想要100個類別,我就給他101個。

新數據集的官方名稱叫“Caltech 101”(加州理工學院101類圖像數據集),這套訓練圖像集內容極其豐富多樣。我們現在的模型利用了Caltech 101,性能顯著提升,於是我們立即發表了一篇關於單樣本學習論文的後續文章。無可否認,模型準確度的提升只是在原來基礎上的增量,因此它並沒有像第一篇論文那樣獲得突破性成功,至少在一開始沒有。但這個模型樹立了更加持久的典範,成為其他開發團隊效仿的榜樣。模型繪製的性能曲線成為行業基準;在六個月內,來自世界各地的研究人員都將我們的論文引作標準,其中很多人的模型還超越了我們的模型。發表自己的研究成果固然令人興奮,但知道自己在為他人的構想做階梯,哪怕只是在他們成功推動該領域發展的過程中扮演了微不足道的角色,也讓人無比激動。

很明顯,加州理工學院的生活不會輕鬆,但我對這裡的感激之情比以往任何時候都更加深厚。我們賣掉了乾洗店,這是我們來到這個國家以來,母親第一次有機會休息(我也很開心——以後再也不用為了什麼漿洗過度的襯衫裙接到長途電話了)。最重要的是,我對學業充滿了熱情,幾乎付出了全部努力,以至每天都會感到筋疲力盡。

幸好,在加州理工學院,不難找到像我這樣痴迷的人。我在彼得羅的辦公室外就遇到了這樣一個人。當時,我聽到兩個明顯是意大利口音的聲音,我很快便得知,除了我熟悉的彼得羅,另一個聲音來自我尚未謀面的研究生同學。他身材高大,說英語時意大利口音特別重(相比之下,彼得羅可以說沒什麼口音了),他滿頭亂蓬蓬的捲髮,在房間的另一頭顯得格外顯眼。那天他正好趕時間,在彼得羅介紹我們彼此認識之後,我們的第一次見面就匆匆結束了,很快我就忘了這件事,不過我記住了他的名字:西爾維奧。

西爾維奧會來參加我們的實驗室會議,很快就吸引了我的注意。跟我一樣,他經常以討論藝術作品作為演講的開場白。他很喜歡埃舍爾的《手與反射球體》和維米爾的《戴珍珠耳環的少女》等作品,而這些作品都與他在研究中探索的視覺世界的各個方面有關——扭曲表面反射的輪廓、金屬表面的閃光,以及日常物品的三維本質。當然,這些賞心悅目的畫作很快就讓位於堆積如山的方程式。我們在一起的時間越長,我越意識到我們之間有一個共同點,那就是無論在什麼情況下,我們都無法抑制自己的好奇心。

“快看!看那輛摩托車!”他興奮地大喊,完全破壞了原本只是一次輕鬆校園散步的氣氛。

“怎麼了?”

“你看到鍍鉻排氣管了嗎?看到反光了嗎?這裡麵包含了很多信息。你看到了沒?排氣管的彎曲方式?”

“對,我明白你的意思。”

“但問題來了——到底什麼叫‘反射’呢?反射只是表面周圍世界的扭曲圖像而已!這個扭曲的方向跟排氣管的彎曲方式幾乎完全相反,但我們卻能夠從反射的圖像中獲得足夠多的信息,毫不費力地在大腦中想象出排氣管的形狀。這就是我們想要設計的算法。”

我心想,天哪,這傢伙真是個呆子——不過,我倆呆到一起了。

我是兩個實驗室的學生,一個是彼得羅的電子工程實驗室,一個是克里斯托夫的計算神經科學實驗室。我每週跟他們分別見一次面,參加期刊俱樂部,一起評論神經科學和計算機科學方面的最新文獻。另外,因為兩個實驗室都免費提供食物,所以我的飲食狀況比預期的要好。然後,西爾維奧出現了,我們陷入熱戀,雖然兩個人都特別忙,但有限的閒暇時間總會在一起度過。

隨著我在加州理工學院的歲月流逝,另一種東西在我內心深處紮根發芽。我反思了我們所做的一切:我們的心理物理學實驗,我們對單樣本學習算法的研究,我們對Caltech 101數據集力量的展示,我們閱讀的幾十年的文獻。我同時跟隨兩位導師,他們帶領我在不同的道路上探索,讓我擁有了非常特殊的研究生教育。我開始理解我們工作的優雅之處。我們所做的一切都絕非偶然;我比以往任何時候都更加確信,分類是連接一切研究的核心思想。我也相信,事實將很快證明,分類在理解視覺(甚至整個人類智能)方面起著至關重要的作用。

那麼,為何進展依然如此緩慢呢?

總結成一句話來說:因為我們的算法出現了數據科學中所說的過擬合現象(overfitting)。也就是說,無論算法設計得多麼巧妙(我們探索了所有能找到的算法),即使是那些在測試中表現最好的算法,在遇到新的刺激時,也會很快出現問題。那些看似經過有效訓練的算法,卻無法將它們所學到的知識,或者說它們本應學到的知識,應用於現實世界。從本質上講,這與人類的感知能力恰恰相反。人類的感知能力是由泛化能力決定的,泛化能力增強了我們的靈活性和適應性,甚至讓我們富有創造力,讓我們能夠隨時利用新想法的力量銳意進取,而不是停留在過去的經驗中止步不前。任何缺乏泛化能力的生物都會很快被自然界的不可預測性擊垮,因此這種能力是生物進化思維的關鍵特徵。然而,對機器來說,泛化在很大程度上仍然是遙不可及的。

在我們試圖解開過擬合之謎的過程中,算法本身是一個自然的起點。具體來說,需要研究算法如何從訓練數據中學習。我們探索的大多數算法都非常複雜,無法手動配置,用專業術語來說,是“計算難以實現”。其中包含的無數參數的排列組合範圍龐大無比,就像一個延伸到視野之外的旋鈕和開關控制面板。相反,自動化技術通過長時間的迭代試錯,可以接近理想的參數平衡。多年來,相關技術的改進一直是計算機視覺研究的重要支柱。

但Caltech 101鼓勵我們更深入地思考數據,這反過來又激發了我們的好奇:等式這一邊的數據是如何導致過擬合問題的呢?畢竟,如果沒有數據,“機器學習”中的“學習”對象就不存在了。儘管數據的重要性不言而喻,但這個話題缺乏物理學、數學或統計學所具備的精確性。像彼得羅和吉滕德拉這樣的研究人員是為數不多的幾個對數據進行了深入探索的人,我認為他們形成了理解這一問題的最佳直覺。我們發表的論文似乎表明,隨著數據集的增大,我們的算法的能力也相應提升——至少相對而言是這樣。即便如此,數據的篩選感覺更像是黑魔法,而不是一門科學。

我開始思考我們可能犯了哪些錯誤。也許應該調整訓練圖像的方向?或者增加數據的多樣性?是分辨率的問題還是相機質量的問題?或者,有沒有可能101個類別都不夠?——我都不願意往這個方向想,更不用說將它說出口了。我對這些問題思考得越深入,它們就越明顯,甚至是緊迫。但據我所知,在視覺研究領域還沒有人提出這些問題。

我們的優勢是數據量,可就連數據量的問題也顯得撲朔迷離。我不得不承認,其實101這個數字並沒什麼特別之處,它不是經過證實的結果,甚至不是從理論中推導出的原則性估計。這只是我和導師在擺得像霍克尼畫作一樣的午餐盤上玩“膽小鬼遊戲”的結果。這並不是突破性進展的前奏,難道這真的有那麼令人驚訝嗎?我再次回到文獻中,這次是懷著復仇的心情。如果不是101個類別,那應該是多少個?200個?500個?還是1000個?我想,拜託,千萬別是1000個。我下定決心,無論如何都要在茫茫文獻中找到一絲線索。

我費了一番功夫,終於找到了一些資料。這些資料甚至來自一個熟悉的來源——現代視覺研究成果的主要貢獻者之一歐文·比德曼。他的這篇論文發表於1983年,我上次讀這篇文章已經是好幾年之前的事了,應該是在凌晨兩點跟其他一堆文獻一起瀏覽的。現在,我們已經對單樣本學習進行了大量探索,並真正實現了視覺分類的夢想,從中學到的一切讓我開始以一種嶄新的視角重新審視這篇論文的觀點。

比德曼在論文中探討的話題與我的研究領域並不直接相關,但其中的內容卻非常有趣。他討論瞭如何利用基本幾何形狀的知識來識別複雜的物體。在論述和推導結論的過程中,比德曼試圖回答一個看似簡單的問題:世界上大約有多少獨特的“事物”類別?也就是說,如果把所有的事物都相加——包括“搖椅”“企鵝”“跑車”“拉布拉多”“山”和其他所有東西——總數會是多少?

這個問題聽上去更像一個謎語,而不是科學挑戰。但是,比德曼採用了一種基於對英語語言的分析的獨特方法,令我非常欽佩。單詞在幫助我們對所見事物進行分類方面發揮著基礎性的作用,因此他推斷,對所有離散且可量化的事物的單詞(即英文中的可數名詞)進行計數,將是一個很好的起點。然後,他又計算出每個可數名詞有多少個真正不同的變體,就像“杯子”這樣單一類別的物體可能包括帶華麗把手的白色茶具、色彩鮮豔的咖啡杯和普通的透明玻璃杯。由於某些類別比其他類別更具多樣性,他通過假設一個合理的平均值將問題簡化為一個簡單的乘法問題,從而計算出總數。

其中的邏輯簡單明瞭,但他的想法之所以如此具有顛覆性,是因為其規模之大。這個想法立即揭示了我們的研究是多麼有限,我們的想象力是多麼有限,而這兩者之外的世界又是多麼廣闊。這篇論文是一份模糊的影印版,但感覺就像比德曼在直接對我說:“你想要突破嗎?這就是代價,這就是需要付出的。”

比德曼的數字可以為我們研究人員所追求的雄心壯志提供藍圖,而這個數字是巨大的。無比的大。不是1000個,不是2000個,甚至不是5000個。當然,更不是我們花了幾個月蒐集的那101個類別。

是3萬個。

我完全不知道要對這個數字作何感想。創建Caltech 101已經讓我感覺像是一項無比艱鉅的任務,而現在又多了兩個數量級。但我已經無法迴避這個問題了。他的思想極具價值,具有真正的洞察力,其能量幾乎在通過印在紙上的數字迸發出來。更重要的是,我知道無論這個數字註定要帶我去哪裡,我都將獨自前行。我的研究領域僅僅專注於算法,但我對數據思考得越多(尤其是大規模的數據),我就越意識到,這是一個完全未開拓的領域。世界已經選擇了它的方向。但我的北極星正引領我向另一個方向前行。