我看見的世界 - [美] 李飛飛

First Light

人工智能的發展再次遭遇寒冬，我在導師們的引導下開始關注視覺研究。此後，它將成為我一切學術旅程的主線，成為我世界的中心。

想象一下這樣的情景：這個世界上不存在任何感覺，甚至都不能用“黑暗”一詞來描述，因為與之對應的“光明”概念尚未被構想出來。在這個世界裡，什麼都看不到、聽不到、感覺不到，而所謂的“活著”不過就是新陳代謝的過程。再進一步想象：這個世界的生物只有進食、繁殖等毫無感情的機械性本能，甚至沒有最基本的自我意識，更不用說身份、群體或廣闊世界等更加複雜的概念了。現在，進一步想象一下整個星球都是如此——這個星球充滿了生物，但它們還沒有意識到自己的存在。

這就是5.43億年前地球生命的狀態。當時，地球的大部分地區都被原始海洋所覆蓋。相比現在充滿感官刺激和智力活動的世界，5.43億年前的生命形態極其原始，近乎抽象，用蘇格拉底的話說，它們完全生活在一種“未經審視”的狀態中。那個世界完全不被看到，海水深邃而本能粗淺。

我們的遠古祖先形態簡單，考慮到當時的環境，這也是很自然的事。它們居住的水下空間生物稀少，無須為了食物相互競爭。在三葉蟲出現之前，生物捕獲獵物主要靠運氣，而獵物也採取了同樣漫無目的的方式來躲避捕食者，雙方均靠運氣生存。只有當食物近在咫尺、無須付出任何主動努力時，生物才會進食。

然而，這種感官剝奪的影響是深遠的。由於什麼都看不到、聽不到、摸不到，早期的生命形式沒有任何可思考的對象。現代人類在日常生活中已經對外部世界的存在習以為常，而遠古時期的生命體跟外界現實世界沒有任何聯繫，根本接觸不到刺激，因此完全沒有大腦。大腦儘管很神秘，但本質上只是一種有機的信息處理系統。在一個沒有感官輸入的世界裡，生物沒有能力收集關於世界的信息，因此大腦完全沒有存在的必要。

我們無法想象這樣一個有機體的內部活動，但如此嘗試卻能帶來啟發。它讓我們意識到，我們從不知道與外界沒有感官聯繫是一種什麼體驗（即使還在子宮的時候，我們就已經能夠感受到外部世界了），我們也不能簡單地拋開意識，去想象無意識的狀態是什麼樣子。畢竟，我們的思考不就是對外界直接刺激或間接刺激的反應嗎？即便是最抽象的思考（甚至是像心算等瞬間思維），也是建立在推理的基礎上的。而我們的推理能力則源於多年在實體空間中生活的經驗。無論我們的大腦多麼複雜，其中的思維活動最終都可以追溯到來自其邊界之外的刺激。

接著，整個地球在極短時間內發生了翻天覆地的變化。這一時期至今仍讓進化生物學家們感到困惑：生命體的複雜性呈現出爆發式增長，進化速度達到了令人難以置信的水平，估計是後來所有時代的四倍。隨之而來的是前所未有的競爭氛圍。這是一場爭奪主導地位的持久戰。隨著生存挑戰的加劇，每一代生物都被迫逐漸進化和適應。為了應對這個敵意倍增的世界，生物的身體變得堅硬起來，它們用防禦性的堅韌外骨骼保護身體的軟組織，也演化出了牙齒、下顎和爪子等攻擊性器官。

這就是我們現在所說的“寒武紀生命大爆發”時期。在這一時期，生物進化秩序經歷了一次大洗牌。雖然寒武紀生命大爆發是地球生命歷史上的關鍵篇章，甚至可以說是最重要的篇章，但其確切原因至今還沒有定論。有人認為是由氣候突變引發的，也有人推測是由於海洋酸度發生了鉅變。動物學家安德魯·帕克（Andrew Parker）的觀點與眾不同，儘管許多生物學家對其持懷疑態度，但他的假設卻深深影響了我對人工智能的看法。帕克認為，與其說帶來改變的是一種外部力量，不如說是一種內部力量。他認為，引發寒武紀生命大爆發的導火線是一種能力的出現：光敏感性，這也是現代眼睛形成的基礎。

對光的感知迅速發展，其核心在於一類被稱為“視蛋白”的蛋白質。這種蛋白質具有獨特的性質，比如在吸收光子時會改變形狀（本質上是對光的物理反應），並連接成一種叫作“離子通道”的鏈條，將這種反應轉化為生物電信號，傳輸到身體的其他部位。

儘管早期的視覺發展非常簡單（至少相對於今天無比複雜的眼球來說是簡單的），但它們為進化提供了立足點，帶來了感知能力的迅速提升。接下來是在感光區周圍形成一個淺淺的凹陷，不僅可以辨別附近光源的亮度，還可以辨別光源的方向。經過進一步的進化迭代，這個凹陷變得越來越深、越來越窄，最終演化成了類似針孔相機的光圈形式。

早在公元前400年，中國古代思想家墨子就首次在其著作中描述了“小孔成像”。後來，亞里士多德也獨立觀察到這一現象。小孔成像簡單利用了暗箱效應這一自然現象，光線通過箱子側面的小孔，將外部世界的清晰圖像投射到箱子內部。光圈大大增加了光敏感性，將視覺體驗從對光線的簡單感知擴展到了對整個場景的認識。

最後，隨著晶狀體的出現，現代視覺的器官基礎就此形成。晶狀體增加了進入眼球的光線量和清晰度。關於晶狀體究竟是如何形成的，至今仍存在很多猜測。許多假設都認為，晶狀體最初與視覺無關，純粹是一個保護結構。無論確切的起源如何，晶狀體在進化記錄中反覆出現，在所有生物門類中獨立演化。晶狀體很快進化成為一個精緻的透明表面，能夠在不同世代中靈活地適應各種光學特性，從而急劇加速了眼睛的進化。光敏感性的出現是地球生命史上的一個轉折點。

僅僅通過讓光線進入體內（無論光線多麼昏暗、多麼模糊不清），遠古生物就第一次認識到，在它們自身之外還存在著某種事物。更緊迫的是，它們意識到自己需要努力求生，而面對的結果不止一種。它們開始感覺到，周圍的環境無比嚴酷，威脅與機會並存，對資源的競爭日益激烈，而它們的行為決定了自己是捕食者還是被食者。

對光的感知打響了進化軍備競賽的第一槍。在這場軍備競賽中，哪怕是擁有最微小的優勢（即使是稍微提升深度或略微改善敏銳度），都是幸運的，因為這樣的生物及其後代可以在不斷尋找食物、棲息地和配偶的競爭中處於領先地位。微弱的競爭優勢是進化壓力的遊樂場，通過一次又一次的突變和快速迭代，對生態系統產生了近乎即時的影響。

當然，大多數變異都是無用的，有些甚至是有害的。但是，即使是微不足道的優勢，也能引發巨大的變化，在一連串的動盪中顛覆自然秩序，然後在新的基線上穩固下來，並很快在此基礎上建立起更強大的能力。隨著一代又一代的生物登上歷史舞臺，進化過程也在不斷加速，在短短的1000萬年時間裡（帕克詼諧地稱之為進化史上的“眨眼之間”），地球上的生命涅槃重生。

感官意識和行動能力之間的關係在調節競爭局面上起著重要作用。即使是最早期的視覺形式，也能讓生物獲得關於周圍環境的零星信息。這些信息不僅能指導生物的行為，還能以前所未有的即時性，驅使生物採取各種行為。有了視覺，飢餓的捕食者越來越能夠確定食物的位置。它們不再被動地等待食物的到來，而是主動出擊，追逐食物。反過來，在面對捕食者時，生物也會利用自身的模糊意識做出躲避反應。

很快，生物創新的閃光綻放成為集體之舞，隨著不斷豐富的生命分類進入一個新的時代，力量的平衡來回搖擺。今天，化石記錄揭示了這一狂熱時期自然選擇的成果；有證據表明，僅僅是三葉蟲的進化就在寒武紀末期達到頂峰，有數萬個物種分佈在10個目中。

與此同時，觸覺的出現使進化變得更為複雜，很快就與不斷發展的視覺形成了互補與平衡。與早期的光敏感性一樣，新生的神經末梢也遍佈原始生物的體表，傳遞觸覺信號。

這些神經細胞不斷生長並相互連接，形成了所謂的“神經網絡”。這種分散的網絡是中樞神經系統的前身，而中樞神經系統最終將成為更高級生命形式的特徵。神經網絡是一種生物電系統，原理簡單，但功能強大。神經網絡將對運動功能和感覺功能的控制融合到同一個反應機制中，這種機制適合執行“應對身體攻擊”和“覓食”等基本任務。在進化過程中，神經網絡雖然原始，卻是與競爭日益激烈的外部世界保持同步的權宜之計，即使今天也依然存在，尤其是在水生生物中，例如某些種類的水母。

但是，僅僅將眼睛、神經末梢和四肢連接起來是不夠的，尤其是因為隨著眼球不斷進化，看到的世界越發廣闊、細緻，同時，四肢也發展出了新的自由度和更強的關節。要在複雜的環境中有效行動，需要的不僅僅是條件反射，這就帶來了另一個適應性挑戰，促使生物體在“所見所感”和“如何反應”之間發展出日益複雜的中間環節。

隨著感官所提供的信息深度和數量不斷增加，生物體處理信息的工具也面臨著增長的壓力，類似我們需要更多更加複雜的計算設備來管理現代世界中的海量數據。為了處理五花八門的信息，神經系統不斷發展，最終形成一個集中樞紐，其中的組成部分被越來越密集地壓縮到一個器官裡。我們把這個器官稱為大腦。

因此，大腦並不是內部某種神秘的智力火花的產物，而是對外部世界的反應。愈加清晰和紛雜的外部世界影像，通過感官到達生物體內部，感知周圍環境的能力促使我們發展出了整合、分析並最終理解這種感知的機制。視覺就是感知系統最為活躍的組成部分。

隨著第一批新覺醒的生物踏上陸地，進化大戲再起高潮。這些生物隨著海浪的翻湧被衝到岸上，發現了一個陌生的世界。在這個世界中，移動的基本原理變得陌生，需要一個全新的模式。例如，運動不再是毫不費力、可以朝著任何方向進行的動作，而是被限制在平面上，並受到重力和摩擦力等物理力的制約。

在另一方面，生物的視線範圍得到了極大的擴展。在海洋表面，大氣層毫無遮擋，與幽閉黑暗的深海形成了鮮明對比。世界不再是模糊的流體，而是一幅宏偉開闊的景象，從海岸線的邊緣到山峰，甚至更遠的地方，都變得明亮而清晰。視野從幾英寸擴展到了幾英里，這對早期陸地生物的思維提出了相應擴展的挑戰。

環境的變化對“計劃”這一概念產生了尤其深遠的影響，因為現在的行動可以在更大的範圍內展開，同時還要應對更多的不確定性。隨著視野廣度和深度的擴大，大腦不得不以更強大的智能來適應環境，逐漸融入了對因果關係、時間流逝，甚至對操縱環境本身的影響的認識。這不僅為強大的捕食者和靈活的被食者創造了條件，也為真正的智能、為現代人類的出現奠定了基礎。

數億年後，我們很難不被這個進化轉折點所創造的世界所震撼。幾千年的文明進程見證了人類的發展，從靈長類動物到遊牧部落，從農業社區到工業化城市，再到現在的科技和信息處理超級王國。

這一驚人進程的本質是我們與世界的感官聯繫，即便到了現在也是如此。儘管科技為我們提供了巨大的幫助（從我們口袋裡的移動設備到地球軌道上的衛星），我們依然依賴與日常現實的聯繫來應對生活中的種種任務。

與此相對，遠古時期的化石記錄已經開始影響我們自己的文化記錄。從預示著新交流形式黎明的洞穴壁畫，到文藝復興時期迸發的創造力洪流，再到今天的攝影、電影、電視，甚至電子遊戲世界，藝術發展史有力印證了視覺的首要地位，也讓我們看到，幾個世紀以來，我們辨別視覺細微差異的能力越來越強了。

在卡拉瓦喬的明暗對照畫法與維米爾和左恩的柔和陰影之間的強烈對比中，我們可以看到視覺理解的齒輪在轉動。我們可以超越現實主義，從凡·高和卡洛的風格化肖像中提煉出日常生活的意象。我們甚至可以從現代主義畫家奧基弗以及抽象表現主義畫家馬瑟韋爾和羅思柯相對晦澀的作品中感受到它的存在。無論是現實主義還是概念主義，無論是感性主義還是政治主義，藝術都利用了這幾億年來來之不易的進化結果，享受著創作的純粹樂趣，通過個人的眼睛，也就是個人的感受來詮釋這個世界。

“飛飛，當一名大學畢業生的感覺如何？你馬上就畢業了。”瓊收拾完桌上的餐盤，一邊切著放在臺面上冷卻的布朗尼蛋糕，一邊問道。

大概在四年前，我第一次到薩貝拉家做客，也是我記憶中第一次吃美國的甜食。我嚐了一口，不禁面露驚喜。我的反應讓瓊非常開心，所以每次我來做客，她都會專門烤這種蛋糕，這已經成了一種慣例。其實蛋糕粉是商店買的現成的，但這並不重要。在我看來，她的布朗尼蛋糕就是最好吃的。

“挺興奮的。但我沒想到下一步這麼難選。”

“你有沒有再考慮過我們之前說的那些選擇呢？讀研？找工作？或者先出去玩一圈？”薩貝拉先生問道。

“再給她一點兒考慮的時間吧，鮑勃！”瓊笑著端上我們的甜點。

“沒關係的。其實我一直也在想這些事。”

那是1999年，我在普林斯頓大學的學習生涯即將結束，再次面臨科學抱負與現實生活之間的抉擇。讀研的誘惑與開啟職業生涯的壓力讓我左右為難。這次是一個真正的兩難困境：當時網絡經濟正在蓬勃發展，盛況空前，擁有數學頭腦和名校學位的人成了金融界熱切追捧的對象，甚至像我這樣學物理的，也受到了華爾街的大力招攬。包括高盛和美林在內的眾多知名企業向我拋出了橄欖枝（可以想象，這些公司的名字都刻在莊嚴的大理石板上）。他們提供了一切：福利、晉升機會、令人豔羨的起薪，當然還有真正的醫療保險。他們承諾免除我們的債務，結束乾洗店的勞累，在母親的健康狀況日益惡化的情況下為我的家庭提供保障。而對我的唯一要求就是放棄科學。

在自己斟酌了大半個星期之後，我終於在乾洗店的片刻閒暇中向母親提起了這件事。我們各自坐在平常的位置上：她在縫紉機前，嘴裡夾著兩根別針，一臉專注地檢查著手中的衣物；而我則在她旁邊，扮演裁縫助手的角色，正在給一條她準備加長的褲子拆線。

“媽媽，我在考慮幾個選擇。我面試了幾家‘公司’，中文是叫‘公司’吧？就是華爾街巨頭。我必須得承認，他們給的條件很誘人。”

“華爾街巨頭？”

我意識到，她並不熟悉這些美國文化術語。

“就是股票、交易什麼的。搞投資的。當然，還有很多東西要學，不過如果我真的下定決心，我覺得還是能學會的。”

“嗯。”她平淡地回答，“這是你想要的嗎？”

“我的意思是……光是薪水就足以改變我們的生活了，而且——”

“飛飛，這是你想要的嗎？”

“你知道我想要什麼，媽媽。我想成為一名科學家。”

“那還有什麼好說的呢？”

面對我的含糊其詞，母親的回應總是一針見血，速度之快讓我得花點兒時間才能反應過來。三步絕殺，一劍封喉。我要去讀研究生了。

普林斯頓大學的教授們常說，研究生學習不僅僅是另一個學術里程碑，更是一個轉折點，代表著從學生到成為真正科學家的第一次轉變。研究生學習將把激情轉化為旅程，將興趣轉化為身份，將這段教育經歷錘鍊為事業、聲譽和生活的基礎。這種看法令人鼓舞，讓我所面臨的問題變得明確，但同時也讓它變得更加費解。我知道自己想成為一名科學家，但究竟是什麼樣的科學家？究竟是為了什麼目的？我怎麼才能找到答案呢？

在加州大學伯克利分校的經歷讓我看到了智能的奧秘，也讓我認識到，深入理解視覺可能是解開智能之謎的關鍵。然而，在視覺研究領域，我面臨著兩個選擇：神經科學和計算科學。神經科學可以讓我更深入地瞭解大腦的能力，而計算科學則可以利用工程學的原理來建模，甚至複製智能能力。

我決定兩者兼修。

同時研究神經科學和計算科學的組合並不常見，至少在當時的碩士項目中是這樣。不過，也有少數幾所院校可以滿足我的需求，只是需要花費一些精力去尋找。事實上，我的運氣非常好，有兩所排名世界前列的學校恰好提供了我想要的課程。

第一個選擇是斯坦福大學的雙軌項目，融合了神經科學和電子工程學，由戴維·希格（David Heeger）教授領銜，他是少有的在兩個領域都擁有豐富經驗的學者。課程的每個細節似乎都是為我量身定做的，只是有一點不太合適：這是他在斯坦福大學的最後一年，他離開後，這個項目也就停了。

於是我排除了這個選項，將目光轉向了麻省理工學院的項目。我覺得這個項目更符合我的興趣。項目是托馬索·波焦（Tomaso Poggio）博士精心打造的，他是計算機視覺這個相對冷門領域的第一代研究者。即使在當時，波焦的工作也已經給我留下了深刻的印象。現在回想起來，我才意識到他的工作是多麼超前，這讓我對他更加敬重了。波焦直接從大腦結構中汲取靈感，建立了一組名為“關聯主義模型”（connectivist model）的算法，用於識別圖像內容。這種信息處理系統內部的結構密集交織，與神經網絡並無二致。

我還有一個學校可以考慮：加州理工學院。這所學校有著悠久的歷史，其世界聞名的噴氣推進實驗室與美國國家航空航天局保持著密切的合作，但不可否認的是，加州理工學院在排名上處於劣勢。斯坦福大學和麻省理工學院是全球最負盛名的學術機構，拒絕其中任何一家的錄取通知書似乎都很難理解，更不用說同時拒絕兩家了。但要說起與我的個人偶像之間的聯繫，加州理工學院有一點遠超其實力所及，即費曼、密立根，甚至愛因斯坦本人都曾在這裡講學。至少，我無法抗拒去學校參訪的機會。

從乘飛機抵達帕薩迪納的那一刻起，加州理工學院在氣候方面的優勢就顯而易見了。這是我第一次來到南加州，當地的天氣果然名不虛傳，氣候乾爽，陽光明媚，熱氣襲人，與新澤西的潮溼形成鮮明對比，讓我彷彿瞬間來到了一個避風港。從遮天蓋地盛開的鮮花，到池塘裡慵懶地曬太陽的烏龜，南加州的城市風貌也讓我感覺新奇不已。在學術氛圍方面，麻省理工學院和斯坦福大學都無可挑剔，但加州理工學院卻更似世外桃源。雖然校園很小（甚至跟普林斯頓大學小小的校園相比都相形見絀），但這裡的活力把我征服了。在普林斯頓大學那莊嚴的大教堂式建築中度過了這麼多年後，加州理工學院色彩斑斕、高大明亮的西班牙殖民時期建築讓我感覺彷彿置身於另一個世界。與物理有關的觀光機會隨處可得。我一眼就看到了愛因斯坦騎自行車的著名照片拍攝地，不經意間路過了密立根圖書館，還碰巧看到了費曼做過著名演講的禮堂。

在加州理工學院參訪期間，我所看到和感受到的一切都表明，這裡就是我的歸屬。雖然氣候原因聽起來微不足道，但有機會逃離美國東北地區的暴風雪，擺脫多年來的嚴寒之苦，本身對我來說就有很大的誘惑力。而真正把這種“怦然心動”變成“心意已決”的，是我即將追隨的導師們。

第一個將要擔任我的導師的是彼得羅·佩羅納（Pietro Perona），他全身上下散發著意大利人的魅力，將學科邊界視為無物，在跨學科研究中游刃有餘。他在電氣工程系，但熱愛認知科學，和我一樣希望把兩者結合起來。第一次跟他交流時，我就覺得他興趣廣泛、知識淵博。

“飛飛，我很好奇，你對牆上的那幅畫有什麼看法？”

彼得羅指著一幅裝裱精美的海報問我。海報上，大膽的原色被不規則間距的正交線分割成正方形和長方形。

在普林斯頓大學的時候，我抽時間上過幾門藝術課，於是我高興地指出這是蒙德里安的作品。

“我一直很喜歡他的作品。”彼得羅繼續說道，“幾何的簡單性總是能讓我停下來思考。”

“具體是思考什麼呢？”我問。

“思考是否有一些指導規則，或者至少是解釋規則。”

“規則？你是說……比如算法？”

他笑了笑，接著說：“你不感到好奇嗎？如果測量蒙德里安每幅畫的比例，結果發現了某種特定的模式，那不是很有意思嗎？”

我也報以微笑。我不知道他在多大程度上是認真的（我幾乎可以肯定他是在和我開玩笑），但我喜歡他會花時間思考這樣的事情。他聰明過人，喜歡冒險，又不時展現出天真的一面。我覺得自己一直在等待遇到這樣的思考者。

第二位未來的導師是計算神經科學家克里斯托夫·科赫（Christof Koch）。與彼得羅類似，我第一天就在克里斯托夫身上看到了優秀科學家都具備的特質：擁有無限想象力，同時敢於面對這種想象力帶來的挑戰。他在生物物理學方面已經有很高的造詣，但仍在不斷精進創新，讓我深感欽佩。像彼得羅一樣，他渴望跨越學科界限，將不同學科融合發展，也鼓勵我追尋同樣的道路。我們兩個有著相同的背景，他也是物理學專業，以前也是波焦的學生。但在第一次見面時，我發現他的頭腦中蘊藏著一種深沉的哲學激情，這種激情主導了我們的第一次談話。

“飛飛，你有沒有想過怎麼跟色盲解釋顏色是什麼？怎麼用語言來表達‘看到紅色’這種體驗？”

嗯……我從來沒有想過這個問題。

“我們非常熟悉顏色，但似乎無法用語言來描述顏色，這不是很奇怪嗎？我們只能說到顏色。當我說‘藍色’或‘紅色’時，你就知道我是什麼意思，但這只是因為你已經見過這些顏色。我的話只是喚起了你的回憶，並沒有傳遞新的信息。”

他的話讓我陷入了沉思。

“所以，想象一下，如果未來的人類完全理解了視覺的工作原理，那麼你覺得他們能掌握用第一原理來描述紅色的能力嗎？”

我想了一會兒。

“難道這不是必然的嗎？我的意思是，如果真的‘完全理解’，那必然會具備這種能力。”

“你的回答完全合理。但前提是可以在還原主義描述中找到對這種經歷的描述和解釋。如果找不到怎麼辦？我們該如何處理這個矛盾？視覺是一種複雜的現象，也許是最複雜的現象之一，但仍然是一個物理過程：物質的表現遵循物理定律。然而，從主觀上講，我們的經驗難道不是非物質的嗎？為什麼看到紅色會讓人覺得是一種主觀感受呢？”

這些都是我以前從來沒有思考過的問題。他的不斷追問讓我對他挑戰我的能力有了全面的認識。

這兩位導師的組合很有意思。他們倆都身材高大，看上去年齡相仿（我猜測都在40歲左右），但體形卻截然不同，彼得羅比較健壯，克里斯托夫則相對清瘦。兩人的口音都很重，一個是意大利口音，另一個是德國口音，但說起話來都幽默自信，也非常隨和，讓咄咄逼人的追問也顯得沒那麼可怕。彼得羅穿衣是學者風格，穿著紐扣襯衫和米色夾克，襯衫下襬總是塞進褲子裡；克里斯托夫則對自己浮誇大膽的著裝風格引以為豪，他喜歡刺眼的熒光襯衫，還喜歡把頭髮染成漫畫書裡的顏色，比如綠色或紫色。

然而，他們有一點相似到離奇的程度，那就是都有一種只能用“陶然自得”來形容的好奇心。這使得他們說的每句話都極具感染力。他們自由奔放，總會毫不遲疑地就複雜的話題提出探索性的問題，彷彿只需聊上幾句，就能解開生命中最深奧的謎題。尤其是克里斯托夫，他經常沉浸在自己的思考中難以自拔，即使我們兩個人在交談，他似乎也更喜歡在自言自語中探索這些問題。但他的專注並不是因為冷漠，而是源於天真，就像一個被白日夢弄得神魂顛倒的孩子。看到他這個樣子，我就會想到常常心不在焉的父親，覺得特別可愛。

這麼多年來，我一直生活在自我懷疑之中，努力掌握英語，為人處世也變得謹小慎微。但奇怪的是，我被他們這種漫不經心、旁若無人的性格吸引了。就像當初與薩貝拉先生相處時一樣，我發現，如果其他人跟我有著對科學的共同熱愛，那麼我就會覺得我們是平等的同伴，哪怕只是友好地聊過幾句。而在跟彼得羅和克里斯托夫這樣的人對話時，我所熟悉的現實世界幾乎變得無關緊要，彷彿我們在心靈相通，不受語言、地位或年齡的束縛。在我心目中，他們是我的新榜樣：同樣都是移民，他們不僅獲得了世俗意義上的成功，而且成了卓越的科學家。

在加州理工學院參訪的那個下午讓我畢生難忘。這些導師都是學術界的巨頭，能跟他們交談幾個小時是我的榮幸，更不用說考慮成為他們的學生了。還沒有登上返程飛機，我就做出了決定。

人類的視覺能力進化範圍廣，演化過程複雜，因此我們幾十年來都無法將這個能力用自動化複製也不足為奇。但如果這種情況改變了呢？如果我們能與機器共享人類對世界的感知，會發生什麼呢？機器擁有自動化的速度，可以持續產出高精度影像，不知疲倦為何物。想象一下，無人機甚至衛星在森林、冰川和海岸線上空飛行，對全球的環境健康狀況提供專業評估。想象一下，智能的非人類助手像人類助手一樣幫助視力障礙人群應對複雜的環境。想象一下，機器人急救員將急救醫護人員或消防員的判斷與機器的耐力和恢復能力相結合，使搜索和救援變得更加安全。想象一下，自動醫療診斷能通過移動設備為世界各地的病人提供專家意見。

數字世界的機會也不勝枚舉。視覺媒體發展百年以來，攝影、電影、新聞和電視等圖像消費已經成為現代生活不可或缺的一部分。自計算機誕生之日起，文本和數字數據就可以自由搜索，但與之不同的是，僅僅是對圖像進行粗略的搜索，都依然需要依靠人工來完成，耗時耗力，成本高昂。圖像數據庫規模極其龐大，人工管理分類早已無望，視覺智能機器能提供幫助嗎？

從人工智能領域發展早期，這樣的可能性就一直誘惑著研究人員。然而，他們很快就意識到，視覺理解的挑戰極其複雜，這一點也被此後的每一代人反覆證實。首先就是數據本身。數字圖像是以像素的形式存儲的，也就是說，單個顏色點用數字編碼表示，因此在機器看來，像素只不過是一長串整數。如果算法想要像人類一樣，根據有意義的概念（如人物、地點和事物）來理解圖像，就必須對這個列表進行篩選，並找出以某種方式對應的數字模式。

遺憾的是，定義這種數字模式的難度很大，即使是定義直線或幾何形狀這樣的簡單概念也很難。人臉識別更是難上加難，因為人臉是有機體，變量非常多：膚色、比例、拍攝角度、光線條件、圖像背景等，組合種類繁多，極其複雜。

從數據開始，謎題越來越難。例如，人類在看到事物之後，會形成更深層次的理解，那麼被動觀察行為和理解行為之間的界限究竟在哪裡？我們對影像的感知包括由邊緣和紋理形成的一團團的色塊，我們會下意識地解讀這些色塊，這是一種純粹的感知體驗。而在我們有意識地處理所看到的東西之前，有多少次是下意識地看到了圖像？研究人員很快就發現兩者不可分割：看到即理解，因此科學挑戰既存在於感官層面，又存在於智力層面。所以，視覺不僅僅是我們對智力的應用，實際上，它就是智力的同義詞。

這就是視覺的魔力。視覺是一種非常精細的技能。雖然我們看到的世界只是光線恰好落在我們眼睛表面的映射，但我們從光線中獲得的信息卻能延伸到我們的全部經驗。從感官輸入到可靠、可操作的知識，這是一種近乎奇蹟的轉變，是人類大腦最了不起的一大能力。僅僅是轉換任務的計算成本，就遠遠超過了倉庫大小的超級計算機的計算能力，而對人類來說，所有這些都是由一個直徑約12.7釐米的潮溼有機塊體完成的。人腦對概念的認知深度讓學術界的傑出人士也常懷謙卑之情。

要解開視覺之謎，並不僅僅是理解“人類如何看見事物”這麼簡單。視覺問題並不是簡單的關於顏色或形狀的問題，也不僅僅是在更大級別上進行數字運算的問題。視覺研究是對人類認知中一個核心現象的探索。視覺在很大程度上是人類身份和獨特性的基礎，無論是在生物學上、人際關係方面，還是在文化層面。研究視覺是通往我們體驗最基礎層面的旅程。很多時候，“所見即所知”，因此，瞭解我們如何看見，就是了解我們自己。

在研究生生涯伊始，我買了一本巨大的教科書。這本書在我入學前一年剛剛出版，裝幀新穎，內容也極為領先。書很重，封面厚實，邊角尖銳，第一次打開時，書頁之間分離發出的聲音清晰可聞。這本書將我的學術旅程的所有脈絡都匯聚在一起，編織成一件藝術品，每次看到它的封面都會讓我倍感振奮。

書名為Vision Science（《視覺科學》），封面上的這兩個詞彷彿是專門為我選定的，描繪的是自加州大學伯克利分校的實驗以來，我一直在努力追尋的道路。稍下2.5釐米處是斜體的副標題，更是激起了我的好奇心：Photons to Phenomenology（從光子到現象學）。在標題的正上方，凡·高《星月夜》的全綵畫作佔據了三分之二的封面。這本書內容翔實，闡述全面，註定要成為未來幾十年的標準。我渴望學習書中涵蓋的一切內容。

在黑暗實驗室的時刻改變了我的一生，當時那些噼裡啪啦的聲音讓我第一次瞥見了其他生物大腦的內部運作機制。如今已經過去了兩年。兩年的追求才剛剛開始。我對工程學這門充滿挑戰性的藝術很感興趣，但我不想成為單純的工程師。儘管我被神經科學的奧秘所吸引，但我也不想成為純粹的神經科學家。我想不受約束，對兩者兼而用之。

感謝命運之神的偶然眷顧，我遇到了再好不過的時機。當時的我還不知道，視覺研究是人工智能本身的產物。曾幾何時，在人工智能大旗的感召下，各個領域的研究人員團結一致，共同努力推動這個領域不斷發展，然而，隨著旗幟的撕裂，不同的研究領域也四分五裂，各自為營，進入了持續十年的低迷期。神經網絡和專家系統等設想一度令人興奮，但最終的研發並未成功，初創企業關門大吉，學術界的興趣也不斷消退，又造成了一輪疏離。人工智能的發展再次遭遇寒冬，而我正身處其中。但冬天正在迅速離去，冰雪即將消融。