A Hypothesis
ImageNet不僅是一個數據集,它是一個假設、一個賭注,即實現真正機器智能的第一步,是沉浸在完整的視覺世界中。這個賭注無論被證明是對是錯,我都做好了準備。但我沒想到,它被忽視了。
我開車沿著206號公路疾馳,陽光透過綠蔭的縫隙灑落下來,閃爍著一個個刺眼的光點。這條蜿蜒曲折的雙車道公路很好開,兩旁是高大的喬木,透過樹冠的縫隙,會不時露出地平線上的小鎮。但我卻無暇留意這些美景。我的思緒完全沉浸在另外一個世界。我能集中注意力不至開錯車道,但也僅此而已。
此時,我從加州理工學院博士畢業剛剛一年,但生活已經發生了翻天覆地的變化。母親又病了,這次的病情比以往任何時候都嚴重,然後又突然穩定下來。我也找到了第一份真正的工作,成為伊利諾伊大學厄巴納-香檳分校的助理教授,並獲得了相應的醫療保險。我和西爾維奧結婚了。他也找到了一份工作,不過是在密歇根州。值得感恩的事有很多,但我確實是剛剛開啟學術生涯、個人生活動盪不安的典型代表——我結婚了,但卻是分居兩地,而且仍然和父母住在一起。
對視覺分類本質的研究仍然是我世界的中心。我受邀回到普林斯頓大學,向計算機科學系介紹自己最新的研究成果。對我來說,做講座已經駕輕就熟,但我感覺到這次邀請另有深意——這是招聘程序的第一步,可能會給我帶來在普林斯頓大學的教職。我還不習慣這麼大的利害關係,也很慶幸自己養成了每次回到新澤西就先拜訪薩貝拉夫婦的習慣。從他們家到母校的蜿蜒道路給了我足夠的時間來思考。
不過,我想得最多的並不是講座,甚至不是我的職業生涯。比德曼估計,要為理解視覺世界提供一個完整的基礎,大約需要3萬個獨立的概念。自從我偶然知道這個數字後,我的生活就完全改變了。這個不起眼的五位數成了我腦海中的黑洞,幾乎每時每刻都佔據著我的思維。
一方面,我的直覺與比德曼的一致,我能感覺到他的數字就是對的。“3萬”看上去就像一個證據,是我能以某種方式使用的數據。不過,很明顯,他從來沒有把“3萬”當作源於經驗的確切數量。這是一個典型的估算,與其說是個假設,不如說是舉例說明。然而,出於某種原因,這個數字多年來始終縈繞在我的腦海中。
這個數字啟發了我的思維,讓我對以前從未想象過的規模有了新的認識,但除此之外,它並沒有給我帶來什麼解決之道。3萬這個數字當然很有吸引力,但到底是3萬個什麼呢?我相信,肯定不是將101變成3萬、創建包含3萬個隨機選擇類別的數據庫這麼簡單。這樣的數據庫肯定不僅僅是詞典裡的一套圖解概念。它甚至可能不僅僅是對世界特徵的描述,而是對世界進行整體建模的起點,可以逐個描繪出完整的地球生活圖景,並暗含事物之間的關係,這樣才可以反映整個世界的真正意義。不過這仍然只是我的猜測。
車輛疾駛,時間流逝,我又開始陷入白日夢。太陽石油公司加油站黃藍相間的標誌映入我的眼簾,引發了一連串回憶:以前駕車時沿途的印象不斷閃現,色彩和情緒交織在一起,有的細節清晰,有的細節模糊,所有的記憶都被朦朧的色調包圍,內容豐富,令人回味,卻永遠無法聚焦。然後,我不由自主地露出了微笑,因為我的腦海中浮現出一些具體的事物:薩貝拉先生提到他每天從巴德湖的家到帕西帕尼高中都要走這條路,還有他總是一絲不苟地跟蹤油價——公立學校教師的工資微薄,他要儘量減少油價對錢包的影響。
正是這些看似再平常不過的時空場景激發了我的執著。這才是視覺的真正意義所在。視覺不僅僅是一種“感覺”,至少不是那種可以用溫度計或蓋革計數器測量的“感覺”,而是一種體驗的催化劑。加油站的招牌在我每小時80千米的車速下一閃而過,它的顏色讓我的大腦釋放出了大量信息和情感。視覺是定義人類思維情感最為重要的能力之一,是通往整個記憶、聯想、概念和推理世界的入口,所有這些都交織在我們與周圍環境的視覺聯繫中。
我的思緒回到了在普林斯頓大學的演講。至少,這是一個我有機會解決的問題。
“我不知道一個語言學家為什麼去聽一個計算機視覺講座,飛飛,但我很高興他去了。”
坐在我對面的是克里斯蒂安·費爾鮑姆(Christiane Fellbaum)。她是一位計算語言學家,也是我在演講結束後的幾天裡遇到的眾多普林斯頓大學的教師之一。她本人並沒有出席講座,但她的一位同事剛好在聽眾席上。這位同事覺得克里斯蒂安會對我的研究感興趣,於是在我的演講結束後立即介紹我們兩個認識。
克里斯蒂安在語言學領域的工作與我的工作幾乎沒什麼關聯,但我們的工作有一個關鍵的共同點:我們都深受認知科學的影響,也都對理解(甚至繪製)大腦如何對世界進行概念化有著極大的興趣。在研究人類視覺的過程中,對感知的內容進行分類的方式深深吸引著我,而這也是她工作中的核心部分,我們的研究內容非常相似。我們都相信類別是視覺(我們看到的事物)和語言(我們描述事物的方式)之間的交叉點。與她交談了20分鐘後,我突然意識到,我甚至不知道是否應該討論一下工作機會的事。但不管怎樣,這件事已經不是關注重點了,因為她接下來問的問題將永遠改變我的職業生涯和人生。
“你聽說過一個叫WordNet的項目嗎?”
我隨後瞭解到,WordNet是心理學和認知科學領域的傳奇人物喬治·阿米蒂奇·米勒(George Armitage Miller)的傑作。喬治出生於1920年,是當代最具影響力的心理學家之一。他與其他心理學家一同致力於超越人類行為的表象,建立起驅動人類行為的心理過程模型。因此,他自然而然地就對語言結構及其在思維中的作用產生了興趣。他想通過WordNet以極其龐大的規模繪製出語言結構圖。
這個項目的靈感源於兩個同樣雄心勃勃的問題:如果我們能夠將人類通過語言表達的每一個概念都組織到一個龐大的單詞數據庫中,會發生什麼?如果這些單詞不是像詞典中那樣按照字母順序排列,而是根據它們之間的意義聯繫進行連接,會造成什麼影響呢?例如,我們不因為拼寫接近而把“apple”(蘋果)這個詞與“appliance”(器具)進行關聯,而是將它與“food”(食物)、“fruit”(水果)、“tree”(樹)等一系列相關的詞彙進行集群配對。這樣形成的詞彙數據庫就像一張地圖,將人類所珍視的一切(也就是我們用詞彙描述的一切)排列在一個相連的空間裡。簡而言之,這就是WordNet。
1985年啟動以來,WordNet已經發展到極其龐大的規模,收錄了超過14萬個英文單詞,並迅速擴展到新的語言。對時任全球WordNet協會(Global WordNet Association)主席的克里斯蒂安來說,這幾乎成了一份全職工作。WordNet數據庫範圍極廣,耗時甚久,而且為了精確指導其發展,多年來克里斯蒂安投入了繁重的協調工作,讓我深感敬畏。一想到自己只是花了幾個月時間,找了幾個本科生來給Caltech 101蒐集圖像,我就感到相當慚愧——Caltech 101的分類深度還不到WordNet的千分之一。此時此刻,我也受到了WordNet的鼓舞,這種感覺久違了。
WordNet是一個啟示。自從大約四年前偶然發現比德曼的數字,只要我醒著,就幾乎無時無刻不在思考這個問題。而WordNet給了我答案,或者至少是啟發。WordNet是人類意義的地圖,在覆蓋範圍和內容真實性方面都很出色,雖然我還不知道計算機視覺如何才能達到比德曼所設想的規模,但至少我現在有了證據,證明這種努力是可行的。我的眼前第一次出現了一條道路,我看到了前行的下一步。
為了幫助我加深理解,克里斯蒂安又提到了一個相關的項目,旨在用視覺示例(如照片或圖表)來闡釋WordNet包含的每一個概念。雖然這個計劃後來被擱置了,但我對它很感興趣。就連它的名字ImageNet也似乎在向我傳遞某種信息。命運又把我往前推了一把,這一次力度更大了。
那天離開校園之前,既往的點點滴滴開始串聯起來。首先是WordNet,一個目標無比宏大的詞彙數據庫,幾乎捕捉了世界上所有的概念,並以人類意義的自然層次組織起來。然後是ImageNet,它致力於為每個概念配上一張圖片。比德曼的數字在我的腦海裡創造了一個深不可測的神秘空間,而這兩個項目似乎是對空間的回應。
我問了自己一個既荒謬又顯而易見的問題:如果以WordNet的規模打造類似Caltech 101的數據集,會發生什麼呢?拋開項目帶來的海量工作不談(事實上,我的腦子裡只閃現出一個詞:不可能),這個想法太有吸引力了,我無法抗拒。數據集必然會達到天文數字的規模,但這不僅僅是規模的問題。規模只是副產品,我們將有更深層次的收穫,那就是前所未有的多樣性,如同其所反映的世界一樣混亂而不可預測。
多年來,我一直沉浸在計算機視覺領域,與彼得羅和克里斯托夫一起研究了數十年的歷史。計算機視覺的謎團日日困擾著我,讓我食不甘味、夜不能寐。而打造巨型圖片數據集的想法讓我感覺眼前一亮,它與眾不同,甚至具有顛覆性,可以成為我解開謎團的下一步。哪怕有一絲讓我更接近新發現的可能性(無論會發現什麼),我都必須加以考慮。
我的思緒翻騰不休,想象著如果以龐大的數據集來訓練算法,那麼算法就可以將豐富的視覺線索內化:塑料的堅硬邊緣、漆木的光澤、動物皮毛的紋理、眼球表面的反射等等——也許算法可以內化一切事物。我設想著我們將設計出更加靈活的算法,它能夠區分前景和背景,辨別不同物體的邊界,將實體的表面和體積與光影效果區分開來。
也許存在這樣的可能性:讓算法能夠識別出任何東西的秘訣,就在於打造一個無所不包的數據訓練集。
在我成為伊利諾伊大學厄巴納-香檳分校的助理教授一年後,普林斯頓大學向我發出工作邀約。這是我職業生涯中最大的突破,我接受了。我終於又回到了新澤西,薩貝拉夫婦非常高興,全家人都特意趕來幫我收拾住所。在我到達的那天,薩貝拉先生、瓊和他們的二兒子馬克(如今已大學畢業)都在普林斯頓大學教工住宅區的入口處迎接我。我的住處就在卡內基湖畔,景色美不勝收,三居室的佈局與我們全家來到美國後住過的宿舍大小的房子相比,簡直如宮殿般豪華。我們的居住面積實現巨大的飛躍,我們很快就意識到,這麼大的房子對搬家三人組來說真是大材小用了。西爾維奧還在安阿伯,而我的父母習慣了狹小的住所,所以我們帶的傢俱還不夠填滿房子的。不過,能跟薩貝拉一家團聚,我感到特別快樂,因為他們已經像我的家人一樣重要了。
“對了,我一直想問你一件事。你什麼時候才能開始叫我鮑勃?畢竟這些年來你一直管我的妻子叫瓊。是時候改口了,你不覺得嗎?”當我朝車子走去,準備搬最後一個箱子時,薩貝拉先生從後面追上來問道。
我愣了一秒才明白他的意思。這麼久以來,他一直是我的良師益友,就像我的第二個父親,直呼其名感覺很奇怪,叫他“鮑勃”就好像他只是我認識的某個普通朋友。“飛飛,我已經不是你老師了。”他笑著說,“我們還是別這麼正式了,除非你想讓我叫你李博士。”
回到普林斯頓大學幾周後,我去找了克里斯蒂安,因為我特別想讓她知道我們上次的見面對我產生了多麼重大的影響。WordNet和ImageNet,還有這兩個項目給我帶來的看似荒謬卻揮之不去的靈感,這就是所謂的命中註定吧。現在,我自己也加入了普林斯頓大學的教師隊伍,我備受鼓舞,渴望再向前一步,將想法變為現實,變成大膽甚至瘋狂的項目。
無論等待我的是突破還是失敗,我都感到激昂振奮。科學的追求可能是循序漸進的,但其突破卻是由突如其來的鉅變推動的,而這樣鉅變的引發者,不是某一個孤軍奮戰、雄心勃勃的天才,而是很多人的貢獻被幸運之手匯聚在一起。回想起激發這個想法的種種線索,我不禁感覺即將到來的時刻便是如此。
在離開克里斯蒂安辦公室的路上,我的心中只有一個想法。
“你知道嗎,我一直在想ImageNet,你之前說這個項目最後沒能完成。”
“對,挺遺憾的,因為我們招募的本科生覺得項目太無聊了,博士生也不願意碰,因為這算不上什麼意義重大的研究。”
我笑了笑,腦海中閃過為我和彼得羅策劃的數據集下載圖像的記憶。但這不是我提到這件事的原因。
“那麼……我可以用ImageNet這個名字嗎?它聽起來挺完美的。”我略帶尷尬地笑著問。
西爾維奧跪在DVD播放機前,把碟片推了進去,我聽到機器發出嗡嗡聲。
“今天看哪部電影?”我坐在沙發上問。
“《野草莓》,別擔心,你肯定喜歡,這個電影很經典。”
我們兩個人的職業生涯剛剛起步,壓力都很大,來到安阿伯的校園看西爾維奧,對我們兩個人來說都是一種短暫的解脫。他會親自下廚做飯,也會拉著我一起欣賞他喜歡的電影,跟我分享相關的背景故事。最重要的是,我們可以聊一聊工作以外的事,把大腦暫時從幾乎佔據我們全部生活的工作中抽離出來。看完電影后,我說:“我得跟你說件事,是一個有關研究項目的想法。我過去幾週一直在盤算這件事。”
“所以你根本沒在看電影。”他會意地笑著說。
我哈哈大笑,他也沒說錯。
“我從來沒有對什麼事這麼堅定過。”
“那不好嗎?有什麼問題呢?”
“是好事,只是……”我重重地嘆了口氣,“怎麼說呢,這將是一場賭博。”
事實證明,西爾維奧是我無與倫比的知己。我們都是年輕的助理教授,所處的院系競爭激烈,在事業起步的那幾年裡,我們都面臨著“要麼發表論文,要麼完蛋走人”的局面。壓力之下,我們必須馬不停蹄、保質保量地完成工作,因為我們知道,稍有懈怠就可能與終身教授的職位說再見,一同失去的還有獲得穩定生計的最佳機會。他比我生命中的其他任何人都更清楚其中的利害。
我從頭開始跟他講清楚了事情的原委——雖然過去幾年我一直唸叨的就是這些事,他的耳朵都快起繭子了,比德曼的數字、WordNet、ImageNet,還有我的夢想——理論上很完美,要實現很瘋狂。
“飛飛,你現在擁有的一切都是你多年的努力換來的。你拿到了學位,找到了工作,聽起來你還有些靈感,而且你丈夫生活在960多千米之外,所以你肯定也有時間。”
我咯咯笑了起來,他能如此輕描淡寫,真好。
“是啊,但你不覺得這一切都……太出格了嗎?”我問。
他想了一會兒才回答:“你不是一直在追尋出格的想法嗎?”
有上萬個類別的數據集有什麼用?大部分模型連一兩個類別都識別不準!
你知道用這麼多圖像訓練一個模型要花多長時間嗎?飛飛,這個時間可是用“年”來計算的。
別人要怎麼下載呢?你這個圖像總量比大多數硬盤的存儲量還要大。
具體怎麼做,你有計劃了嗎?幾百萬張圖誰來做標註?要花多長時間?怎麼驗證所有內容的準確性呢?
不好意思,我真的感覺這個項目沒法做。
每當我與同事們討論ImageNet的想法,我就越發感到孤獨。雖然有西爾維奧的鼓勵,但這麼龐大的工程剛剛起步,就遭到了幾乎所有人的一致反對,真是不祥之兆。我需要一群志同道合的夥伴,但現在似乎一個隊友都找不到。最糟糕的是,不管我是否同意,我都無法否認他們批評的合理性。
毫無疑問,在2006年,算法是計算機視覺的中心,而數據這個話題並不十分吸引人。如果把機器智能與生物智能做類比,那麼算法就相當於機器的突觸,或者說是大腦中錯綜複雜的神經迴路。有什麼比讓這些迴路變得更好、更快、更強大還要重要的呢?我回想起我們那篇關於單樣本學習的論文所受到的關注——只需要推出一個閃亮的新算法,裝飾以華麗的數學公式,就可以立刻引發關注。而數據生活在算法的陰影之下,僅僅被視為訓練工具,就像成長中的孩子玩的玩具一樣。
但恰恰因為如此,我才認為數據值得更多關注。畢竟生物智能與算法存在區別——前者是進化而來的,而進化的本質是環境對生物產生影響。世世代代的祖先在地球上生存繁衍,適應環境,即使在今天,我們的認知也帶有祖先所處世界的印記。正是出於這個原因,索普和比德曼的發現,甚至我們在加州理工學院實驗室的發現才如此引人注目:我們發現,人類幾乎瞬間就能識別出自然圖像,因為正是這種感官刺激——或者說正是數據——塑造了我們。ImageNet將為我們的算法提供同樣的體驗:同樣的廣度,同樣的深度,同樣的錯綜複雜,同樣的壯觀。
我聽到的勸阻之聲已經多得夠我用一輩子了(可能下輩子也夠了),最後我終於遇到了第一位支持者。李凱教授是微處理器架構領域的領軍人物。微處理器架構是一門將數百萬納米級晶體管排列到世界上最複雜的設備中的藝術,因此他比大多數人都更瞭解指數思維的力量。他相信我的方向是正確的。儘管我們都在計算機科學領域,但領域之間沒有太多交集,所以他無法直接為我做出貢獻,但他知道我們需要強大的計算能力才能啟動。他毫不猶豫地為我們的研究捐贈了一套工作站。這正是我所需要的支持。
我和李凱是普林斯頓大學計算機科學系教師中僅有的兩位中國移民。他出生於20世紀50年代,是中國恢復高考後第一批上大學的人,80年代來到美國攻讀研究生。在那個時代,像他這樣的移民寥寥可數,他也很難找到有共鳴的同齡人。這段經歷塑造了他活潑隨和的個性,從他身上,我既能看到我母親的聰明睿智,又能看到我父親的謙遜幽默。李凱看起來就是個普通的教授,黑頭髮,大偏分,衣著樸素。但他笑容溫暖,為人慷慨。我們很快成了朋友。
隨著我對李凱的瞭解日益加深,我越來越明白他為什麼比其他人更看好我的想法。他是高效連接微處理器和巨大內存存儲的先驅,與他人共同創辦了一家公司,把自己的研究成果商業化,最終以20多億美元的價格售出。他不僅是大規模數據威力的早期信徒,也是利用大規模數據的專家。不巧的是,他即將休長假,這縮短了我作為他的年輕同事的時間。不過,他的離開也不完全是壞事。他有一個極聰明的一年級研究生叫鄧嘉,他要給鄧嘉找個新導師。據李凱介紹,鄧嘉是一個完美的合作者,他年輕有為,工程天賦出眾,對新的挑戰充滿渴望。
李凱和鄧嘉在很多方面都截然相反。李凱開朗外向,鄧嘉則內斂穩重。李凱激情四射,鄧嘉則顯得冷漠沉靜。因此我擔心自己難以判斷他對我們的工作是否有興趣。我們進行了幾次交流,我能看出他非常出色,就算沒有李凱的推薦,這一點也是顯而易見的,但我從來沒見過像他那樣大智若愚、不露鋒芒的人。
除了聰穎過人,我也注意到,鄧嘉是計算機視覺領域的新人。他的背景與眾不同,因此他不僅具備一般計算機視覺專業學生難以擁有的工程技能,同時還完全沒有揹負期望的包袱。這個項目不同於傳統的研究項目,甚至可以說充滿風險,與當時的領域潮流格格不入。對於這一切,鄧嘉並不知情。
於是,我們兩人組成團隊,開啟了這個似乎需要成千上萬甚至更多貢獻者的項目。大多數同事對我的假設都不屑一顧。單從理論上講,這一切確實說不通,但這是我人生中第一次感受到一種毋庸置疑的自信。無論需要多長時間,我確信我們正在做一件大事,一件也許具有歷史意義的大事。
我的新辦公室位於普林斯頓大學的計算機科學大樓,雖然已經搬過來快四個月了,但地上依然堆滿了半開的紙箱,牆壁上也空空如也。我靠在扶手椅背上,大聲呼出一口氣,轉了轉椅子。鄧嘉坐在我對面的沙發上——這是我到目前為止為辦公室添置的唯一傢俱。
“好吧,看看我們能不能弄清楚項目規模究竟有多大。”
我們以WordNet為起點,開始進行刪減。雖然WordNet的賣點是規模巨大、細節豐富,但我們知道,其中的大部分內容對我們來說並不必要。ImageNet的目的是捕捉事物的世界,而不涉及動作或描述,因此我們明確了第一批要刪除的內容:所有的動詞和形容詞。但就算只剩下名詞,處理起來也很複雜。像“真相”或“意識”這樣的抽象概念是沒有辦法用影像記錄的,只有指代實體對象的名詞才會被納入數據庫。一般來說,我們需要的是有形、可數的物體。其他詞彙都被刪除了。
總的來說,WordNet中的14萬個條目大部分都被我們刪除了,只剩下可以用圖像表示且可以計數的一小部分,約有2.2萬個,雖然這個數量仍比我聽說過的任何機器學習訓練圖像集都要大很多倍,但與初始的詞彙量相比,已經大幅減少,而且跟比德曼估算的3萬個種類非常接近。
鄧嘉問道:“那多樣性要怎麼處理?每個類別需要多少張不同的圖片呢?”
啊,我心想:現在終於有點兒眉目了。
我說:“那我們從生物學的角度思考吧。孩子是怎麼長大的?我們的物種是怎麼進化的?現實世界非常複雜,對不對?沒有什麼是非黑即白的,一切都在不斷變化,但是我們依然學會了如何理解世界。我們生活在所有這些細節當中,自然而然地就成了專家。”我拿起桌上的馬克杯,“但你問到了數字。那你告訴我,這個杯子在照片裡有多少種不同的外觀呢?”
鄧嘉想了一會兒,回答道:“首先是尺寸不同。杯子在照片裡可能會顯得很大,也可能會顯得很小,這取決於它跟相機之間的距離。”
“你說的沒錯,但我想要一個具體的數字。有多少個不同的尺寸呢?”
他又想了一下,然後聳了聳肩:“那可能是無限多的,對吧?沒有辦法給出具體的數字。”
“又說對了。”我狡黠一笑。鄧嘉完全知道我說這些話是什麼意思,但他願意聽我細細道來,得出結論。“所以尺寸是無限的。還有什麼?”
“光線?杯子可能在明亮的光線底下,也可能在陰影中。還有顏色的區別。什麼顏色的杯子都有,有些杯子上面還有圖案或者文字。”
“很好,很好,那每一個條件會有多少種變化呢?”
“一樣的,這兩種情況都是無限的。”
“我們這才剛剛開始。那角度呢?杯子的把手朝向哪邊?是從上方看還是從正面看?還有遮擋物。杯子前面有什麼東西嗎?是一摞書,還是貓的尾巴?或者是另一個杯子?還有背景。杯子後面是一面牆,還是一扇窗?杯子是在櫃子裡嗎?”
“無限,無限,無限,無限。”鄧嘉總結得相當準確。
我越想越覺得我們的研究具有發展潛力——我們正在嘗試以數據的形式來複制兒童認知的形成階段。我想象著孩子玩東西的方式,他們伸出手去抓、戳、摸索、撥弄。他們把東西拿起來,翻來覆去,從不同的角度觀察,適應光線和視角的變化。他們玩躲貓貓遊戲,瞭解到即使物體被暫時隱藏起來,它們也依然存在。這些都是我們的算法非常缺乏的本能。
“你說得對,但我們還是沒有確切的數字。”鄧嘉邊想邊說,“到目前為止,我們一直在用無窮大乘以無窮大。到底該怎麼辦呢?”
我回答道:“我要說的就是這個,再多的圖像也不夠。不管我們想到一個多大的數字,我們都應該想到它還可以更大,然後還要更大。反正怎麼著都是在猜,那就不如往大里猜吧。”
於是我們確定了一個目標,為每個物品類別蒐集1000張不同的照片:1000張不同的小提琴照片、1000張不同的德國牧羊犬照片、1000張不同的抱枕照片,直到涵蓋全部2.2萬個類別,也就是一共需要大約2000萬張圖片。但即便是這個數字,也只是最終成品數據庫的情況。我們可能需要從數億張照片,甚至10億張照片中篩選,才能達到目標。
鄧嘉面露疑色。“我從理論上能理解,但這個工作量也太大了,屬於天文數字,可不是谷歌搜索幾次就能完成的。”
他說的當然沒錯,但是我們需要擁抱現實,而不是逃避現實。我們的目標是捕捉完整的現實世界。如果這個總數不能嚇到我們,那才奇怪呢。
“鄧嘉,我們希望算法能夠看到的一切事物都存在於這個世界的某個地方。在我們說話的這一刻,就有人在拍攝這所有的細節。現在人人都有翻蓋手機,每個人的聖誕節禮物都是數碼相機。想象一下,如果把所有這些照片都放在一起,我們會看到什麼,我們會看到整個世界的縮影啊!那就是從世界一頭到另一頭的日常生活的全部。”
“就算我們想辦法組織好了圖片,”他補充說,“這些圖像本身也沒有任何作用,對吧?它們需要先標註,才能用於模型訓練,而且每一個標籤都必須是準確的。”鄧嘉暫停了一下,好像才感受到自己說的話有多麼重要,“聽上去又是一個浩大的工程。”
“是啊,是啊。”我回答說,“讓我們一次只創造一個奇蹟吧。”
我和鄧嘉在實驗室一角,看著一排本科生不斷地點擊鼠標、敲擊鍵盤。本週早些時候,我們發出了郵件,招募願意幫忙從網上下載和標註圖片的本科生,工作時間靈活,每小時10美元。我們很快就收到了一些回覆。這看起來很公平:我們朝著機器智能的新時代邁進了一步,而大學生也能賺到一些啤酒錢。一時間,我們感到心滿意足,但沒過多久,現實就給我上了一課。
“鄧嘉,是我的錯覺嗎,還是進展確實有點兒太慢了?”
“對,我也很擔心。我對他們的速度做了幾分鐘計時,計算了一下。”
不妙。
“按照目前的速度,預計ImageNet的完工時間是……”
我用力嚥了一下口水。他注意到了。
“沒錯,差不多要19年吧。飛飛,我很看好這個項目,真的,只是我不能等那麼久才拿到博士學位。”
有道理,鄧嘉。
“那我們該怎麼辦呢?”他問,“再多找些本科生?”
“這當然是一種選擇,但是得花不少錢。如果真要19年的話,我覺得我們實驗室的預算也是不夠用的。”
不管怎樣,顯然我們需要更多的大學生。當年做Caltech 101的時候,招募的大學生勉強夠用,而那次的工作量不過是ImageNet的零頭。看來,我們必須採取新的策略了。
我想到鄧嘉在加入我的實驗室之前,一直在跟李凱研究各種極其複雜的系統,在工作中遵循效率為先的原則,以實現更高的性能、更低的成本、最短的路徑。作為世界上最重要的微處理器設計師之一的門徒,他肯定能想到辦法提高這些大學生的生產力。
“等等,鄧嘉。”我指了指那些大學生,“這是一個流程,對不對?我的意思是,在某種程度上,這不就是一個工程問題嗎?”
他沉思了片刻,然後看了看我,眼神裡流露出準備擼起袖子大幹一場的堅定。
“好吧。”他微微一笑,“那咱們就看看怎樣優化吧。”
接下來的幾個月有了一種節奏感,雖然這節奏感無法用優雅來形容。ImageNet是一隻拒絕被馴服的野獸,每當我們靠得太近時,它就會猛烈反擊。在不懈努力下,我們終於取得了一些勝利——至少是小小的勝利,同時也累積了更多的擦傷和瘀青。但每當我們以為終於把它逼到牆角的時候,它就會發出一聲更低沉、更嘶啞的咆哮,把我們嚇得四下奔逃。
我很幸運,遇到了鄧嘉這樣一個愈挫愈勇的夥伴,他在面臨難題時會加倍開動腦筋。在我們的流程中,人工參與是成本最高的部分,包括時間成本和金錢成本。所以他從成本入手,以“將成本降到最低”為個人使命。例如,當我們的標註員開始為特定類別整理照片時(比如“彭布羅克威爾士柯基犬”),最初我們預計每個步驟都需要手動完成:在谷歌圖片等搜索引擎中輸入關鍵字進行查詢;梳理結果,找到清晰的例子;對每個例子進行標註;將最終選擇的照片放在適當的目錄中。但這些步驟大部分並不需要人類的智慧。
鄧嘉實現自動化的第一個環節就是下載。之前下載圖片,需要標註員手動在圖片搜索引擎輸入WordNet中的每個類別,現在鄧嘉編寫了自動化程序。但由於搜索引擎是為人類用戶而不是為機器服務的,所以不會直接返回一組圖像,而是以滾動縮略圖網格的形式呈現在頁面上。這時,鄧嘉設計的程序就會解析網頁的源代碼,找到鏈接,並下載原圖。儘管這個解決方案有些混亂,但可以讓我們以最快的速度日夜不停地下載候選圖片。我們想要下載多久,就可以下載多久,如果需要的話,連續幾個月都行。下載的圖片會自動整理在我們自己的機器上。
我們的資料庫開始像變魔術一般被圖片填滿。誠然,我們這種廣撒網的方式也撈回了很多垃圾,比如低質量的照片、剪貼畫等,但也積累了大量高清圖片。我們迅速填滿了大量硬盤,現實世界的影像逐漸在圖片中成形,雖然還很粗糙,卻讓我們第一次看到了對整個視覺世界的真實描繪。至少有一段時間是這樣的。
“糟糕。”我聽到鄧嘉在實驗室的另一邊說。
“怎麼了?”
“看上去出了點兒小問題。呃……沒錯,我們被谷歌封禁了。”“什麼?封禁了嗎?為什麼?”
“顯然是他們限制了單個用戶在特定時間段內可以提交的請求數量。據我所知,大約在1000個左右。”
“特定時間段是多久?”
“24小時。午夜開始重置。這算是個好消息。”
“好吧,那我們每天多久會達到請求數量的上限?”
“嗯,這就是壞消息了。”鄧嘉拿出日誌文件,心算了一下,“大約9分鐘。”
大事不妙。
圖片存儲庫的增長停滯了。但我們的問題不止於此。整個流程的上下游極不平衡,甚至有些可笑。我們蒐集的原始圖片呈爆炸式增長,在遭到谷歌屏蔽之前,每天都有數以千計的新圖片添加進來,但其中只有一小部分得到了準確的標註和整理。雖然我們從一開始就知道標註流程將會是一個瓶頸,但隨著時間一週周地過去,這一環節給我們造成的負擔還是讓我們感到氣餒。
我跟鄧嘉在校園的馬太餐廳討論了這個問題。自從ImageNet佔據我的大腦,我甚至覺得做飯都是浪費時間,於是對校園餐廳的依賴與日俱增。此外,沒日沒夜地在實驗室工作,我也很想換個環境。餐廳的天花板很高,吊燈簡樸,彩色玻璃賞心悅目,讓我們覺得彷彿在修道院裡找到了避難所。
我們詳細討論了標註員在識別、分類和標註每張圖片時所遵循的每個步驟,並儘可能使用快捷方式和定製工具來對它們進行簡化。如果一個流程需要點擊三次鼠標,鄧嘉會想辦法實現只需一次點擊。減少打字次數,縮短鼠標移動距離,提高所有操作的速度。在我們交談的時候,我不禁開始仔細觀察桌上的物品,默默猜想它們是否屬於我們那2.2萬個類別。“餐巾”這一條目自然在列,但我們區分佈餐巾和紙餐巾了嗎?那是一把什麼刀?除了“牛排刀”和“黃油刀”,還有多少種刀呢?“切肉刀”,我猜。“麵包刀”?也許吧。仔細一想,確實有很多。這些我們都涵蓋了嗎?我在心裡默默記下,打算回到實驗室後再確認。
“對了,飛飛,你知道什麼是動態IP嗎?”鄧嘉又拿出一個錦囊妙計。
“可以把動態IP看作是我們的機器連接谷歌服務器的中間環節。我們的實驗室計算機保持不變,但動態IP會將我們與不斷變化的中間商連接起來,這樣谷歌就會認為那些搜索請求來自不同的用戶。”
“這樣我們就不會超過限額了?”
“遠遠不會。”
我們重整旗鼓,至少在一定程度上恢復了工作。標註依然是個問題,但看到備選的圖庫規模持續增加,我還是長舒了一口氣。現在,就算是小小的勝利也值得慶祝。
幾個月過去了,ImageNet已深深植根於我的內心,成為我觀察一切事物的鏡頭。無論是在實驗室工作,還是在院子裡散步,我都偷偷玩著視覺識別遊戲。如果有人在遛一種我不認識的狗,我會想,是不是應該專門為這種狗建立一個子類別?騎獨輪車的學生可能讓我想到數據庫裡是不是沒有“獨輪車”這個詞,更不用說不同種類的獨輪車了——說到這個,有不同種類的獨輪車嗎?父親喜歡的車庫市場經歷成了我的世界。一切都被放大到難以理解的程度,但其精神是一脈相承的——永不滿足的好奇心,對新奇事物的渴望。我好奇我們家族是不是有這種基因。
奮鬥繼續,每走一步都是為了應對新的難題。我們發現特定類別的搜索結果過於相似,無法滿足我們多樣性的目標。於是,我們使用WordNet的國際翻譯來提交不同語言的查詢,希望來自世界各地的圖像能夠帶來更大的差異。當找不到足夠的圖片時,我們就會在搜索詞中添加相關術語,比如,不是搜索“柯基”,而是搜索“柯基小狗”或“柯基犬公園”。後來,搜索引擎巧妙地重新設計了搜索結果頁面的佈局,改變了每個圖片鏈接的位置,導致鄧嘉的一個自動下載程序無法繼續使用,於是我們重新編寫了與之匹配的程序,並開始定期檢查是否發生了類似變化。
對一年前還在設計微處理器架構的鄧嘉來說,這些都是非常平淡無奇的工程挑戰。儘管如此,我們兩個都知道努力是有意義的。它們可能只是權宜之計,過於簡單,甚至粗糙,但每解決一個問題,我們都離自己的願景更近一步,這個願景就是讓機器看到一個完整的世界;我希望在不久之後,機器甚至可以理解這個世界。
“斜管麵嗎?”我問。
“說對了!”西爾維奧把一碗熱氣騰騰的意大利麵放在我的面前,高興地回答道。
“等等,我們上週吃的那種叫什麼?也是管狀的,但更大,而且邊緣不是斜切的。”
“那是粗通心麵。”
“沒錯!粗通心麵。那個我也喜歡。”
“你這麼問,是因為你真的對我們國家的食物感興趣,還是因為你在想ImageNet裡的意大利麵的類型夠不夠多?”
我趕緊吃了一口面,對他的問題避而不答。而他則坐下來,雙臂交叉,顯然對自己的偵探技巧頗感自豪。
“不能兩者兼有嗎?”我最終回答道。
做ImageNet已有一年時間,我感覺我們已經步入正軌。有了標註團隊的工作,還有鄧嘉在不斷努力優化標註流程,我確信我們已經有所突破。我很好奇進展如何,而鄧嘉知道我的想法(他經常能知道我在想什麼)。
“你在想我們多久能完成ImageNet?我已經重新預估時間了。”
我正準備問他這個問題。於是我興奮地跑到他的辦公桌前。
“好的,如果我們把所有因素都考慮在內:我們所有的優化和快捷方式,再加上已經標註的圖片,我們已經設法將19年的預計時間縮短到……”
我突然失去了勇氣,因為我預感結果會很糟糕。
“……大約18年。”
鄧嘉雖然才華橫溢,但巧妙地傳達壞消息、減輕它對人的打擊並不是他的技能之一。這麼久以來,我第一次不知道接下來該怎麼辦了。
絕望激發了一種巴洛克式的創造力——當處境之慘淡變得越來越難以忽視時,我們想出了各種各樣的點子,確實顯得有些慌不擇路。我們甚至想用機器來輔助我們的人工標註員。當然,這裡涉及一些循環論證:如果算法能夠足夠準確地識別物體、幫助我們進行標註,那麼我們壓根兒就不需要ImageNet了。然而,我們也想知道如果讓機器扮演輔助角色,是否會帶來一些便利。例如,我們可以讓機器利用我和彼得羅開發的單樣本學習技術,粗略但快速地標註大量圖像,這樣人工團隊就可以更多地扮演編輯或校對的角色。這樣做雖然有一定的道理(道理不多,且有待商榷),但我們始終未能找到合適的平衡點。
更重要的是,反對標籤過程自動化的真正原因並不是在技術層面,而是在哲學層面。我們意識到,即使是微妙的算法捷徑,也與ImageNet的使命背道而馳。我們的目標是在每幅圖像中都嵌入純粹的人類感知,希望在整個圖像集上訓練出來的計算機視覺模型也能迸發出類似人類的智慧火花。使用機器可能會削弱這一點。
如果人力是瓶頸,而我們又無法再繼續減少人工參與,那麼我們剩下的唯一選擇似乎就是蠻幹:擴大我們的標註員團隊,把預計完成時間從近20年縮至更短的期限。也許只需要增加10倍的人手——考慮到已經完成的工作,這樣可能在一年半內就能達到目標。然而,我們的資金根本就不夠。在投入瞭如此多的感情之後,最後竟然因為錢的問題而做不成,想想就令人憤懣。
“嗯。”我說,身體向後一靠,抬頭盯著實驗室的天花板。我突然有了一個想法。一個奇怪的想法。
“怎麼了?”鄧嘉從他的工作臺上抬起頭。
“我也說不準。我倒是能想到怎麼可以籌到一些額外的資金,雖然不多,但聊勝於無。這絕對是萬不得已的辦法。”
“我聽著呢。”鄧嘉說著,湊近了一點兒。
我深深地陷進椅子裡,緩緩地呼出一口氣。我簡直不敢相信自己即將說出口的話。
“你對乾洗瞭解多少?”
我把遮光板翻下來,眯起眼睛看著夕陽。當車輛以每小時110千米的速度行駛時,視野會有些模糊,但看到的東西依然非常豐富。反光柱和里程標從我們的右側飛速閃過,周圍是瀝青路面上的裂縫、岩石碎片,偶爾還有塑料瓶或皺巴巴的快餐袋。各種各樣的標誌呼嘯而過,提醒我們注意限速、高速公路出口快到了,或者感謝一神論教堂的當地分會對下一千米道路的維護。車牌和保險槓貼紙。一隻狗坐在副駕駛座上。
我們正在前往明尼阿波利斯的路上,2007年的計算機視覺與模式識別大會(Conference on Computer Vision and Pattern Recognition,CVPR)就在那裡舉行。隨著我們的現金儲備不斷減少,ImageNet已經岌岌可危,但有傳言稱實驗室之外的世界依然存在,人間已是美麗盛夏。這次會議給我提供了一個完美的逃避藉口。我租了一輛廂式車,載著實驗室的幾個學生前往參會。我期待著在這近2000千米單調而幸福的旅途中,可以暫時把工作放到一邊,思考一些其他事情,任何事情都好。在接下來的幾天裡,我們唯一需要關心的事情就是吃飯、上廁所,還有聽哪個電臺。
可惜,沒有什麼能夠阻止我對視覺世界的痴迷。我們開車穿過森林,我就忍不住好奇我們路過的是什麼樹,是楓樹、白蠟樹,還是白樺樹?我們看到了麥迪遜這樣的大學城,霓虹燈招牌閃爍,人行道繁忙,一個戴墨鏡的學生躺在長凳上,三人樂隊正在賣藝,一個彈木吉他,一個彈立式貝斯,還有一個在吹口琴。我們穿過熙熙攘攘的城市,幾何造型的摩天大樓高聳入雲,外牆反射著太陽的光芒。我們沿著五大湖行駛,不知道眼前這個是伊利湖還是密歇根湖,太陽照在水面上,浮光躍金,浪花拍打著岸邊,孩子們追逐著潮水來回嬉鬧,一對夫婦在沙灘上玩飛盤。
我再次想起了父親。最近我常常想到他。他會在舊貨攤之間徘徊,仔細檢查二手面包機或錄像機,他的痴迷沒有止境,他的喜悅充滿感染力。我不禁好奇自己的臉上是否也有同樣的表情。
我想,生活中需要了解的東西太多了。很多東西都是通過眼睛看到的,但我的直覺和內心也都感受到了。ImageNet可能註定要失敗,但無論結果如何,這個項目的目標都是值得追求的。遲早會有人破解難題。當他們成功的時候,當整個世界連同它所有的色彩、混亂和世俗的魔法都湧進我們機器的思想中時,一切都將改變。
“飛飛,你現在有自己的實驗室了,最近在忙什麼呢?”
這是我最害怕聽到的問題,但這個問題來自吉滕德拉——彼得羅的導師,也是我的“師爺”,他是我此行最想遇到的人。我們已經好幾年沒有面對面交流了,我知道他會出席計算機視覺與模式識別大會這樣的活動。ImageNet項目停滯不前,我的學術生涯前途渺茫,我需要見見熟人。他也不是第一次在這種場合鼓舞我的鬥志了。
“說實話,吉滕德拉,這個話題有點兒讓人鬱悶。”
“哎呀。”
我把一切都如實告訴了他:我和克里斯蒂安的談話,第一次見到WordNet時的情景,我和鄧嘉所做的決定——每個決定都比上一個更艱難,以及這一年來我們為實現一個不可能實現的目標所經歷的苦苦掙扎。
“還真曲折呀。”他回答道,語氣一反常態地平淡。如果他對我目前介紹的進展情況有什麼意見的話,他會選擇閉口不談。
“是的。最糟糕的是,這一切歸根結底是個後勤問題,而不是科學問題。我始終確信,ImageNet正是計算機視覺所需要的,要是我們能把這玩意兒搞出來就好了。”
“飛飛……”他開始小心翼翼地組織語言,“當然,沒有人會不認同數據起著一定的作用,但是……”他停頓了片刻,然後繼續說道,“坦率地說,我覺得你們在這個想法上投入得過多了。”
我淺淺地吸了一口氣。
“科學的訣竅是跟隨著你的領域一起成長。不要太超前。”
這真是出乎我的意料。吉滕德拉竟然站在反對者的一邊,讓我深受打擊。這種打擊不僅僅是在個人層面:等到我將來需要請人寫終身教職推薦信的時候,我原本計劃請他做我的推薦人之一(雖然在這樣巨大失敗的陰影籠罩下,能獲得終身教職的可能性已經變得非常渺茫)。出於多方面的原因,他的觀點很重要。
我幾乎可以看到我的北極星在逐漸暗淡下來,我的道路又陷入了黑暗之中。一個可怕的想法開始在我心頭升起:我承擔的風險比我意識到的更大,而現在回頭已經為時太晚。
在計算機視覺與模式識別大會之後的幾個月裡,我都不知道應該如何處理ImageNet。要擔心的事情有很多,但我總會想起鄧嘉。他進入計算機視覺領域時才氣過人卻又稚氣未脫,他信任我,讓我擔任他的導師。現在,我能感覺到他的挫敗感越來越強,我知道他在擔心自己的博士之路,我完全能理解他。我還記得自己在研究生時期的種種掙扎,一想到現在要把自己的學生引入歧途了,我的胃裡就陣陣難受。
當然,科學研究上的挫敗也同樣令人痛苦。在經歷瞭如此漫長的旅程之後,我無法接受我的直覺居然導致了錯誤的道路。我們突然失去了方向,彷彿頭頂上是一片空蕩蕩的天空,在黑色波浪中漂泊。
然而,一切都還沒有結束。
“打擾一下,飛飛。”
我正在趕去教職工會議的路上,馬上就要遲到了,一個叫孫民的研究生突然出現在我面前。他能看出我在趕時間,但他看上去非常想要跟我聊聊,說話的時候甚至顯得有些不安。
“請問你現在有空嗎?”
他沒等我回答。我對他比較瞭解,知道他說話時一般都是輕聲細語的。看他今天的表現,顯然是有大事壓在心頭。
“昨天我跟鄧嘉在一起,”他繼續說,“他跟我說了你們在項目標註問題上遇到的麻煩。我有一個你倆還沒試過的辦法,真的可以幫你們提高速度。”
我立刻忘記了自己還在趕時間,耳朵豎了起來。鄧嘉還有社交生活?
孫民問道:“你聽說過眾包嗎?”
他解釋說,在線平臺可以將任務分配和結果收集過程自動化,有效組織遠程的臨時工作團隊,規模小到個人,大到數百萬人的團隊。“如果你感興趣的話,亞馬遜就在提供這種服務,叫作‘土耳其機器人’。”
這個名字很妙,源於18世紀的一種會下國際象棋的自動機器“土耳其機器人”。當時,這個機器人在世界各地巡迴展出,被視為一個工程奇蹟。它棋藝高超,就連國際象棋高手也甘拜下風。但實際上這個裝置純屬騙局:在機器人底座裡就藏著一個人類國際象棋大師,正是這個人在操控機器,讓觀眾既興奮又困惑。
幾個世紀後,新興的眾包實踐基於同樣的理念:真正的智能自動化仍然最適合由人類來完成。亞馬遜土耳其機器人(Amazon Mechanical Turk,AMT)圍繞這個概念建立了一個市場,“請求者”可以發佈“人類智能任務”,由貢獻者完成,這些貢獻者被稱為“土耳其人”(Turker),他們可能來自世界上的任何地方。從理論上講,這個模式很合理,似乎可以提供我們想要的一切:既有人工標註圖片帶來的智慧成分,又有與自動化相當的速度與規模。有趣的是,亞馬遜稱之為“人工人工智能”,這個名字相當貼切。
我急匆匆地穿過走廊找到了鄧嘉,但他並沒有像我這般興奮。在經歷了種種挫折之後,他有充分的理由對再次碰運氣保持警惕。但在經歷了這一切之後,他可以看到,這真的可能是我們一直在等待的救命稻草。他看起來既猶豫又寬慰。最終他同意了:亞馬遜土耳其機器人值得我們再試一次。
我的北極星開始重新閃耀,我不禁再次感嘆時機的重要性。ImageNet之所以能夠存在,要歸功於互聯網、數碼相機和搜索引擎等眾多技術的融合。現在,一個一年前還幾乎不存在的平臺提供的眾包服務,成為讓我們的項目臻於圓滿的關鍵因素。這件事就是最好的例證,它讓我深刻了解到,任何一個科學家的默認立場都應該是絕對謙卑,他們應該明白,沒有哪個個體的智慧能有意外之力的一半強大。
亞馬遜土耳其機器人改變了一切。它把我們起初的大學生標註員隊伍變成了一個由數十人、數百人、數千人組成的國際團隊。隨著我們獲得的支持不斷擴大,鄧嘉給出的預計完成時間急劇縮短,先是15年,然後是10年、5年、2年,最後不到1年。這為我們提供了全新的視角來看待預算,徹底顛覆了ImageNet的成本效益。曾幾何時,我們的預算只能招到幾個標註員,連一個房間都站不滿,而現在足以聘請一支遍佈全球並通過互聯網連接的眾包團隊。
在這個過程中,我開始越來越多地利用我在實驗心理學方面的經驗,幫助鄧嘉創建一套系統,既可以最大限度地利用標註員的時間和注意力,又能儘可能地減少他們被誤導、困惑或被操縱系統的機會。有時,土耳其機器人感覺就像我和克里斯托夫在加州理工學院做的人類心理物理學實驗,目標是從陌生人的感知中提取微妙但重要的信息,只不過現在將範圍擴大到了全球。在某些方面,工作難度降低了:我不需要去閱讀別人的想法,而只需要把正確的標註應用到我們批量下載的圖片上。然而,與此同時,工作也複雜多了:標註圖片看似簡單,但在實際操作上,卻需要從數以萬計的預定義列表中精確選出正確的類別。
然而,並非所有挑戰都是技術性的。還有一些人文問題,比如人們對眾包可能具有剝削性的擔憂。雖然這種可能性直到多年後才引發廣泛討論,但即使在當時,也很難避免這種思考。這種反思促使我們在資金允許的情況下,為每張圖像支付儘可能多的費用。ImageNet是一項純粹的科學研究項目,無須考慮利潤問題,這讓我們做決定變得容易很多。
對相關問題的研究也令人振奮,至少在當時是這樣。2007年亞馬遜土耳其機器人的一項人口統計發現,大多數貢獻者將這項服務視為一種愛好或副業收入,而不是謀生的主要手段。當然,隨著零工經濟在後來幾年的興起,情況變得複雜很多。如今,已經很難將大數據的力量與其人力成本分離開來。
就這樣,每天都有成千上萬張新圖像被標註出來。在ImageNet發展的高峰期,我們是土耳其機器人平臺上最大的僱主之一,這一點從我們每月的服務賬單上也能看出。成本的確很高,但效果也很顯著。
然而,我們的預算困境還沒有結束。雖然土耳其機器人價格合理,但ImageNet規模實在太大,所以我們很快發現自己再一次接近預算極限。從嚴格意義上講,我們知道我們有能力完成這項工作,但我們不能排除可能發生的附帶損失。ImageNet可能是我們最大、最昂貴的單個項目,但它遠不是唯一的項目;我們同時還在繼續研究算法,研究生和博士後都在探索識別照片中物體,甚至是在視頻中識別人類動作的新技術。每位研究人員都享有生活津貼,我們在提供津貼的同時,還為每個實驗室都準備了額外的現金,以備不時之需。ImageNet比以往任何時候都更接近完成的目標,但在這個過程中,它也把其他項目都推向了邊緣。
在兩年多的時間裡,我們的財務狀況一直岌岌可危,那是一段痛苦的日子,哪怕是路途中的一個小顛簸,都有可能讓我們人仰馬翻、一蹶不振,但ImageNet日臻完善,終於成為我和鄧嘉一直憧憬的研究工具。我們實驗室自然是第一個將其投入使用的。即使是在未完成的狀態下,它的影響力也讓我們備受鼓舞。完工在即,我們不再需要依靠想象力;大家第一次清楚地意識到,我們正在創造一個值得與全世界分享的東西。
在那段時間裡,我工作之外的生活異常穩定。母親的健康狀況如預期中一樣繼續惡化,但自她從乾洗店退休後,就再也沒有遇到過我們一直擔心的那種令人心驚肉跳的危機。她甚至還培養了業餘愛好,對攝影產生了濃厚的興趣。父親的生活方式也變得更加休閒,多年來第一次可以自由地享受烹飪的簡單樂趣。我和西爾維奧之間的距離仍然讓我們感到困擾,但我們在安阿伯和普林斯頓之間已經往返太多次,幾乎形成條件反射了。事實上,由於西爾維奧每次來看我都是同一個路線,後來連飛行員都認得他了。
我還開始不定期地前往舊金山灣區,拜訪斯坦福大學的機器學習和計算機視覺先驅,其中包括吳恩達(Andrew Ng)、達夫妮·科勒(Daphne Koller)和塞巴斯蒂安·特龍(Sebastian Thrun)。我們見面時會先進行友好的思想交流,他們會對ImageNet給予肯定(這類對話為數不多)。不過,就像幾年前在普林斯頓大學時那樣,對話很快就會變得更加正式。最後,我接到了計算機科學系主任比爾·達利(Bill Dally)的電話,他代表了官方的意見,詢問我是否有興趣把實驗室搬到加州。
我在普林斯頓大學做教師尚不到三年,無法想象在此時另謀職業。但我從來沒有親身體驗過斯坦福這樣的大學,也沒有經歷過硅谷這樣的地方。我在新澤西州的一個移民社區長大,之後幾年一直隱居在學術界,除了中餐館和乾洗店,我對商業世界知之甚少。相比之下,斯坦福大學處於科技行業的核心地帶,我們研究探索的想法在這裡得到了全球範圍的實踐。雖然我個人對進入這個世界並不渴望,但斯坦福大學給這個世界帶來的影響力給我留下了深刻的印象,惠普、思科、太陽微系統、谷歌等眾多公司都與這所學校有著千絲萬縷的聯繫。我在這裡遇到的每個人似乎都被觸及真實人類生活的可能性激勵著。
儘管如此,對於搬到灣區這件事,我的內心還是非常矛盾。普林斯頓大學對我的職業生涯的幫助比其他任何學校都要大。在我高中畢業時,普林斯頓大學通過一攬子經濟援助計劃,在一個下午就改變了我的人生,每次回想起來都讓我感動不已;然後它又給了我第二次機會,讓經驗尚淺的我擔任助理教授,還為我提供了自己的第一個實驗室和第一個博士生,讓我有機會與我熱愛和敬重的同事們一起成長。
我還要考慮一些人,而且比以前考慮得更多。父母的需求把我推向了一個方向,因為在帕薩迪納的生活表明,西海岸的氣候對母親來說更為溫和。但對薩貝拉一家的思念又把我推向了另一個方向。他們不再是我的“美國”家人,而是我真正的家人。一想到我們又要遠隔幾千千米(這次也許是永遠分開了),我就非常心痛。西爾維奧介於兩者之間,不管怎樣,他都會留在密歇根,只是我搬到加州會讓我們異地婚姻的距離更遠。
然而,如果僅是以一名科學家的身份來做決定,那就簡單多了。我處於迅猛發展的年輕領域,這個領域有希望在我的有生之年改變世界。我在斯坦福大學遇到的人同我一樣,由衷地相信這一點。普林斯頓大學讓我有家的感覺,但我不能否認,斯坦福大學似乎更適合我的研究。事實上,我想得越多,就越擔心像“家”一樣舒適的地方在這種時候可能會過於安逸。搬到一個新地方之所以吸引我,正是因為那裡不舒適。它會讓我感到不確定,甚至可能有些冒險,而我就需要這種感覺。
於是,在2009年,我決定再次前往西部,鄧嘉和我的大多數學生也跟隨我轉學。斯坦福大學成了我們新的學術家園,它的面積之大足以讓普林斯頓大學和加州理工學院相形見絀。由砂岩、拱門和自行車道構成的獨特建築風格非常引人注目,校園幾乎終年都沐浴在陽光下。在這一切的背後隱藏著一個歷史悠久、根基深厚的世界,雖然當時很少有人提及,但與我的工作息息相關,甚至連我自己都尚未完全領會。這個世界比機器學習更重要,比計算機視覺更宏大。這是一個幾乎被人遺忘的世界,曾經囊括了機器學習、計算機視覺以及眾多其他領域,它就是“人工智能”。
作為斯坦福大學的新教授,我遇到了很多人,其中就有當時的大學教務長約翰·埃切門迪(John Etchemendy)。當時我已經認識了很多管理者,但我一眼就看出約翰與眾不同。他是一位哲學家和邏輯學家,在加入管理部門之前,已經擔任教授數十年,講授符號學、邏輯真理和語言哲學等課題。他極其聰明,似乎不經意間就能散發出智慧的光芒,同時也很友善,是個出色的傾聽者。當他隨口提到約翰·麥卡錫時,我的心跳漏了一拍——約翰·麥卡錫是人工智能的奠基人之一,也是達特茅斯暑期項目的主要組織者,“人工智能”一詞就是從這個項目而來。
他說:“你知道,約翰是我的一個朋友。”
我不確定哪個更離奇:是我的新教務長與這樣一位傳奇人物私交甚篤,還是他如此淡然地提及此事。無論是哪一個,我都覺得自己來對了地方。
2009年6月,ImageNet的初始版本終於完成了,這在很大程度上得益於斯坦福大學提供的新研究資金。儘管我們一路上遇到了許多挑戰,但我們最終成功達成了目標:收集了1500萬張圖片,涵蓋了2.2萬個不同類別。這些圖片篩選自近10億張候選圖片,並由來自167個國家的4.8萬多名全球貢獻者進行了標註。ImageNet不僅在規模和多樣性上達到了我們多年來夢寐以求的水平,還保持了一致的精確度:每張圖片都經過了手工標註,並在層次結構中進行了組織,經過了三重驗證。
從數量上看,我們已經實現了既定目標,建立起了當時人工智能史上最大的人工編輯數據集。但在這些數字之外,最讓我感動的成就是我們所構建的真實世界本體。這個本體是人類從零開始策劃的,既包含視覺圖像,又能傳達邏輯概念,其唯一的目的就是教導機器。
2009年的計算機視覺與模式識別大會在邁阿密舉行,我們不僅是參會者,也是演講者。邁阿密熱浪襲人、色彩絢麗,從我們踏出行李提取區的那一刻起,就發現這座城市果真名副其實——霓虹色泳裝、鋥亮的跑車、高樓大廈在綠樹藍天的背景下交相輝映,周圍的聲音充滿了節奏感。外部環境的活力反映了我們內心的急不可耐;在經歷了近三年的跌宕之後,我和鄧嘉都迫不及待地想向世界展示ImageNet。
我們已經準備就緒。這個項目的孕育過程異常漫長,給了我們充足的時間來磨鍊我們討論項目的能力,我們急切地想把這項技能付諸實踐。長久以來,即使簡單提及我們的工作,也會引發極端化的聽眾反應,因此,無論聽眾的反應是好奇、困惑,還是牴觸,我們都早已習以為常。我們做了相應的準備,反覆練習如何慷慨激昂地為自己的目標辯護,並準備好了最佳回答來應對最常見的批評意見。雖然我們意識到自己可能已經在風口浪尖上,但我們還是想揮霍項目預算的最後一點兒錢,進一步自我宣傳。
“這是什麼?”當我把一個白色紙箱遞給鄧嘉時,他問道。
“打開看看!”我說。
他撬開固定蓋板,往裡面看了看。“呃……是筆嗎?”
“是印有ImageNet標誌的筆!我在網上定做的。”
“我的意思是,看著挺酷的,但這些筆是做什麼用的?”
“我們可以在會議上發放!所有的科技公司都是這麼做的。商品推介都是採用這種方式。我們需要人們記住我們。”
鄧嘉的表情不知為何比平時更加茫然。但我毫不氣餒。
作為一個過度勞累的書呆子團隊,我們拿出所有自信來到會場,然而氣氛從一開始就顯得怪異。我們遇到了第一個也是最嚴重的挫折:ImageNet被降級為“海報展示”。所謂的“海報展示”是一個學術術語,意味著我們將不能按照預定的時間在演講廳內向聽眾展示我們的工作,只能在會場的指定區域裡擺放一幅印有項目摘要的大幅海報,希望能引起路人的興趣。當然,在計算機視覺與模式識別大會這樣的頂級盛會上,就連海報展示的機會也非常難得,我們能夠參與其中就已經很幸運了,但我們還是渴望有機會能夠充分展示我們的願景,而不僅僅是簡單介紹。經過這麼多年的努力,卻只有一個這麼潦草的環節,不禁讓人感覺高開低走,大失所望。
我們回答了一些常見問題,也進行了幾次愉快的交談,但最終的成果卻微乎其微。我們很快就明白了,無論ImageNet的前景如何(是被當作豐富無比的資源受到歡迎,還是被當作愚蠢的項目棄之不用),在這個大會上都無法得到推動。但好的一面是,這些定製的筆似乎還挺受歡迎。
與此同時,當我重新適應了沒有ImageNet挑戰的生活時,我多年來一直拒絕承認的疑慮比以往任何時候都更加真實。那些反對者是對的嗎?這一切真的是在浪費時間嗎?ImageNet不僅僅是一個數據集,甚至也不僅僅是一個視覺類別的層次結構。它是一個假設、一個賭注,它受到我們自身生物學起源的啟發,即實現真正機器智能的第一步,是沉浸在完整的視覺世界中。與我們自身進化過程中的混亂和複雜性相稱的體驗,可能會對我們的算法產生類似的影響。這個賭注既可能被證明是對的,也可能被證明是錯的,對於這兩種可能性,我都做好了準備。無論是哪種結果,都會是一個學習的機會。然而,我萬萬沒想到,它被忽視了。
我錯過了什麼?