Everything
深度學習革命已經到來,而我們還沒有做好準備。報紙上的一篇文章讓我看到了世界變化之快。我們的對手不是其他大學的某個神秘研究團隊,而是谷歌。
“哎呀,有點兒嚇人。”
這個學生說得沒錯。燈光閃爍了幾下後,照亮了整個大廳,奇特的幾何圖形瞬間映入眼簾:一排排廢棄的陰極射線管顯示器擺放在地板上,似乎已深鎖在黑暗中多年,不知是準備存放起來,還是要送去回收。整個大廳看上去像一個巨大的古董壁櫥,塵封已久,無人問津。很難想象這裡曾是學術要地。在2013年年初的一個普通的下午,我們手提垃圾袋,推著小推車,來到了世界聞名的斯坦福大學人工智能實驗室曾經的中心實驗室。
幾十年來,曾經大膽自稱“人工智能”的領域已經分裂成許多細分的學科,其中許多學科的命名拋卻了其認知根源,轉而使用更機械化的術語,比如模式識別(pattern recognition)和自然語言處理(natural language processing)。在這個過程中,對中心實驗室的需求逐漸消失。當然,人工智能中心實驗室仍在支持重要的工作,包括在自動駕駛汽車和計算生物學取得的開創性成就,以及在針對現實世界現象的建模方面,關於概率和統計的新創意出現爆炸式增長。但斯坦福大學人工智能實驗室與其支持的研究之間的聯繫更像是一種形式,而不是其全盛時期的共同使命。
然而,突然之間,人工智能的寒冬開始消退。神經網絡等靈活的算法重新煥發生機,真正的大規模數據集橫空出世,AlexNet展示了算法和數據集在實踐中的強大威力。這些曾經只有我最親密的同行才會關心的發展趨勢正在成為熱門話題。我們的研究領域似乎正在走向統一,只是這面統一大旗的名稱略有不同,是一個熱度與日俱增的流行說法——機器學習。
起初,變化的跡象非常微妙,比如我和同事們開始收到更多媒體採訪的請求。然而,最明顯的變化是,越來越多的科研人員被科技產業吸引,一些人完全離開了學術界,前往硅谷發展,最初的涓涓細流正在加速形成滔滔洪流。其中有兩個離職的人格外值得一提,因為正是他們在一夜之間改變了我的生活。
一個是塞巴斯蒂安·特龍。因為他的離職,我和西爾維奧終於有機會實現一直渴望的全家團聚。五年的兩地分居雖然辛苦,但我們突然意識到,這五年的辛苦是值得的:在我追逐ImageNet的同時,西爾維奧已經成為3D感知算法開發領域的領軍研究者,而這也是我們系非常感興趣的課題。在塞巴斯蒂安·特龍離開斯坦福大學,去幫助谷歌啟動其迅速成長起來的自動駕駛項目時,西爾維奧憑藉自己的聲望成為填補特龍職位的熱門人選。
出於顯而易見的原因,我並沒有參與對西爾維奧的招聘談話,但西爾維奧在我心中的種種優點也都被同事看在眼裡;他以壓倒性優勢獲批成為斯坦福大學教師隊伍的新成員。一個決定結束了我們長達五年、每週一次的跨州飛行,我們終於不用分居兩地又共同撫養蹣跚學步的孩子了。母親的身體一直不好,這意味著父母很可能會一直跟我和西爾維奧生活。毫無疑問,他回來後,家裡會比以往更加擁擠,但這個代價微不足道。
另一個則是長期兼顧教育和硅谷領導職務的吳恩達,他卸任了斯坦福大學人工智能實驗室的主任一職。在許多資深同事的支持下,我接任了實驗室的第七任主任,也是首位擔任這一職務的女性。於是,我聯繫了電子產品回收專家,並安排了一系列會議(會議提供免費午餐,以此來吸引我的教授同事們參加),著手重建斯坦福大學人工智能實驗室。我對實驗室的定位不僅是融資渠道,還希望將其打造成人工智能研究領域的社會活動中心、人際交往中心,乃至文化中心。
從普林斯頓大學來到斯坦福大學之後,我也一直在管理著自己的實驗室。我的實驗室名為斯坦福視覺與學習實驗室,規模較小,位於蓋茨計算機科學大樓二樓的東南角,靠近大學校園的邊緣,與周圍帕洛阿爾託的山丘融為一體。無論日程表上是否有安排,我都喜歡來這裡轉轉。每個辦公室似乎都有一群新學生,我都至少能找到一兩個有空的學生聊上幾分鐘,談談他們的研究和一些漫無邊際的設想。
對我來說,有一件事意義重大:我的第一批博士生即將畢業,其中包括耐心非凡的鄧嘉同學。在完成ImageNet之後,他身上的創新之火一直在熊熊燃燒,而現在距離獲得博士學位還有幾個月的時間,他的熱情似乎越發高漲。他的風格也代表了整個實驗室的狀態:精神煥發、全神貫注、渴望探索。
然而,這也意味著鄧嘉的研究變得越來越前沿,越來越辛苦。隨著他自身學術研究的廣度和深度不斷擴展,顯然是時候找一位繼任者來承擔競賽的主要組織工作了。在我們實驗室工作了一年的奧爾佳欣然接受了這一重任。從本質上看,我們的競賽既是技術挑戰,也是學術活動,而奧爾佳不僅悉心管理競賽的諸多運營細節,還將自己打造成了一位能力超群的競賽代言人。
與此同時,新一屆學生加入了實驗室,他們的迫切之情與老生的鎮定自若形成了鮮明的對比。由於ImageNet的成功,實驗室吸引了一批特殊的年輕思考者。他們是在人工智能復興時期就開始研究相關學術的首批學生,趕上了難得的際遇。他們已經足夠成熟,能夠認識到歷史正在被創造;同時也足夠年輕,可以在職業生涯起步時就抓住機會。
他們每個人都密切關注行業的最新進展,無論是通過網絡、電視,還是在大廳漫步或與教授閒聊時偶然聽到的談話。這一切都預示著,未來似乎提前幾十年到來了,這個時代為他們提供了超越以往任何時代的機遇。有史以來第一次,計算機視覺專業學生的抱負不再是爭奪分散在全美各地的少數幾個令人垂涎的教職職位,而是進入科技行業工作,加入初創公司或科技巨頭。
在我們這樣的學術領域,如此讓人激動、回報優厚的前景並不常見。但我們的行動表明,即使是新入行的人,動機也並不複雜:面對綿延不絕的未知世界的地平線,我們從未像現在這樣渴望探索。我們被雄心無限的創造力驅使著,夜以繼日,廢寢忘食。全球各行各業必然已經有了各自的ImageNet計劃,會以此為基礎開發許多應用程序,但我們知道那是他們的道路,不是我們的。北極星仍在遠方。我們的科學研究還沒有結束。
鄧嘉正在分享如何用一種創新方法解決圖像分類失敗的問題,他的幻燈片讓實驗室裡爆發出陣陣笑聲。這個主題乍看之下並不搞笑,但為了干擾算法,他用Photoshop設計了一些怪物,它們有的古怪可愛,讓人啞然失笑,還有的讓人膽戰心驚,有的長著斑馬條紋和公羊角的袋鼠、從海浪中冒出的一直長著鯊魚牙齒的小貓,還有一隻皮膚上長滿西瓜紋的河馬。然而,真正讓大家捧腹的是此時屏幕上出現的圖片:一隻鴨子的身體上長著一顆完整的鱷魚腦袋,安靜地站在公園裡,兩條小細腿看上去毫無負擔,就像希臘神話中的怪物被改編成了兒童讀物。鄧嘉不為笑聲所動,繼續自己的演講。他解釋說:“我管這種動物叫‘鴨鱷獸’。”他的語氣如此平淡,我甚至懷疑他是否真的相信這種物種的存在。“喬恩說這是‘鱷鴨’。不過,最重要的是看我們的模型如何對其進行分類。”他再次點擊鼠標,這隻鴨子和爬行動物的混合體上方出現了算法的描述,只有一個詞:“動物”。
這個標籤又引來了大家的一陣鬨笑,但鄧嘉依然不動聲色,這是他的典型風格,低調而出彩。此次演講以他最新發表的論文為基礎,論文題目叫作《賭注對沖:優化大規模視覺識別中的準確性和特異性權衡》,由他與即將畢業的博士生喬恩·克勞斯(Jon Krause)合作完成。他們在論文中指出,即使是最先進的圖像分類器,也面臨一個日益增長的挑戰,即需要在面對模糊不清的物體時做出明智的判斷。事實上,雖然“鴨鱷獸”無法被準確分類,但他們的模型並沒有貿然做出肯定錯誤的猜測,而是順勢退而求穩,直接給出了更安全的“動物”分類,這就是模型的高超之處——畢竟,拋開奇怪的細節不談,它看起來確實像是某種動物。
這項工作提醒我們,儘管我們的研究主要集中在視覺方面,但語言描述也是不可或缺的一部分。畢竟,沒有WordNet,就不可能有ImageNet。WordNet為每個類別提供了框架,使它們不僅擁有自己的標籤,還能在相互連接的思維樹中找到自己的位置。如果沒有心理學家埃莉諾·羅施(Eleanor Rosch)的工作,很難想象WordNet會是什麼樣子。
羅施在範疇及其在思維中的作用方面做出了重大貢獻,為我們對這一概念的現代理解提供了關鍵幫助。她在全球開展了一系列實驗,主要研究人類是如何把世界概念化的,研究對象既有加州大學伯克利分校的研究生,也有巴布亞新幾內亞的高原部落居民。雖然對範疇的研究可以追溯到亞里士多德,但羅施的實驗方法將簡潔清晰的邏輯與經驗數據相結合,在20世紀70年代掀起了範疇研究的熱潮。
在發表於1975年的開創性論文中,羅施提出了一組更精確的詞語來描述“理解層級”。所謂的“理解層級”,是指從“一般”到“特殊”的光譜,無數概念都可以在這個光譜上找到自己的位置。以鄧嘉的動物分類“鴨子”為例。“鴨子”存在於一個特定的細節層級上,與“鴨科”(包括鴨、鵝和天鵝的生物科)“動物”、“生物”以及最終的“事物”等淺層分類相比(羅施稱之為“上義詞”),要理解“鴨子”這一概念,需要更多信息;但與“野鴨”“鴛鴦”“環紋鳧”等深層分類相比(羅施稱之為“下義詞”),理解“鴨子”所需的信息則相對較少。從整體上看,包括ImageNet在內的類似層級結構就像一棵樹。向樹根移動,意味著更低的特異性和差異性,而向樹葉(每根樹枝的最遠端)移動,則意味著更高的特異性和差異性。
鄧嘉和喬恩將這種層級原則引入了計算機視覺領域。如果分類器有充分的理由相信它觀察到的可能是鴨子或鱷魚,卻沒有足夠的信息來判斷究竟是哪一種時,明智之舉就是將其上移一級,選擇概念更寬泛的上義詞,以犧牲較深一級的特定性為代價,換取較淺一級的安全性。
貓鯊、西瓜紋河馬獸、斑紋羊角袋鼠的奇觀告一段落,接下來,他們要展示的是這項技術在更為實際的場景中如何有效地發揮作用。一隻柯基犬的特寫鏡頭被傳統分類器錯誤地標記為“金毛尋回犬”,而他們的算法則會對沖風險,採用“狗”這個更加安全的標籤;一輛外裝奇特、塗裝混亂的出租車原本被錯誤地貼上了“坦克”的標籤,現在則被標註為“車輛”;如此等等。
我不禁注意到,大數據的力量又一次得到了充分展示。如果沒有ImageNet這一龐大的圖像庫,他們的研究就不可能如此精妙。ImageNet不僅提供了探索層級概念宇宙所需的原始數據,更重要的是,正是由於其規模和圖像的本體組織形式,不同的概念關係才得以被發現。無須告訴模型如何從較高層級的細節移動到較低層級的細節,也無須設計新的連接或路徑列表。ImageNet是如此全面,模型所需的一切都已存在其中。只需要一些新的策略,就可以充分利用之。
鄧嘉和喬恩的“對沖”技術是我認為最有啟發性的思維方式。對沖技術優雅而直觀,一旦理解它之後,甚至會覺得它非常簡單,但要完成開發,則需要真正的洞察力。他們的算法巧妙精確,是計算機視覺多種發展方式的傑出典範。
接下來的演講提出了一個更廣泛、更深奧的問題:如果我們反其道而行之,深入分支,那麼等待我們的將會是什麼?我們的算法將如何應對比其構建之時所能理解的世界更加微妙、更加複雜的世界?
接著,喬恩站起來回答。他來自俄亥俄州,溫文爾雅,穿著T恤和工裝短褲時感到最自在。他和鄧嘉一樣寡言少語,只是表現的方式更怪一點兒,比如,他很快就因迷戀小熊貓而出名,還打印了一張小熊貓的圖片,一直貼在工作站顯示器的上方。他也是一個不輕易屈服的人,就像我的實驗室裡其他頂尖研究人員一樣,當他覺得有必要讓別人聽到自己的聲音時,他會堅定地發表意見。
隨著鼠標的點擊,畫面分成了兩屏,一邊是一輛汽車的照片,另一邊是與之相對應的計算機輔助設計(CAD)線框圖,也就是汽車設計師繪製的示意圖。然後,後一張圖片被疊加在前一張圖片上,用數字紅線勾勒出真實汽車的格柵、車窗和車身面板的輪廓,突顯了分類器為精確識別車型而需要準確辨認出的特徵。
“汽車嗎?”有人問。
“等一下。”喬恩會意地咧嘴一笑。
他不是在開玩笑。這是我們首次窺見一個比我們任何人意識到的都要大得多的話題。
我一直認為,ImageNet的真正貢獻在於它的雙重性質。其龐大的規模之所以強大,是因為其中數據的組織遵循了本體層級結構,而其本體層級結構之所以強大,是因為數據規模足夠龐大和全面,涵蓋了如此多樣化的類別。這兩個優勢中的任何一個單獨拿出來都是不夠的。但就像規模本身一樣,“類別”這樣的術語也是相對的。如同對沖技術所展示的那樣,針對提出的問題,在多個不同的深度層級都能找到有效的類別答案。隨著深入層級的加深,概念之間的距離變得更小,分隔的細節也減少了,例如:事物—生物—植物—樹木—楓樹—歐亞槭。
雖然ImageNet規模龐大、細節豐富,但它並非完美之作。雖然有些分類特別精細(樹木就是一個很好的例子),但有時候,一些明顯存在差異的概念依然會被歸為同一類別,概念範圍相對粗略,同類概念之間的差異也較為明顯。這確保了我們的分類器在很多領域都可以比較輕鬆地完成任務。
對某些事物來說,同一類別之間的差距微乎其微,汽車就是其中之一。鄧嘉和喬恩下午的速成班就讓我們見識到了汽車的複雜性。例如,我們可能會明顯辨認出一輛豐田汽車的圖片(僅管我們中的大多數人可能沒有準備好討論汽車);經過一番研究,我們似乎也能確定這輛車是豐田雅力士。但到底是2008款還是2009款呢?這個問題一下子就把人難住了。是2008款豐田雅力士的熾烈藍珍珠色,還是2008款的河口藍珍珠色?當年兩種顏色都有,而且都是……藍色的。是熾烈藍珍珠色的2008款豐田雅力士基礎款,還是熾烈藍珍珠色的2008款豐田雅力士掀背運動款?神奇的是,還可以再繼續追問下去。這一切都是為了瞭解一個製造商生產的一個車型的一個款式。而這還只是汽車而已。
有聽眾指出,最近有幾篇關於鳥類的計算機視覺論文,其中有59種鳥被ImageNet收錄,這個規模看起來已經很大了,但跟康奈爾大學一個涵蓋了數百種鳥的數據集相比,就相形見絀了。然而據估計,全世界有超過1萬種鳥,即使是最先進的數據項目也比現實落後了好幾個數量級。我想到了科技媒體上那種激動的口吻,一篇又一篇的文章宣告著機器學習時代已經到來,圖像分類難題突然“迎刃而解”。我不禁笑了:這個世界上的梧桐樹、百靈鶴和豐田汽車可不是這麼想的。
下午的這堂實物教學課程的內容後來被稱為“細粒度分類”(fine-grained classification)。細粒度分類課題研究的是細節:識別的對象越相似,所需要的細節就越細微。乍一看,我們的研究只是從區分明顯的差異延伸到了解析不太明顯的差異,但這一過程卻向我們傳達了更加震撼和富有啟發性的信息:即使是我們最大規模的設計,也還是想得過於狹隘了。
然而,科學最偉大的優點之一,就是能夠將讓人謙卑的一刻重塑為充滿可能性的一刻。我們花了數年時間收集了數十億張圖片,招募了全球志願者幫忙標註分類,但只要翻閱一下汽車雜誌《凱利藍皮書》,就能意識到,我們僅僅觸及了皮毛而已。比起樹葉,我們更接近樹根。我們付出了多年的努力,與地球上最聰明的人展開全球競爭,最終也只是向真正的視覺智能邁出了一小步。
然而,當我環顧教室,我並沒有在學生們的臉上看到驚悚或絕望的表情。我看到的是他們眼後的齒輪開始轉動。毫無疑問,我們每個人都在想同一個問題:旅程尚未結束,我們還有很多事物要探索。
比德曼的數字的確很大,但這個虛構的數字很有必要,因為它把“萬物”的定義做了刪節,方便我們的思維和算法進行理解;當然,即便是這樣的數字,我們的思維和算法也只能勉強應對。現在,我們站在了新的起點。我們身處廣袤之境的懸崖邊緣,即將找到“萬物”以外的真相。
一個華麗的木製香料架引起了我的注意。我拿起來仔細看了看。父親注意到我感興趣的樣子,走過來跟我一起觀察。
“挺好看的,這個……”他說,然後又湊近看了看,“看著像手工做的,你不覺得嗎?這裡一定住著個木匠。”他放低了聲音,好像不想讓人聽到他在說普通話。
可能是,我自言自語著,瞥了一眼另一張桌子:“那邊有什麼有意思的東西嗎?”
“還挺多的,有些手套我很喜歡。還有一個特別漂亮的工具套裝。我看到車庫裡還有更好的工具,但我覺得不是用來賣的。我覺得這個房主應該會做木工。”
生活往往是這樣的:為人妻、為人母,同時追求自己的事業,所有的責任似乎在一夜之間爆發。雖然日程繁忙,我還是會偶爾抽出時間,陪父親去參加他最喜歡的車庫市場。我的生活步調似乎永遠在加速,而跟父親一起閒逛是難得的平靜和懷舊時刻。他的愛好就像一個紐帶,從我們在一個陌生國家最初的日子裡就一直伴隨著我們。我尤其喜歡他的用心和敏銳,看到陌生人車庫桌上擺放的待售物品,就能推斷出這個人的生活點滴。不管猜的是對還是錯,他的嘗試總是帶著真誠,而且感覺合乎情理。
多年來,這也成了我的習慣。
又是一輛特斯拉。2012年年中,Model S發佈還不到一年,就成了帕洛阿爾託隨處可見的時尚標誌。這輛車的車主可能是個技術男,或者是搞風投的。我經過的下一輛車沒那麼豪華,但也能反映一些車主的信息。那是一輛兩廂車,車身漆成米黃色,但可能因為常年停在戶外而已經褪色。看起來像是我的學生會開的車。
朋友約我去一家新開業的火鍋店吃晚飯,我打開谷歌地圖,找到了這家店,還用街景模式看了幾張店面照片,這樣從車上就能認出它。我無時無刻不在觀察各種視覺細節。在大多數時間裡,這種興趣會消退為一種白噪聲,但在今天開往火鍋店的路上,我的注意力比平常更加活躍。如果說我有一半的精力是在導航去往吃晚飯的地方,那麼另一半的精力則沉迷於沿途所見。
從個人到社區,汽車可以反映出人群方方面面的信息,但相關信息的評估規模卻相當有限。歷來的調查都試圖收集這類信息,但聘請專業人員繪製整個城市的汽車保有量地圖既昂貴又耗時,而且無法在中等規模以上的地區進行實際操作。那麼,如果能夠克服這些限制呢?如果在我們希望的任何規模上,都能進行汽車保有量分析呢?如果不僅僅是分析汽車,而是能分析一切事物呢?如果我們想分析什麼,就能分析什麼,結果會怎樣?如果我們深入分析日常生活的相關數據,僅僅以這種簡單的方式,能獲得什麼有關社會、文化甚至政治領域的新見解嗎?這些問題似乎無法回答,除非我們創造出全新的感知方式。我突然靈感乍現:谷歌街景、汽車識別算法、細粒度分類——原來我們已經在創造新的感知方式了!
AlexNet催生了新一代神經網絡,每年都取得令人驚歎的飛躍。像任何占主導地位的生物一樣,這種新型神經網絡幾乎壟斷了它們所處的環境。它們是如此有效而優雅,適用範圍又如此之廣,幾乎所有其他技術都在一夜之間被淘汰出局。僅在一兩年前,支持向量機和貝葉斯網絡等算法還是學術界的寵兒、研究人員的迷戀對象,而現在,這些算法幾乎從會議講座、發表的文章甚至實驗室裡的談話中消聲遺蹟了,所有人都只想談論神經網絡的最新發展。
我們之所以知道這一點,是因為許多新的神經網絡模型參加了ImageNet挑戰賽。自2009年ImageNet數據集在計算機視覺與模式識別大會首次亮相以來,五年多時間裡,ImageNet挑戰賽已經發展成為計算機視覺領域的基礎賽事,為該領域的技術進步提供了共同的基準,這也是我們一直以來的心願。為了避免任何明顯的利益衝突,我們實驗室的政策是不提交自己的算法模型,但僅僅是觀摩比賽就已經成為一項定期活動,其重要程度可以與聖誕節相媲美。每年都有新的進展,機器表現與人類表現之間的差距不斷縮小。機器的誤差率越來越小,越來越接近人類的水平,也許未來甚至會超過人類的水平。
然而,技術表現接近“人類水平”的說法本身,會讓人覺得是臆想,甚至是海市蜃樓。人類的能力維度是豐富多樣的,遠非任何單一指標所能衡量。但我們的缺點和優點一樣具有啟發性。例如,人類可以用各種常識、視覺線索和直覺來解釋為什麼自己認為附近樹上的鳥是沿海藍鴉,在這方面,人類比機器做得更好。但人類識別鳥類的能力是非常有限的,即使是經驗豐富的鳥類觀察者,也很少能識別出幾百種以上的鳥類。因此,對普通的觀察者來說,絕大多數鳥類是未知的。
在一般物體分類方面,計算機已與人類水平相差無幾。當人工智能努力克服相差的最後幾個百分點時,它似乎又在其他方面超越了我們,而且超越幅度極大,因為計算機在知識儲存方面的能力讓人類大腦望塵莫及。
從那時起,種種思考開始以新的方式連點成線。多虧了谷歌的街景系統,我們現在擁有了美國幾乎每一個社區的高分辨率圖像。雖然谷歌地圖的主要用途是幫助導航,但它展現的關於世界的種種細節讓我震撼不已。樹木、路燈、郵箱,當然還有我們駕駛的汽車——街景圖讓我們有機會窺探到那些隱匿在我們身邊的信息。想到我們實驗室在精確區分汽車型號方面所做的工作,我就感覺街景圖提供的機會像是又一次意外之喜。
我越來越覺得,我們研究的主題已經不是“視覺”這麼簡單了。把視覺敏銳度和百科全書式的知識深度結合,可以帶來一種全新的能力。這種新能力是什麼尚不可知,但我相信,它絕不僅僅是機器版的人眼。它是一種全新的存在,是一種更深入、更精細的透鏡,能夠從我們從未想象過的角度揭示這個世界。
我們精心挑選散佈在互聯網上的資料,不斷擴充汽車模型的圖片庫。我想象著,如果要跟十幾歲時的自己解釋這種煩瑣的工作跟科學有什麼關係,可能很難說清楚。當然,具體的工作細節並不重要;它只是再次證明了我們實驗室的核心價值:永遠尊重世界的複雜性,並渴望不惜一切代價對其進行探索。我們感覺自己就像藝術愛好者在導遊的帶領下參觀博物館,每一個新的展品都在挑戰我們,同時也激起了我們對周圍無限細節的敬畏之情。
我們能如願以償、得到回報嗎?我們沒有浪費時間去擔心這個問題,而是選擇擁抱世界,接受世界的真實面貌,不妥協、不簡化——僅僅是這一點,就讓我們覺得這是一項值得為之獻身的使命。無論我們瞭解世界的窗口是汽車模型、鳥類物種,還是其他事物(也許我們的下一個項目將探索各種鋪設道路、爬行動物的鱗片、小提琴的飾面),每一步都讓人感覺距離用全新的眼光看待現實的時刻更近了一點。無論我們發現了什麼,我都相信這趟旅程是值得的。
與此同時,我們還要克服一系列常見的障礙。當然,規模是一個無法迴避的挑戰,但這次我們準備好了。在ImageNet之後,我們已經習慣了處理海量數據所帶來的巨大負擔。我們仔細搜索了Craigslist、Cars.com、Edmunds和其他一些在線汽車交易市場網站,生成了包含2657種車型的訓練圖像集,幾乎涵蓋了2014年在路上行駛的所有車型。我們把圖像導入我們構建的最大、最精確的分類器中。我們還利用大量的谷歌街景圖像,在服務器中填充描繪整個美國縱橫交錯的街道、林蔭大道、拐角、十字路口和死衚衕的照片。在我們的實驗室裡,世界的另一個縮影正在形成。不久之後,我們就可以直接研究這個縮影,揭開其中隱藏的秘密。
但要真正揭秘,還需要一番努力。我們計劃以汽車為切入點,把汽車和車主的收入、教育和職業等身份方面聯繫起來,探索更大的社會經濟問題。然而,我們不得不面對這樣一個事實:貨幣價值上的巨大差距往往只能表現為外觀上的細微差別。儘管我們可以輕易區分凱迪拉克轎車和豐田皮卡,但早期的實驗表明,一個經過訓練的“天真”的分類器很容易把凱迪拉克誤認為本田雅閣,尤其是當兩種車顏色相似時——這正是我們希望避免的錯誤。把凱迪拉克ATS車型與CTS車型區分開來難度更大,更不用說每個車型內部的無數變化了。我們發現,內飾的概念尤其令人頭疼,因為總價數千美元甚至更高的選裝包通常只是對車身樣式和徽標進行微小的改動。
“各位,在休息之前,我有個想法要跟大家分享。”在我們每週一次的街景項目研討會議即將結束時,一位叫蒂姆尼特·格布魯(Timnit Gebru)的研究生開口說道。大家聚集在我的辦公室裡,這是蓋茨計算機科學大樓三樓一個長方形小房間,完全符合人們對學術辦公室的刻板印象——狹窄的空間裡堆滿了書籍、文件和小擺設,從書架往房間中央蔓延,讓辦公室顯得更加擁擠不堪。學生三人組在四面雜物的簇擁下,擠坐在鮮紅色的沙發上。
“我們的想法是將圖像分類器應用到所有街景圖像上,追蹤所有我們能追蹤到的汽車型號,看看能揭示出什麼樣的模式。我一直在研究,我想我們已經找到了完美的實現方法。”
蒂姆尼特是三位參與項目的學生中資歷最淺的,但她充滿激情,幹勁十足,氣場強大。雖然和我一樣個子不高,但她天生自信,具備出色的演講天賦,能輕鬆地掌控全場。鄧嘉正在為他的博士論文答辯做準備,喬恩則忙於處理其他項目,因此蒂姆尼特毫不猶豫地主導了這項研究。
我們初次相遇是在一年前,她參加了我的一個高級研討會。當時她還是電氣工程專業的三年級研究生,幾乎沒有人工智能方面的背景。但我對她印象很深,不僅因為她是唯一一位攻讀工程學博士學位的黑人女性,還因為她樂於提問,表現出了教授們一眼就能注意到的強烈的求知慾。當她請求加入實驗室時,我毫不猶豫地答應了,甚至連推薦信這樣的基本手續都免了。
她接著說了下去,我能從聲音中聽出堅定的信念。“美國人口調查局每年都會在全國範圍內開展美國社區調查,追蹤全國各地的大量社會學信息。”
“你是建議我們把這個納入我們的分析嗎?”
“可能性是無限的。人口普查絕對是數據寶庫,所有數據都是按照社區、縣、州甚至選區組織的,但收集這些數據需要花費海量的時間和精力。如果能把人口普查的數據和我們的分類器採集到的事物關聯起來,你能想象會產生什麼結果嗎?”
她已經從理智上充分闡述了自己的觀點,但最打動我的是她的熱情。作為教授,我們最希望看到的,也是覺得最有價值的,就是學生能夠獨立提出新創意、新想法,甚至完全出人意料的觀點。她的直覺沒錯。她幫助我們拿到了人口調查數據。仔細研究之後,我們不僅驚歎於數據的廣泛性和多樣性,還驚歎於它們所探討的議題維度。我們手頭擁有了全美範圍內的政治、教育、收入甚至犯罪情況,所有數據都可以與計算機視覺這一關於世界的根本性新信號相結合。我們實驗室從來沒有遇到過這樣的數據,它們為我們的工作注入了前所未有的力量。我們的項目已經不僅僅是數據挖掘這麼簡單了。
廚房裡一片狼藉,但非常符合我的心意。西爾維奧好像在自家作坊裡的工匠,嫻熟地在散亂的鍋碗瓢盆之間來回穿梭,偶爾拿起旁邊擺放的器皿,還不時地從檯面上的各種袋子、盒子和罐子裡抓取食材。
“你在做什麼呢?”我問。
“我就是想做點特別的晚餐,這是意式燉章魚,我還準備了西葫蘆意麵、烤辣椒、布拉塔奶酪和芝麻菜什麼的。”
“哇,我都等不及了,不過我們還是先把門關上吧。”
他知道我是什麼意思。在一個三代同堂、融合了兩種文化的家庭裡,西爾維奧很快掌握了與我母親共處一室的藝術。母親對廚房的清潔要求幾乎達到了極致的程度——她遵循著一邊做飯一邊收拾的信條,更準確地說,她的主要精力放在了收拾上,做飯只是順便為之。儘管她很喜歡西爾維奧的廚藝,但像這樣精心製作晚餐往往會導致家庭關係的緊張。我又欣賞了一會兒他的表演,然後暗自發笑。
“怎麼了?”西爾維奧問。
“你知道嗎,我覺得特別有意思。我一眼就能看出來今晚是怎麼回事。我立刻意識到必須讓媽媽遠離廚房。看到鍋碗瓢盆的奇妙排列,聽到嘈雜聲,我就知道你準備做一頓大餐,一進廚房就感受到了,都沒有刻意去想。你知道這讓我想到什麼了嗎?我想到了傑里米·沃爾夫。”
西爾維奧攪拌東西的手慢了下來。“沃爾夫……沃爾夫……哦,那個認知科學家?哈佛大學的?那個提出‘要點’的傢伙,對吧?”
“記性不錯!他好像1998年在哪本雜誌上發表過一篇特別難懂的文章。不是研究結果,就是一篇觀點文章,但絕對是我在加州理工學院讀到的最有影響力的文章之一。我現在還在想裡面的內容。”
傑里米·沃爾夫(Jeremy Wolfe)是世界知名學者,主要研究視覺記憶的內部運作機制。他對人類迅速理解場景的能力非常感興趣,因此大部分研究工作都據此展開。1998年,他發表了一篇名為《視覺記憶:你對所見之物瞭解多少?》的文章,儘管其語調近乎口語,但其中的結論卻異常精闢。他說,當我們看到一幅圖像時,我們的大腦會“記住場景的要點”。
“對,對。我記得當時覺得‘要點’這個詞出現在這樣的文章裡特別搞笑。”西爾維奧一邊用布拉塔奶酪、芝麻菜和西紅柿擺盤,一邊笑著說,不時還瞥一眼廚房門,確保門還關著。
“我喜歡這篇文章的一個原因就是他的語言風格。”我接著說道,“他的想法如此宏大,用詞卻非常直白。”
西爾維奧討厭做飯時分心。我知道這一點,他也知道我知道這一點。但他也很喜歡談科學,而且他早就知道,一旦我因為某個科學話題而興奮不已、滔滔不絕,他最好還是認真聽完。我微微一笑,知道他可能在切辣椒的時候還在心中默默提醒自己:要耐心聽她說話。
西爾維奧補充道:“他的想法是,我們對某個事物的第一印象就足以讓我們理解這個事物,至少在某種程度上理解它,對嗎?”
“對的,其中當然包括像物體這樣基本的東西。我們很擅長快速掃描事物,但我們更擅長留意它們的佈局和排列順序,就是角度、位置之類的。還有我們對這種順序的解讀。”
“事物之間的關係。”
“沒錯,但令人驚奇的是,我們做這一切都是不假思索的。在一瞬間就發生了,就像我今晚看到你做的菜一樣……”
“飛飛?你在裡面嗎?”
是媽媽。我和西爾維奧面面相覷,瞬間睜大了眼睛。
“門怎麼關著?”她繼續問。
“西爾維奧在……呃,廚房裡有很多蒸汽……”
“你這也說不過去呀!”西爾維奧笑著,小聲跟我說。
“別傻笑了!”我一邊回擊,一邊把門開了個小縫,剛好能一個人溜出去。我努力表現得很自然,但從母親悵然的目光中,我知道我還是失敗了。
讀了沃爾夫的論文後,“要點”這個概念一直縈繞在我的腦海裡,讓我深受鼓舞,因此,在加州理工學院的大部分時間裡,我都在自行探索“要點”的本質。這方面的研究與計算機科學或人工智能沒有明確的聯繫,但它直面了一個問題,即人類在看到現實世界時,究竟能感知到什麼。雖然我和彼得羅以及克里斯托夫都認為,這種細緻入微的感知對計算機視覺來說是個遙不可及的夢想,但我們堅信,只有更好地理解人類的行為,才能開啟追逐夢想的旅程,於是我們設計了方法進行相關探索。2007年,我們將研究成果發表在以神經科學為重點的《視覺雜誌》(Journal of Vision)上。
在實驗中,我們向22名實驗對象展示了一組照片,共90張,每張照片的曝光時間從500毫秒(半秒)到27毫秒(大約是電影膠片單幀可見時間的一半)不等。這些照片都是簡單的日常場景,但細節豐富,包含多個人物、多種事物和多項活動,有室內和室外,有自然環境,也有人工環境。實驗對象的任務是儘可能詳細地描述他們所看到的內容,準確來說是根據他們的記憶描述自己所看到的內容。
像所有的實驗一樣,這個實驗開始時也是賭博,其中一半的樂趣來自不知道會發現什麼的興奮(雖然可能一無所獲)。但努力最終得到了回報,我到現在都覺得我們收集到的反應非常了不起。例如,我們向實驗對象展示了一張維多利亞時期的住宅內部照片,持續500毫秒。一個實驗對象寫道:“19世紀的豪華客廳,裝飾華麗的單人座椅,牆上掛著一些肖像。”
在短短半秒時間裡,他們就看到了足夠多的信息,能夠對場景進行簡單但基本完美的描述,對照片所代表的世紀、牆面裝飾的性質和單件傢俱的結構進行了合理的推斷。即使是在27毫秒的時間裡,真正的認知也仍然存在(27毫秒大約是1/40秒,短到實驗對象幾乎沒有機會進行深度細緻的觀察):看不太清;大部分是黑暗的,有一些方形的物體,可能是傢俱。
“可能是傢俱”這幾個字透露了很多信息。傢俱不是形狀,不是顏色,甚至不是某種深植於我們基因中的自然現象,而是人類主觀創造出來的現代物品。在如此短暫的時間內,就能記住一個如此複雜的概念,這多麼令人驚歎啊。
不管有沒有時間的限制,我都覺得這種能力太強大了。照片可能是靜止的,但我們善於提取凝固在照片中的運動狀態,從幅度很大的動作到幾乎無法察覺的微小動作,我們都能敏銳地觀察到。我們會自然而然地注意到身體、手臂和腿的角度,並立即感覺到它們從哪裡來,要到哪裡去,以及速度和力量、重量和平衡、動能和勢能。我們可以想象畫面捕捉到的瞬間所處的環境,以及可能產生的結果,比如滑板運動員從路邊一躍而起之後的一剎那,或是年輕夫婦交換婚禮誓言後的一生。
我們甚至可以從照片中推斷出意圖。我們可以從一個人的姿勢感受到緊張的情緒、一個人與另一個人的親密程度,甚至能從像眉毛的角度這樣簡單的事情中獲取大量信息。這些信息足以讓我們判斷出自己看到的是什麼人,他們之間的關係如何,以及他們的意圖是什麼。一個不耐煩的老闆在過度勞累的員工面前晃來晃去;富有同情心的家長幫助孩子解決問題;親密的朋友;完全陌生的人;喜愛或憤怒;工作或娛樂;安全或危險。
關於自己身上的這個能力,我的感知也越來越強烈。每天晚上,我下班回到家,關上房門,甚至還沒來得及放下包,就會做一件事。不算一種儀式,因為沒有什麼刻意的安排,卻在每天的同一時間以同樣的方式展開。這是任何病人家屬都熟知的時刻:我會先找到母親,無論她在家裡的哪個角落——廚房、客廳,也許是後院——只需看她一眼,我就知道自己是不是應該擔心,知道她這一天過得好不好。如果她狀態良好,我就可以深深呼出一口氣;如果不好,那就另當別論。
就是這麼簡單。這是我能做出的最重要的判斷,一切都迅速而自然,彷彿認知魔法在自動完成,即使對我這樣研究視覺的人來說,這一過程也幾乎是不可察覺的。有時候我回到家,媽媽正在水槽邊削土豆。爸爸繫著圍裙,正在往爐子上的炒鍋裡倒橄欖油,好像還有一碗準備下鍋的雞丁。兩個人看起來都很滿足,誰也沒有抬頭看我一眼,沒有困惑或擔憂的表情。謝天謝地,我可以舒口氣了。這將是個美好的夜晚,至少此時是這樣。
但也有一些時候並不美好。媽媽在沙發上,坐也不是,躺也不是,看起來很不舒服。她一手扶額,眉毛擰在一起。貓蜷縮在她身旁,她的另一隻手只是無力地搭在貓背上,並沒有在撫摸。
情況不妙。需要量一下血壓,測一下體溫和脈搏,然後可能要給醫生打個電話。
這種能力迅速而強大。在我的記憶中,我很少有意識地去列舉周圍的單個物體——一屋子的傢俱、我的父母、他們穿的衣服、廚房用具、未開封的包裹或信封、西爾維奧的咖啡機、家裡的貓等等。我們花了很多精力來教機器對物體進行分類,但分類所依靠的似乎不僅僅是視覺敏銳度。在這樣的時刻,發生了一些更深層級的事情:我不僅僅是看到了母親的本體,而且是在瞭解她的狀態,評估她的姿勢,揣摩她的態度,從她眉間的皺紋或靠在櫃檯上時身體的角度等無形的東西中,得出生死攸關的推論。
即使是最先進的算法,也會立刻被人類這種能力所折服。我們能想象出的最膚淺的感知成就,就是可以識別物體。只要算法的分類錯誤率稍有降低,我們便大肆慶祝,覺得取得了了不起的進展。與此同時,我們的大腦每時每刻都對世界充滿了無比流暢的感知,以至周圍環境的無限生機對我們來說幾乎就是無意識的存在。早在20世紀70年代,研究員兼數學家阿納托爾·霍爾特(Anatol Holt)就總結過在研究領域這種小成即滿的短視現象。他說,人工智能這種技術,就算房間著火也會不管不顧,完美地走出下一步棋。即使是現在,這一論斷依然非常貼切。現代人工智能的表現就像玩遊戲的天才,可以熟練應對孤立的任務,應對“錯誤率”等狹隘指標,卻無法注意到落在棋盤上的餘燼正在燃燒。
人類的感知力雖然有種種侷限,但與機器截然相反。我們從整體上看待世界,不僅能識別世界的內容,更可以進一步理解不同事物之間的關係、意義、過去和未來。這就是“要點”。我們不僅是見證者,更是故事講述者。是時候讓算法也學習一下這種本領了。
“給你,讀讀這個。”我把自己發表在《視覺雜誌》上的論文打印出來,放到安德烈·卡爾帕西(Andrej Karpathy)的桌子上。安德烈是一名二年級博士研究生,剛剛加入實驗室,前途無量。他出生於斯洛伐克,在加拿大長大,身材修長,語速飛快。他熱衷於解決複雜的問題,並具有將想法付諸實踐的技術天賦。和我實驗室裡的許多學生一樣,他具備工程師的膽識和韌勁,拆卸起晶體管收音機就像在白板上寫方程式一樣輕鬆自如。如果說愛因斯坦、玻爾和惠勒是宇宙夢想家,那麼像安德烈這樣的學生或許與愛迪生或萊特兄弟是同類。外界幾乎看不到這兩種人的區別,但在我們實驗室裡,夢想家和實幹家的區別無處不在,從每次交談中都能看出來。兩種風格截然相反,但又相輔相成,每一種風格都註定要挑戰對方、吸引對方,甚至輕微地激怒對方。但在嘗試新事物時(尤其是實驗室經常會嘗試難度很大的新事物),兩者的組合就會產生強大的力量。
“這是什麼?”他一邊問,一邊拿起來瀏覽摘要。
“我們的下一個挑戰。”
自此以後,和安德烈的會面便成了我的固定日程。我們的目標是設計一種新的算法,不只是能簡單地標記任何出現在前景中的物體,更可以描述整個場景。即使按照我們實驗室設定的高標準,這種新算法也感覺像是我們研究的未來,甚至可能是整個領域的未來。但是我的激情讓我成為極其嚴苛的批評者。
“好吧,安德烈,這看起來很不錯。”
“但是……?”他猶豫了一下,笑著說。他知道這句話後面跟的是什麼。
他工作站上的顯示屏似乎展現了我們的想法:只需輸入一張圖片,就能輸出一句圖片描述。
他的算法很聰明,在某些方面甚至極其聰明;儘管如此,我知道我們還有更長的路要走。這只是解決方案的一個片段,而不是整體。“但是,我們還沒有實現目標。”
他無力地坐在座位上。
方法問題非常微妙。在擔任教授的這些年裡,我已經敏銳地注意到了與此相關的現象。學生們往往會瘋狂地專注於自己的模型是否有效,以至“模型如何運作”的問題被拋到了一邊,安德烈就是這種情況。不可否認,他的模型乍一看的確有效,但通過定期的交流,我對他的思路已經非常瞭解。雖然他的方法有理有據,提供的圖片說明也很有文采,但最終得出的模型只是某種圖片說明匹配系統。
簡單來說,他的計算機屏幕上顯示的描述似乎過多來自某種形式的訓練數據,就好像他的算法是在某種精心設計的數據庫中搜索合適的描述一樣。我們的最終目標是讓算法可以完全從頭開始生成圖片說明,而在我看來,他的模型無法實現這個目標。我確信他的模型在實踐中無法泛化:儘管在測試時表現良好,但它會被訓練集之外的圖片所迷惑,導致圖片說明出現描述錯誤或語法錯誤,或二者兼有。但真正的問題在於科學性。模型提供輸出圖片說明的方式是通過檢索,這並不屬於真正的創作。
安德烈嘆了口氣,充分認識到我給他增加了多麼大的工作量。他顯然很氣惱,但我知道他能認識到,這道鴻溝是值得跨越的。
“好吧,讓我重新思考一下。”他說,“我明白了,圖片說明需要逐字逐句地書寫。這就產生了很多問題,比如我們怎樣才能遵循圖像的視覺特徵,寫出語法正確的內容,但是……我會想辦法的。”
我笑了笑。他沒有掩飾自己的沮喪,但他的思路是對的。作為一名科學家,我拒絕接受任何折中方案,他很清楚這一點。至於他如何實現,誰也說不準,但我知道,他骨子裡和我一樣不屈不撓。我相信他會成功的。
語言文字和視覺圖像是兩個完全不同的領域。圖像的基本單位是“像素”,這個術語最初是“圖像元素”的縮寫,現在已經很常用。像素是一個幾乎無法察覺的點,捕捉了場景中單個小點的顏色。要描繪出有意義的畫面,可能需要數百甚至數千個像素,或者更多。我們口袋裡的手機可以捕捉到由數千萬個像素點組成的細節豐富的圖像。但是,在單獨評估圖像時,像素本身基本上不能提供任何信息。無論是我們大腦中的灰質還是機器中的硅,視覺算法的工作就是將這些像素組合成越來越大的二維圖像區域,然後以某種方式掃描其中與現實世界的三維特徵相對應的模式:空間、體積、表面、紋理等等。
相比之下,英語等語言的基本單位是單詞,至少在日常口語和書寫中是如此。與像素不同的是,單詞通常表達獨特的含義,獨立存在時同樣可以表意。單詞的範圍雖然很大,但數量是有限的。儘管如此,當我們把單詞組合在一起之後,它們的含義就會受到影響,甚至完全改變,比如“rock bottom”(最低點)、“rock fragment”(岩石碎片)和“rock music”(搖滾樂),這幾對單詞都含有rock一詞,意思卻完全不同。當更多的單詞串聯起來構成更長的句子時,這種現象就會變得更加複雜,更不用說段落、文章和書籍了。總之,單詞表達思想的組合潛力是無窮無盡的。
雖然新時代早期的頭條新聞主要是計算機視覺的突破,但在同一時期,自然語言處理技術也取得了豐碩成果。其中一顆早期的明珠就是遞歸神經網絡(Recurrent Neural Network,RNN)。遞歸神經網絡是一組專門為處理線性單詞序列而設計的算法,能夠快速推斷文本的基本屬性,就像AlexNet這類卷積神經網絡處理圖像的方式一樣。和卷積神經網絡一樣,遞歸神經網絡也已經存在了幾十年,但直到現在,人們才意識到它們的真正威力。
然而,比任何一個領域的進展都更具吸引力的,或許是人工智能的眾多子領域之間開始出現交叉融合。不斷壯大的神經網絡家族為視覺、語言、語音和其他形式的感知提供了一個共同的算法框架,激勵著像我們這樣的實驗室去模糊它們之間的界限,以實現更綜合、更像人類的能力。
“我想我有辦法了。”安德烈隔著我辦公室的門說。距離我們上次談話已經過去了幾天,這次他顯得沒那麼沮喪了。我甚至看得出他有了好點子。“想象一下,把卷積神經網絡和遞歸神經網絡進行配對,”他一邊說一邊進屋坐到沙發上,“一個負責對視覺信息進行編碼,同時將它跟單詞配對,另一個負責生成語言。然後我們以成對出現的圖像和人類文字描述為基礎,來訓練我們的模型。”
現在總算有些眉目了,我邊琢磨邊點頭。
“繼續。”我好奇他還有什麼想法,“然後呢?”
“肯定還有一些未知的東西需要解決,但我認為遞歸神經網絡會根據語庫中已有的單詞,有條件地生成圖片描述中的每個新單詞。這樣,我們在描述圖像內容的同時,也能遵循從訓練數據中推斷出的語法模式。至少從理論上來講,結果應該是一個完全新穎的描述,或多或少是使用自然語言來呈現的。”
我很難不被這個想法打動。哪怕這招兒只有一半管用,他也能從我給他留下的困境中脫身。我迫不及待地想知道接下來會發生什麼。
我們的谷歌街景汽車項目已經完成,收集到的數據深度極為驚人。我們的分類器處理了來自200多個城市的5000多萬張圖片,覆蓋了3000多個郵政編碼和近4萬個選區。總的來說,算法識別了2200多萬輛汽車,幾乎佔全美汽車總量的10%。從統計學上看,我們的觀察結果具有非凡的意義,其中一些證實了人們的刻板印象,特別有意思。比如我們對城市轎車和皮卡比例的研究發現:當轎車比例較高時,這個城市88%的人可能投票給民主黨;當皮卡車比例較高時,82%的人可能投票給共和黨。但這僅僅是個開始。
例如,在我們的研究結果中,車主的種族和他們喜歡的品牌之間具有極強的相關性,幾乎與美國社區調查關於同一社區種族構成的數據完全一致。同樣,根據汽車數據,也可以對某個地區的平均教育水平和收入水平做出準確的預測。我們的模型一次又一次地生成了整個城市的彩色編碼地圖,追蹤從一端到另一端的社會經濟和政治指標的波動,所有數據都與人口調查局使用傳統方法收集的數據驚人地相似。而所有這些,僅僅通過觀察街道上的汽車就能實現。
不過,我們真正的發現,是我們所展示的流程有潛力發展成為一種速度快、可擴展、成本相對較低的人工調查替代方法(僅在美國,每年的人工調查費用就超過2.5億美元)。這是我們實驗室歷史上規模最大、目標最高的項目之一,我們的論文發表在《美國國家科學院院刊》(Proceedings of the NationalAcademy of Sciences,PNAS)上,蒂姆尼特作為第一作者,因其出色的貢獻而實至名歸。從技術層面來說,我為這項工作感到驕傲,但最讓我興奮的是,這項工作揭示了人工智能可以用全新的方式向我們展示世界。
我手裡拿著錢包、手機,還端著半杯星巴克咖啡,側身用肩膀推開了實驗室的門。這是個典型的上午,我的日程安排得滿滿當當,但有些心神恍惚,正匆匆忙忙地從一個會議趕往下一個會議,邊趕路邊熟悉議程。當我經過安德烈的辦公室時,他向我招了招手。
“看看這個。”他說著,朝自己的工作站點了點頭。這次他臉上的表情明顯自信多了。
我匆匆走了進去,興奮地想看看最新的消息,幾乎忘了自己要去哪裡。屏幕上是一張少年和滑板的照片,兩者都在半空中,背景是藍天和遠處的灌木叢。在圖像下方的一個小命令行窗口中,顯示著一句話:
一個滑板上的人。
我還沒反應過來,就已經笑了出來。安德烈讓這個瞬間停留了一秒鐘,然後按下按鍵。另一張圖片出現了,圖片上是一個雜亂的建築工地,兩個穿著橙色背心的工人正在澆灌水泥。一兩秒後,出現了另一句話:
建築工人在路邊施工。
他又按了一次鍵。另一張圖片出現,又是一個新的圖片說明。然後接連不斷地出現。場景的數量和多樣性清楚地表明,這些句子並不是從某個訓練語料庫中提取出來的,而是模型自己寫的。
安德烈也喜笑顏開。不過,和其他優秀的科學家一樣,自豪之餘,他也不忘告誡自己:“當然,還有一些問題需要解決,比如……”
他又點擊了一下,一張新的圖片出現了,是一位遊客在西班牙鄉村風格的廣場上拍攝的,後來我才知道,這是特魯希略的市政廣場,這座城市以其豐富的文藝復興時期建築而聞名。我正沉浸在這幅畫面中,圖片說明出現了:
一名男子騎馬經過建築物旁邊的街道。
我們倆都被逗笑了——算法描述得近乎完美,卻遺漏了關鍵的信息:人和馬都是青銅做的雕塑。有趣的失誤還在繼續。在算法看來,睡在沙發上的寵物海豹是一隻貓,一個拿著牙刷玩耍的嬰兒是一個拿著棒球棒的小男孩。算法完美描述了在草原上吃草的斑馬,只是完全沒有注意到它們身後那道驚豔的彩虹。算法的錯誤往往帶有一種孩子般的笨拙,而這種笨拙卻出奇地可愛,溫馨地提示著我們:我們還有很多東西要學,我們的機器也一樣。不過,安德烈的成就(雖有瑕疵)才是最令人難忘的。
“我們得把這個寫出來發表。”我說。
“真的嗎?”他問,“現在就開始寫?”
“是的,當然。”我急切地回答,急切的程度連我自己都感到吃驚。不知何故,我突然很焦慮。也許是媒體對我們領域的狂熱影響到了我,也許是作為實驗室主任的自豪感湧上心頭。不管是什麼原因,焦慮感並未消退。
“越快越好。”我說。
“你是說和一臺機器約會嗎?就像電影《她》一樣?”
學生的話引起了全場的笑聲。斯派克·瓊斯(Spike Jonze)的電影《她》講述一個男人愛上了人工智能伴侶的故事,大多數人都對這部電影記憶猶新。
“為什麼不行呢?”另一位學生回答道,“如果機器有足夠的智能,能夠像我們人類一樣進行真正的對話,就像我們現在的對話方式一樣,那麼誰又能說人和機器之間不會有戀愛的可能性呢?”
“我不知道……對我來說,這聽起來有些荒誕。”
“但原則上沒有任何障礙,對吧?我們至少能在這一點上達成一致吧?”
那是寒假前的最後一個週五,我正在參加我最喜歡的活動:斯坦福大學人工智能實驗室師生每月兩次的閉門聚會“人工智能沙龍”,討論人工智能領域的熱門話題。自首次會議以來,我們已經探討了各種各樣的話題,有電影和電視中對人工智能的描述等文化問題,也有哲學辯論,比如範疇和符號結構究竟是語言的基本事實,還是如那次尖銳的討論題目所示,屬於“語言學家的幻想”。
今天我們討論的是《超級智能》,這本書是牛津大學哲學家尼克·博斯特羅姆(Nick Bostrom)探索人工智能未來的一本頗具爭議性的鉅著。比爾·蓋茨和埃隆·馬斯克等人都在推特上對這本書大加讚賞,同時也表達了對其影響的擔憂;在他們的推薦下,這本書在大眾市場獲得了意想不到的成功,重新引發了人們對科幻小說中人類與機器之間即將決一勝負的討論。我們的談話不拘一格,涉及機器人殺手、算法中主觀意識的潛力,最後還談到了與電腦相愛的想法。不過,就連那天下午最刺激的漫無邊際的討論,也承載著我在往年不曾預料到的分量。當未來突然如此迅速地來臨時,我們很難不去談論未來。
2012年ImageNet挑戰賽的衝擊波仍在迴盪。對像我們這樣痴迷於計算機視覺的人來說,這是一個分水嶺,全世界都開始認識到,比賽結果不僅僅是對圖片理解的轉折點,更是對一切事物理解的轉折點。在這個曾經鮮為人知的競賽中,AlexNet展示了大規模數據集、高速圖形處理器和深度分層神經網絡三者近乎神奇的組合。這種組合是一幅藍圖,其應用範圍註定要遠遠超出計算機視覺領域。世界各地的實驗室都在構建更加豐富的分層網絡,與此相對應的,一個新的名字正在流行——這不僅僅是機器學習的時代,更是深度學習的時代。
一種全新的範式正在誕生,一如20世紀初物理學的崛起。這讓我回想起十幾歲時那些激發我想象力的故事,我幻想著,在那些激情燃燒的歲月裡,物理學家們過著怎樣的人生。這些早期先驅一定感受到了無限的神秘和深深的敬畏,量子世界的奧秘和宇宙相對論的威嚴喚醒了他們,他們對現實的看法發生了翻天覆地的變化,這種變化來得如此徹底、如此突然,讓人很難不心生羨慕。他們在正確的時間出生在正確的地點,接受了歷史最令人驚歎的禮物之一。我們不禁要問,神經網絡這一現代化身是否就是我們這一代人的使命和召喚?
即便如此,我們也有理由承認,未來不會只有詩意。與人工智能相關的學術會議正在發生轉變,這是更令人不安的變化預兆之一。幾十年來,這些活動都很低調,只有教授、研究人員和學生參加,倖免於媒體的關注,同時經費也相當緊張。企業贊助商很少,通常僅限於施普林格(Springer)這樣的學術出版商,而且只能在展廳角落裡擺幾張長板凳。但在AlexNet發佈之後的幾年裡,來自《財富》世界500強的全球頂尖企業把學術活動變成了一場場盛宴,每一次新的聚會都更像是拉斯維加斯大道上的行業博覽會。在短短几年內,沐浴在彩色燈光下的展臺變得司空見慣,這些展臺規模宏大,上面的企業標誌十分醒目。谷歌和微軟等公司還為正在選擇職業的研究生舉辦了奢華的聚會。
隨著更多需求的湧現,一種飢餓感籠罩了整個領域。更多的層級使神經網絡更深入、更強大。更多的硬件可以加快訓練過程,實現更大規模的網絡部署。當然,還有更多的數據:更多的圖像,更多的視頻,更多的音頻,更多的文本以及其他任何可能訓練網絡理解的內容。更多的一切。
想到新組織的數據可能帶來的能力,除了興奮,我也不禁感到憂慮。在我自己的實驗室裡,我們已經看到,數據中隱藏的東西遠超出我們意識到的範圍。數據從來都不僅僅是圖像、音頻或文本。只有通過數據,模型才能對世界形成表徵,而更大的數據意味著更強大、更細緻的表徵;意味著關係、聯繫和想法;意味著真理與謬誤;意味著洞察和偏見;意味著新的理解,同時也伴隨著新的陷阱。深度學習革命已經到來,而我們還沒有做好準備。
與此同時,我們實驗室的研究議程也顯示出了自身的貪婪。無論我們取得了多大的成果,每一篇新發表的論文似乎都會孕育出10個新的後續想法,無論是博士後還是一年級的研究生,總有人願意接手,繼續深入研究。這正是我喜歡的工作方式,儘管我常常感到力不從心、不堪重負。
事實上,我在想,以北極星來比喻理想,其真正的價值不僅僅在於北極星可以指引方向,更在於無論怎樣努力,到達北極星的距離永遠是無限的。我們可以為之苦苦追求,可以為之痴迷一生,卻永遠無法抵達。北極星象徵著科學家最獨特的品質:充滿永不停歇、永無止境的好奇心,這份好奇心跟滿足感永遠同極相斥。夜空中的一顆星,遠方的海市蜃樓,沒有盡頭的道路。我意識到,這就是人工智能對我的影響。ImageNet是一個轉折點,當然值得慶祝,但它並不是旅程的終點。如果說有什麼特別的意義,那麼轉折點只是一段更偉大旅程的開始。除此之外,我現在可以肯定,等待探索的事物還有太多太多,一個人窮盡職業生涯,甚至一生,都無法抵達終點。
隨著我們圖片說明生成技術日臻成熟完善,成果發佈指日可待。在接下來的幾周裡,我和安德烈不斷改進方法、記錄成果。我們的策略帶來了我期望的結果:雖然句子仍然簡單扼要,但用詞準確、表述相對自然。用傑里米·沃爾夫的話說,這確實是一種能夠捕捉所見“要點”的算法。
是時候和全世界分享了。這意味著我們已經吸引了學術界的關注,我們的研究成果已被幾周後召開的2014年神經信息處理系統大會(Neural Information Processing SystemsConference,NeurIPS)採納。與此同時,我受邀在灣區另一邊阿拉梅達的IBM研討會上發表演講,忍不住提前透露了成果。
分享尚未發表的工作成果並不符合傳統做法。但隨後的一通電話證明我的選擇是正確的。電話來自《紐約時報》的技術記者約翰·馬爾科夫(John Markoff),當時我還坐在回斯坦福大學的優步車後座上。我一直對約翰很有好感,因為他是在ImageNet早期就意識到其重要性的少數幾個媒體人之一,幾年前,他還在《紐約時報》上報道過ImageNet。不過,這次他沒有事先跟我溝通,就直接打來電話,這個舉動很不尋常。
“喂,約翰,你好啊。”
“你好,你好,猜猜今天上午IBM的聽眾裡有誰?”
我沒想到會有記者出席,感到事情有些蹊蹺。
“你的這個能生成圖片說明的算法,你說它還沒有發表,是嗎?”
“沒錯。但我們會在12月的神經信息處理系統大會上正式展示。”
“啊,那真是太好了。”約翰靦腆地說,然後切入正題,“是這樣的,我想讓你知道,我手裡有一些關於另一個研究小組的材料。當然是保密的,我不能告訴你是誰,但他們聲稱他們已經建立了首個可以——”他尷尬地笑了笑,“生成描述圖像的句子的算法。”
什麼?
這說不通啊。我和安德烈都不知道還有其他人在研究這個問題。但約翰說得沒錯。幾天後,《紐約時報》就刊登了他的文章,題為《研究人員宣佈圖像識別軟件取得進展》。他寫道:“兩組科學家獨立工作,分別創造出了新型人工智能軟件,能夠以前所未有的準確性,識別和描述照片和視頻內容。”
學術競爭並不罕見,而研究人員之間的競爭一直是推動科研創新的關鍵因素。不過,奇怪的是,我對此完全始料未及。研究領域一直以來都以開放著稱,有時甚至達到了極致;除了率先發現某樣東西的炫耀權,我們的工作通常不被視為知識產權,更不用說像商業秘密那樣的保密內容了。我們的工作是要與全世界分享的,包括我們最強勁的競爭對手,而且在成果發表之前,我們通常至少能知道誰在研究什麼。我帶著滿腹狐疑繼續讀了下去,然後一切都變得清晰起來。
多年來,我和同事們一直對媒體誇大人工智能進步的報道嗤之以鼻。但這一次,報紙上的一篇文章讓我看到了世界變化之快。我們的對手不是其他大學的某個神秘研究團隊,而是谷歌。