賈里尼克從來不是真正的計算機科學家,而他的專長是信息論和通信,因此他看待語音識別問題完全不同于人工智能的專家們--在他看來這是一個通信問題。人的大腦是一個信息源,從思考到合適的語句,再通過發音說出來,是一個編碼的過程,經過媒介(空氣或者電話線)傳播到聽眾耳朵里,是經過了一個長長的信道的信息傳播問題,最后聽話人把它聽懂,是一個解碼的過程。既然是一個典型的通信問題,就可以用解決通信問題的方法來解決,為此賈里尼克用兩個馬爾可夫模型分別描述信源和信道。當然,為了訓練和使用這兩個馬爾可夫模型,就需要使用大量的數據。采用馬爾可夫模型,IBM 將當時的語音識別率從70%左右提高到90%以上,同時語音識別的規模從幾百詞上升到兩萬多詞 (Jelinek, 1976),這樣,語音識別就能夠從實驗室走向實際應用。 賈里尼克和他的同事在無意中開創了一種采用統計的方法解決智能問題的途徑,因為這種方法需要使用大量的數據,因此它又被稱為是數據驅動的方法。
賈里尼克的同事彼得?布朗在1980年代,將這種數據驅動的方法用于了機器翻譯 (P.F. Brown, 1990)。由于缺乏數據,最初的翻譯結果并不令人滿意,雖然一些學者認可這種方法,但是其他學者,尤其是早期從事這項工作的學者認為,解決機器翻譯這樣智能的問題,光靠基于數據的統計是不夠的。因此,當時SysTran等公司依然在組織大量的人力,寫機器翻譯使用的語法規則。
如果說在1980年代還看不清楚布朗的方法和傳統的人工智能的方法哪一個更適合計算機解決機器智能問題的話,那么在1990年代以后,數據的優勢就凸顯出來了。從1990年代中期之后的10年里,語音識別的錯誤率減少了一半,而機器翻譯的準確性提高了一倍,其中20%左右的貢獻來自于方法的改進,而80%則來自于數據量的提升。當然,這背后的一個原因是,由于互聯網的普及,可使用的數據量呈指數增長。
最能夠說明數據對解決機器翻譯等智能問題的幫助的,是2005年NIST對全世界各家機器翻譯系統評測的結果。
這一年,之前沒有做過機器翻譯的Google,不僅一舉奪得了各項評比的第一名,而且將其它單位的系統遠遠拋在了后面。比如在阿拉伯語到英語翻譯的封閉集測試中,Google系統的BLEU評分為51.31%,領先第二名將近 5%,而提高這五個百分點在過去需要研究7—10年;在開放集的測試中,Google51.37%的得分比第二名領先了17%,可以說整整領先了一代人的水平。當然,大家能想到的原因是它請到了世界著名的機器翻譯專家弗朗茲·奧科(Franz Och),但是參加評測的南加州大學系統和德國亞琛工學院系統也是奧科寫的姊妹系統。從奧科在Google開始工作到提交評比結果,中間其實只有半年多的時間,奧科在方法上沒有做任何改進。Google系統和之前的兩個系統唯一的不同之處在于,前者使用了后者近萬倍的數據量。
下表是2005年NIST評比的結果。值得一提的是,SysTran公司的系統是唯一采用傳統的語法規則進行機器翻譯的。它和那些采用數據驅動的系統相比,差距之大已經不在一個時代了。
從阿拉伯語到英語的翻譯 (封閉集)
Google 51.31%
南加州大學 46.57%
IBM沃森實驗室 46.46%
馬里蘭大學 44.97%
約翰?霍普金斯大學 43.48%
……
SYSTRAN公司 10.79%
從中文到英語翻譯 (開放集)
Google 51.37%
SAKHR公司 34.03%
美軍ARL研究所 22.57%
表1 2005年NIST對全世界多種機器翻譯系統進行評比的結果
到了2000年之后,雖然還有一些舊式的學者死守著傳統人工智能的方法不放,但是無論是學術界還是工業界,機器智能的主流方法是基于統計或者說數據驅動的方法。與此同時,另外兩個相關的研究領域,機器學習和數據挖掘也開始熱門起來。
2012-2014年,筆者曾經負責Google的機器問答項目,并且通過使用大數據,解決了30%左右的問題,這遠遠超過了學術界迄今為止同類研究的水平。究其原因,除了Google在自然語言處理等基礎算法上做到了世界領先之外,更重要的是,Google將這個過去認為是存粹自然語言理解的問題變成了一個大數據的問題。首先,Google發現對于用戶在互聯網上問的各種復雜問題,有70-80%左右的問題可以在前十條自然搜索結果(去掉廣告、圖片和視頻等結果)中找到答案,而只有20%左右的復雜問題,答案存在于搜索結果的摘要里。因此,Google將機器自動問答這樣一個難題轉換成了在大數據中尋找答案的摘要問題。當然,這里面有三個前提,首先答案需要存在,這就是我們前面講到的大數據的完備性;其次,計算能力需要足夠,Google回答這樣一個問題的時間小于10毫秒,但是需要上萬臺服務器同時工作;最后,就是要用到非常多的自然語言處理算法,包括對全部的搜索內容要進行語法分析和語義分析,要能夠從文字的片段合成符合語法而且讀起來通順的自然語言等等。其中第一個前提是只有Google等少數大公司具備,而學術界不具備,因此這就決定了是Google而非學術界最早解決圖靈留下的這個難題。
圖 3 Google自動問答(問題為“天為什么是藍色的?”,問題下面是計算機產生的答案)
由此可見,我們對數據重要性的認識不應該停留在統計、改進產品和銷售,或者提供決策的支持上,而應該看到它(和摩爾定律、數學模型一起)導致了機器智能的產生。而機器一旦產生了和人類類似的智能,就將對人類社會產生重大的影響了。
轉載請注明:北緯40° » 大數據、機器智能和未來社會的圖景