大數據時代的漢語語言學研究
本文關鍵詞:大數據時代的漢語語言學研究,由筆耕文化傳播整理發(fā)布。
第36卷第5期詹衛(wèi)東:大數據時代的漢語語言學研究
才能給出報告,而基于用戶查詢記錄的大數據方法則可以做到每天都發(fā)布流感態(tài)勢報告①。這項研究(Nature)雜志成果發(fā)表在2009年2月份的《自然》
[3]上。
大數據處理的魅力不僅體現(xiàn)在上述典型的數據
而且也開始在一些人文社會科學計算和分析領域,
研究領域初試啼聲。比如基于維基百科(Wikipe-dia)②的大規(guī)模文本分析來從某些特定角度展示人就是一個有代表性的例類歷史變遷的宏觀面貌,
[4]
子。研究人員利用一臺有4000個CPU,內存為
1264TB(1TB=1000GB,即10字節(jié))的超級計算機對400萬篇以英語寫的百科文章進行處理,提取其中
NLU)。這個語言(NaturalLanguageUnderstanding,
任務的實質是希望找到從語言的形式映射到語言的
人類的自然語言意義的機械方法。如果把“理解”
看做是人類智能行為的主要特征,那么,自然語言理
解顯然屬于人工智能的研究范疇,即探求作為高級智能的人的語言行為在多大程度上可以機械化。作為一個誕生在僅僅半個世紀前的相當新的研
NLU所經歷的發(fā)展過程稱得上是跌宕起伏。究領域,
而伴隨其間的,可以說正是在NLU不同發(fā)展階段人
———“自然語言”們對于其處理對象的不同理解。NLU脫胎于機器翻譯(MachineTransla-眾所周知,
tion,MT)。上世紀中葉,自動計算裝置在二戰(zhàn)中破刺激著正在重建新譯密碼的威力在戰(zhàn)后繼續(xù)發(fā)酵,
世界的人們的想象力。用剛問世不久的電子計算機把一種自然語言翻譯成另一種自然語言順理成章地也被看做是密碼破譯的過程。MT從想法到能實際運行的演示系統(tǒng),只用了短短五年時間(1949-1954)。然而,由美國Georgetown大學和IBM聯(lián)合研制的第一個MT系統(tǒng)只是在媒體宣傳和爭取政府資助上獲得了實實在在的成功,真正能夠服務于社會解決翻譯問題的MT系統(tǒng)并沒有像其研制者所宣1966年發(fā)布的稱的那樣在三五年內就問世。相反,
著名的ALPAC⑤報告終結了MT的頭一個十年熱潮。人們開始透過計算機難以逾越的翻譯障礙反思人類自然語言本身的性質。翻譯不再僅僅被簡單地看做是密碼破譯的信息處理過程,自然語言也不僅僅是一串單詞的序列。如何讓計算機真正“理解”人類的自然語言,語言的層次結構該如何分析,如何從形式結構映射到意義表示……等等理論問題開始引起來自計算機科學、數學、語言學等跨學科研究人
——計算語言學也正是員的深思,新興的交叉學科—在這個背景中走上歷史舞臺的。20世紀七八十年
代,各種分析自然語言的形式理論和計算方法如雨后春筍般涌現(xiàn),其中著名的如基于概念依存圖(Con-ceptDependencyGraph)的知識表示方法與腳本理論
地點信息,并通過統(tǒng)計每篇文章中的情感的日期、
計算某個特定年份的情感指數(取值從極負面到詞,
極正面分為200級),用這種方法計算了1800-2012年間212年的情感指數,并將計算結果用212張疊加的世界地圖來表示,即以地圖上不同地點標記不同顏色來反映當地在某個特定年份的情感指數。這212張按年疊加帶有顏色變化的世界地圖以可視化(Visualization)的方式在網頁上呈現(xiàn)③,在某種程度上,可以說是直接把一幅“風云際會、斗轉星移”的世界史動態(tài)畫卷鋪展在了讀者面前④。
,“大數據”毫無疑問已經給這個時代打下了鮮
明的印記,身處其中,無論是否愿意,都將受其影響。就科學研究而言,,有的學科因為直接涉及大數據分析而已經發(fā)生顯著的變化,比如計算機科學與語言——計算語言學在近十年來的發(fā)展,學的交叉學科—
就是這樣的例證。下面不妨快速掃描一下這門年輕的學科近半個世紀的發(fā)展歷程,以更深刻地體會“大數據”對一個學科所帶來的沖擊和影響。漢語語言學未來的進程或可從中有所借鑒。
二
來自計算語言學的啟示
計算語言學(ComputationalLinguistics)從其應
就是讓計算機能夠“理解”人類的自然用目標來說,
①
Google流感趨勢網站(http://www.google.org/flutrends/us/#US)將流感狀態(tài)分為“極輕、輕、中等、重、極重”五級,并以五種
顏色區(qū)分,在Google地圖上標記每個地區(qū)的流感狀態(tài)。http://www.wikipedia.org/有285種語言,超過2200萬篇文章。https://www.youtube.com/watch?v=KmCQVIVpzWg
需要說明的是,盡管上述這些大數據計算的例子確有震撼效果,但客觀而言,大數據計算無論在實際應用還是科學研究中,都還在初期探索階段,基于大數據得到的結論有的已經可以直接指導人們的社會實踐,但也有不少還只是起到一定的參考作用,并不能取代傳統(tǒng)的方法。ALPAC是美國國會為調查MT而成立的“自動語言處理咨詢委員會”的英文名首字母縮寫。
②③④
⑤
71
本文關鍵詞:大數據時代的漢語語言學研究,由筆耕文化傳播整理發(fā)布。
本文編號:146393
本文鏈接:http://www.lk138.cn/wenyilunwen/yuyanyishu/146393.html