RM新时代APP官网

舊版網(wǎng)站入口

站內(nèi)搜索

計算語言學(xué)方法研究

——《計算語言學(xué)方法研究》成果選介

2011年05月15日16:51

  教育部語言文字應(yīng)用研究所馮志偉教授主持完成的國家社會科學(xué)基金項目《計算語言學(xué)方法研究》(批準(zhǔn)號為03BYY019),最終成果為同名專著。課題組成員有:楊泉、胡鳳國、張和友。

  計算語言學(xué)(computational linguistics)是用計算機研究和處理自然語言的一門新興邊緣學(xué)科,涉及語言學(xué)、計算機科學(xué)、數(shù)學(xué)、心理學(xué)等部門。在計算語言學(xué)的發(fā)展過程中,提出了很多方法,這些方法,在理論上有一定的深度,在實踐上有實用價值,值得引起我們語言學(xué)研究者的重視。但是,國內(nèi)計算語言學(xué)界對于這些方法的研究基本上是支離破碎的,缺乏系統(tǒng)的總結(jié),更缺乏理論上的分析。本課題在全面調(diào)查國內(nèi)外計算語言學(xué)各種方法的基礎(chǔ)上,對這些方法進行了系統(tǒng)的描述,并在理論上進行了深入的分析和概括,總結(jié)出規(guī)律性的具有方法論意義的認識。其主要內(nèi)容分為七個部分。

  一、計算語言學(xué)的學(xué)科定位和主要方法

  這一部分首先從計算機處理自然語言的過程、計算語言學(xué)的范圍以及計算語言學(xué)的歷史三個角度來考察計算語言學(xué)的學(xué)科定位問題。從計算機處理自然語言的過程來考察它的學(xué)科定位,是從縱的角度來討論;從計算語言學(xué)的范圍來考察它的學(xué)科定位,是從橫的角度來討論。通過這種縱橫交錯的考察,我們對于計算語言學(xué)的學(xué)科定位就可以在共時的平面上得到比較清晰的認識。然后,我們再從計算語言學(xué)的歷史來考察,也就是從發(fā)展的角度來討論,這樣,我們對于計算語言學(xué)的學(xué)科定位就可以在歷時的平面上得到比較清晰的認識。

  對于計算語言學(xué)方法的研究,可以從方法論的角度來論述,也可以從語音、詞匯、形態(tài)、句法、語義、語用研究中使用的方法來論述。

  從方法論的角度,計算語言學(xué)方法可以分為基于規(guī)則的方法(rule-based approach)和基于統(tǒng)計的方法(statistics-based approach)兩個方面;谝(guī)則的方法是理性主義的方法,基于統(tǒng)計的方法是經(jīng)驗主義的方法。這兩種方法實際上并不是完全對立的,它們各有利弊,而且目前這兩種方法有合流的傾向,它們正在相互結(jié)合起來,取長補短,相得益彰。本項目如果把基于規(guī)則的方法和基于統(tǒng)計的方法分割開來研究,很多問題將會糾纏不清,不便于論述。因此,本項目不采取這樣的論述方式。

  本項目采取按照語言學(xué)學(xué)科分類的方式,從語音、詞匯、形態(tài)、句法、語義、語用研究中使用的計算語言學(xué)方法來加以論述。分別討論語音的自動處理方法、詞匯的自動處理方法、形態(tài)的自動處理方法、句法的自動分析方法、語義的自動處理方法、語用的自動處理方法。

  在論述時,首先對于各個領(lǐng)域內(nèi)計算語言學(xué)方法的發(fā)展歷史進行簡要的回顧,然后,再對各種具體的方法進行論述和分析。這樣,計算語言學(xué)方法的研究便有了一個可靠的歷史背景,我們對于各種方法的來龍去脈也就更加清楚了。

  二、語音的自動處理方法

  文本-語音轉(zhuǎn)換(Text-to-Speech簡稱TTS)的核心任務(wù)是以文本中詞的序列作為輸入,產(chǎn)生聲學(xué)波形作為輸出。自動語音識別(Automatic Speech Recognition,簡稱ASR)的核心任務(wù)是以語音的聲學(xué)波形作為輸入,產(chǎn)生單詞串作為輸出。

  這一部分詳細討論了語音自動處理的主要方法:貝葉斯公式(Bayes formala)、噪聲信道模型(Noisy Channel Model)、N元語法(N-gram Grammar)、隱馬爾可夫模型(Hidden Markov Model,簡稱HMM)等。這些方法成為了計算語言學(xué)中各種統(tǒng)計方法的基礎(chǔ)。

  三、詞匯的自動處理方法

  語言中的詞匯具有高度系統(tǒng)化的結(jié)構(gòu),正是這種結(jié)構(gòu)決定了單詞的意義和用法。這種結(jié)構(gòu)包括單詞本身的固有的與上下文無關(guān)的語義特征以在文本中單詞與單詞之間語義關(guān)系特征。前者是單詞的靜態(tài)語義特征,后者是單詞與單詞之間的動態(tài)語義特征。

  對于單詞的靜態(tài)語義特征,這一部分從知識本體(ontology)的高度出發(fā),分析了美國普林斯頓大學(xué)研制的詞網(wǎng)(WordNet),指出了其優(yōu)點和不足之處,并介紹了我國學(xué)者提出的Ontol-MT通用知識本體系統(tǒng),說明了Ontol-MT在機器翻譯和歧義消解中的應(yīng)用。

  對于單詞與單詞之間的動態(tài)語義特征,這一部分介紹了美國語言學(xué)家Fillmore研制的框架網(wǎng)絡(luò)(FrameNet)?蚣芫W(wǎng)絡(luò)的中心思想是詞的意義的描述必須與語義框架相聯(lián)系?蚣苁切叛、實踐、制度、想象等概念結(jié)構(gòu)和模式的圖解表征,它為一定言語社團中意義的互動提供了基礎(chǔ)。

  由于多義詞是任何語言中都普遍存在的現(xiàn)象,而多義詞中諸多的詞義分布又很不容易找到一般的規(guī)律,多義詞的自動排歧涉及到上下文因素、語義因素、語境因素,還涉及到甚至日常生活中的常識,而這些因素的處理,恰恰是計算機最感棘手的問題。所以,詞義排歧(Word Sense Disambiguation,簡稱WSD)是計算語言學(xué)中的一個特別困難的問題。這一部分分析了英語中的詞匯歧義現(xiàn)象,介紹了幾種重要的詞義排歧方法。

  四、形態(tài)的自動處理方法

  不論是分析型語言、屈折型語言還是黏著型語言,都有形態(tài)自動分析的問題。形態(tài)分析主要采用有限狀態(tài)自動機和有限狀態(tài)轉(zhuǎn)移網(wǎng)絡(luò)來進行。這一部分詳細地介紹了有限狀態(tài)自動機和有限狀態(tài)轉(zhuǎn)移網(wǎng)絡(luò)的基本原理,通過大量實例來具體地說明自動形態(tài)分析的方法。

  漢語書面文本是連續(xù)的漢字串,單詞與單詞之間沒有空白,因此,漢語形態(tài)分析的主要任務(wù)就是自動切詞和自動詞性標(biāo)注。這一部分還分析了漢語書面文本中確定切詞單位的某些形式因素,為自動切詞提供了比較可行的方法論基礎(chǔ)。

  五、句法的自動分析方法

  句法自動分析在計算語言學(xué)中叫做剖析(parsing)。所謂剖析,就是取一個輸入并產(chǎn)生出表示這個輸入的結(jié)構(gòu)的過程。所謂句法剖析(syntactic parsing),就是計算機識別一個輸入句子并且給這個句子指派一個句法結(jié)構(gòu)(例如,樹形圖,線圖)的過程。

  這一部分分別討論了目前在計算語言學(xué)中廣泛使用的基于轉(zhuǎn)移網(wǎng)絡(luò)的自動句法分析方法、基于上下文無關(guān)語法的自動句法分析方法、基于特征結(jié)構(gòu)的自動句法分析方法、基于依存語法的自動句法分析方法。

  六、語義的自動處理方法

  語言的意義可以使用形式化的方法來捕捉,這種形式化方法叫做“意義表示”(meaning representation)。之所以需要這樣的意義表示,其原因在于:不論是沒有加工過的語言輸入,還是用自動句法分析方法推導(dǎo)出來的結(jié)構(gòu),都不能形式化地表示出語言的意義。因此,這樣的“意義表示”能夠在從語言輸入到與語言輸入意義有關(guān)的各式各樣的具體任務(wù)所需要的非語言知識之間架起一座橋梁。我們?nèi)≌Z言的輸入來構(gòu)造意義表示,這樣的意義表示要使用那些與表示日常生活中的常識性的世界知識同樣的材料來構(gòu)成。產(chǎn)生這樣的意義表示并且把它們指派給語言輸入的過程叫做“語義分析”(semantic analysis)。

  這一部分分別討論了語言意義的四種表示方法:一階謂詞演算(First Order Predicate Calculus,簡稱 FOPC)表示法,語義網(wǎng)絡(luò)(semantic network)表示法,概念依存圖(Conceptual Dependency diagram)表示法,基于框架的表示法(Frame-based Representation)。這些意義表示方法都可以把語言輸入同外界世界和我們關(guān)于外界世界的知識聯(lián)系起來。

  這一部分還討論了句法驅(qū)動的語義自動分析方法、結(jié)構(gòu)語義學(xué)、優(yōu)選語義學(xué)、孟塔鳩語法以及意義文本理論。

  七、語用的自動處理方法

  語用學(xué)是對語言與使用環(huán)境之間關(guān)系的研究。使用環(huán)境包括像人和物這樣的本體,因此語用學(xué)涉及如何將語言用于指示(以及回指)人和物的研究。使用環(huán)境也包括話語的上下文,因此語用學(xué)也涉及話語結(jié)構(gòu)的形成以及會話時聽話人如何理解談話對象的研究。

  語用的自動分析才剛剛開始,國外已經(jīng)取得初步的成果,國內(nèi)的研究還做得不多。這一部分主要討論所指判定和文本連貫的自動分析方法。

  本課題的目的在于總結(jié)國內(nèi)外的計算語言學(xué)方法,使之系統(tǒng)化,理論化,具體化。由于方法的研究是自然語言處理系統(tǒng)(諸如機器翻譯、語料庫、信息檢索、信息抽取、文本分類等)的開發(fā)的關(guān)鍵問題,因此,本課題的研究成果,對于各種類型的自然語言處理實用系統(tǒng)的開發(fā),在方法上具有普遍的指導(dǎo)意義,對于解決我國當(dāng)前在自然語言信息處理中的理論和現(xiàn)實問題,具有重要的推動作用。
(責(zé)編:陳葉軍)
RM新时代APP官网