一、研究計劃總體執(zhí)行情況及各子課題進展情況
1. 研究計劃總體執(zhí)行情況
自立項以來,課題組積極、認真開展研究活動。截止到2013年8月,基本完成了本時間段原定的研究計劃。具體來說,(1)完成了用于開展研究的“多語體現(xiàn)代漢語語料庫”“漢語歷時語料庫”“漢英平行語料庫”“依存語法樹庫”“漢語(句法)網(wǎng)絡(luò)”等語言數(shù)據(jù)資源庫的構(gòu)建和部分數(shù)據(jù)統(tǒng)計、分析工作;(2)完成了大量文獻調(diào)研工作,尤其是計量語言學重要文獻的收集整理、翻譯、校訂等,已完成兩部譯著;(3)設(shè)計并實施了多種共計近1500人次的心理語言學實驗;(4)在上述基礎(chǔ)上開展研究,已發(fā)表10余項階段性研究成果,其中大多數(shù)成果發(fā)表于國內(nèi)外高水平學術(shù)期刊,被SCI、SSCI、A&HCI等檢索系統(tǒng)收錄的論文達到6篇。
目前,本課題的多個研究方向均處于緊鑼密鼓的研究階段,預計會產(chǎn)生不少高水平成果;部分研究方向在完成既定研究計劃后,將針對研究過程中遇到的問題進行調(diào)整、補充,繼續(xù)深入追蹤相關(guān)問題,或增加新的研究方向。
就課題研究計劃來說,已經(jīng)完成的工作和取得的成果相對較多、質(zhì)量較好。一方面,這說明課題組態(tài)度積極、工作努力,采用的研究方法科學、高效,能夠在跨學科語言研究方面取得有價值的新發(fā)現(xiàn);另一方面,也說明本課題研究還有很大的拓展空間,值得繼續(xù)努力,深入開展研究。下面分子課題具體介紹研究進展情況。
2. 子課題一“現(xiàn)代漢語文本的計量研究”進展情況
子課題一的研究主要基于詞典數(shù)據(jù)和文本(包括口語轉(zhuǎn)寫文本)。目前已經(jīng)建立了一個涵蓋12種語體的百萬字規(guī)模的“現(xiàn)代漢語多種語體文本語料庫”,并在此基礎(chǔ)上開發(fā)了一系列計算機程序,形成了一個面向計量語言學研究的語言結(jié)構(gòu)特征數(shù)據(jù)庫。雖然在語料規(guī)模、樣本代表性與多樣性等方面還有待加強,但是其架構(gòu)與內(nèi)容、計算方法與工具等,除了能夠滿足既定研究的需要外,還在一定程度上為開展其他層面的漢語計量語言學研究奠定了基礎(chǔ)。
除資源建設(shè)外,該子課題主要開展了漢語語音、詞長、詞長與詞義關(guān)系、詞性、詞頻、詞匯豐富程度等詞匯層面的計量研究,以及基于詞匯層面語言結(jié)構(gòu)的語體計量研究和歷時研究。以下前四項研究已經(jīng)發(fā)表或已錄用待發(fā)表,后三項研究處于論文寫作、修改階段。
(1)漢語語音計量研究,詳見“代表性成果簡介”第2項。
(2)漢語詞長與詞義關(guān)系研究;凇度嗣袢請蟆泛汀冬F(xiàn)代漢語詞典(第五版)》(動靜結(jié)合)的詞長分布與詞長-詞義函數(shù)關(guān)系研究發(fā)現(xiàn):第一,漢語最大限度的實現(xiàn)了經(jīng)濟原則,即在不擴大單字符字庫的情況下,最大程度使用最短組合(兩字詞);第二,詞長分布一方面具有共性,如漢語詞長的靜態(tài)、動態(tài)詞型(type)、動態(tài)詞例(token)都符合Positive Cohen-negative Binomial分布,另一方面,動態(tài)詞例具有特殊性,除了符合Positive Cohen-negative binomial分布,與Dacey-negative Binomial分布的擬合度更高。該函數(shù)的特點在于,它融合了Dacey-泊松、伽馬、貝塔3種分布。雖然共同屬于Negative Binomial分布的衍生形式,但較之Positive Cohen-negative Binomial分布更為復雜。此語言學現(xiàn)象結(jié)合統(tǒng)計學理論可解釋為,靜態(tài)與動態(tài)語料的最大區(qū)別就在于頻率因素,而語境需求、語義明確化、詞匯多樣化、語言編碼解碼最優(yōu)化、傳輸準確性保障都在頻率中有所體現(xiàn)。在頻率的影響下,詞長呈現(xiàn)了更復雜、多融合性的分布特點、表現(xiàn)出不同于靜態(tài)分布的特殊性質(zhì);第三,詞長-詞義雙向數(shù)量關(guān)系在動、靜態(tài)條件下都符合冪律函數(shù),即詞長越長所承載詞義越少,詞長越短多義程度越高。
(3)漢語兼類詞計量研究;凇冬F(xiàn)代漢語詞典(第五版)》的詞性計量研究,在漢語學界首次給出漢語詞匯兼類的全部模式,首次提出新的語言學概念——詞性兼類度(Polyfunctionality),即詞匯所能承載的詞性數(shù)量,并得出其詞例和模式層面的分布規(guī)律。研究了兼類詞形成的原因,并從語言學理論角度進行了解釋,即:漢語詞匯產(chǎn)生了功能性變體,卻由于缺乏形態(tài)變化而保持了原本詞形。該研究創(chuàng)新性地列出12種詞性的兼類度分布,發(fā)現(xiàn)其圖形呈雙曲線。該成果已被國際計量語言學權(quán)威刊物Journal of Quantitative Linguistics錄用,該刊為SSCI與A&HCI收錄期刊。
(4)漢語詞匯結(jié)構(gòu)的協(xié)同研究,詳見“代表性成果簡介”第3項。
(5)漢語詞頻分布研究。基于多語體文本語料庫的漢語詞頻分布規(guī)律研究發(fā)現(xiàn),漢語文本中詞頻符合Zipf分布、Zeta分布、Zipf-Mandelbort分布、Negative Hypergeometric分布、Waring分布、Hyperpoisson分布等規(guī)律;詞頻譜符合Zeta分布、Zipf-Mandelbrot分布、Waring分布、Yule分布、Johnson-Kotz分布等規(guī)律。漢語文本中的詞頻(譜)分布規(guī)律與其他語言相比沒有特殊性。
(6)漢語語體詞匯豐富性研究;谠~頻(譜)的詞匯豐富性計量研究發(fā)現(xiàn),詞頻分布規(guī)律中的參數(shù)、詞頻指數(shù)、詞頻幾何學指標、詞頻熵和重復率指標等,在不同語體中具有不同的計量特征,即這些指標可以用于區(qū)別不同語體。不同指標在區(qū)別不同語體方面具有顯著差異。
(7)漢語新詩形式的計量研究。基于不同時期的詩歌語料開展了歷時研究,從單現(xiàn)詞(hapax)、N元組、詞匯豐富程度(包括型例比TTR、詞頻指標h點和a指數(shù)、洛倫茨曲線、基尼系數(shù)等)、詞頻熵等角度,對不同時期的詩作文本進行計量描寫與比較,初步發(fā)現(xiàn)了一些能夠體現(xiàn)漢語新詩特征的計量指標。
3. 子課題二“現(xiàn)代漢語句法計量研究”進展情況
該子課題已經(jīng)基本完成了“漢英平行語料庫”“漢語歷時語料庫”“依存語法樹庫”“漢語(句法)網(wǎng)絡(luò)”等研究資源的構(gòu)建工作,并在此基礎(chǔ)上開展了漢語配價的協(xié)同特征、人類語言句中信息分布研究、漢語多層級系統(tǒng)、漢語句法歷時比較、漢語文體比較、英漢句法比較、依存句法網(wǎng)絡(luò)特性及其在語言類型學領(lǐng)域的應(yīng)用等方面的研究。詳細進展情況如下:
(1)漢語句法歷時演化研究。以唐前、唐五代、宋代、元明、清代和現(xiàn)代六個漢語依存樹庫為基礎(chǔ)對漢語句法的演化進行了一些計量研究。就句法功能的詞類構(gòu)成而言,主語、定語以及“的”字補足語的詞類構(gòu)成具有較大的歷時變化。其他句法功能的詞類構(gòu)成相對變化較小。就詞類的句法功能來看,除了形容詞之外,其他詞類的主要句法功能歷時變化不大。漢語的演化過程,支配詞居后這個詞序逐漸占據(jù)了主導的地位。與此同時,漢語的平均依存距離持續(xù)增加,意味著句法結(jié)構(gòu)變得更為復雜。這與定語關(guān)系以及狀語關(guān)系所占比例的持續(xù)增加可能密切相關(guān)。而“的”字補語關(guān)系以及量詞補語關(guān)系的大量出現(xiàn)可能體現(xiàn)了人們用以應(yīng)對這種復雜度增加的某種認知策略。該研究立足于真實語料,以定量的方式清晰的展示了所研究語料在歷時維度上的句法變化。目前有關(guān)該研究的論文正在寫作與修改中。
(2)漢語句法語體比較研究,詳見“代表性成果簡介”第3項。。
(3)英漢句法比較研究。以《中國日報》英漢雙語平行新聞?wù)Z料為基礎(chǔ),進行了分詞、詞性標注、依存關(guān)系句法標注,從而構(gòu)建了英漢雙語依存句法樹庫。在此基礎(chǔ)之上,對兩個樹庫中詞類、詞類頻率、主要依存關(guān)系頻率、依存距離、依存方向、依存關(guān)系構(gòu)成、詞類句法功能以及特殊結(jié)構(gòu)等方面進行了計量研究,獲得了大量反映了英漢兩種語言句法層面差異與相似之處的定量數(shù)據(jù)。這一研究從整體上更精確地把握了英漢句法差異。傳統(tǒng)的語言對比研究大都基于直覺內(nèi)省或簡單例句的分析討論,這往往難以全面地概括不同語言的結(jié)構(gòu)特點。以經(jīng)過標注的真實語料為基礎(chǔ),借助定量的研究方法對不同語言進行對比分析,有助于從語言整體的角度更清楚、更準確地觀察語言的共性以及不同語言的特殊性。此外,我們并未止步于這些數(shù)據(jù)的描寫,而是結(jié)合其他語言學科的相關(guān)理論就英漢對比研究所獲得的數(shù)據(jù)進行了語言學分析與討論,提出了能夠解釋這些差異的可能原因。目前該研究的相關(guān)論文正在撰寫中。
(4)句法復雜網(wǎng)絡(luò)研究;诰浞◤碗s網(wǎng)絡(luò)的類型學研究成果已發(fā)表于國際語言學SSCI、A&HCI期刊和國內(nèi)自然科學綜合類頂級期刊《科學通報》(SCI收錄)之上,詳見“代表性成果簡介”第7、8項。此外,我們也進行了句法復雜網(wǎng)絡(luò)作為語體分類知識源的研究,基于6種語體的句法樹庫構(gòu)建了6個依存句法網(wǎng)絡(luò),對這些網(wǎng)絡(luò)的邊數(shù)、節(jié)點數(shù)、節(jié)點平均度、聚類系數(shù)、平均最短路徑長度、網(wǎng)絡(luò)中心勢、直徑、節(jié)點度冪律分布的冪指數(shù)、度分布與冪律擬合的決定系數(shù)等整體特征進行了對比分析。以這些整體特征為變量,采用歐幾里得的“最短距離”法,對這6種語體的句法網(wǎng)絡(luò)進行了聚類分析。研究結(jié)果顯示,通過一些網(wǎng)絡(luò)的主要參數(shù),即網(wǎng)絡(luò)節(jié)點數(shù)、聚集系數(shù)、平均路徑長度、中心勢以及節(jié)點度冪律分布的冪指數(shù),可以對所研究的文本進行分類。與傳統(tǒng)的文本聚類方法相比,其結(jié)果更容易從語言學的角度進行合理的解釋。該研究成果已發(fā)表于國內(nèi)刊物《計算機工程與應(yīng)用》2013年第8期。
(5)漢語動詞配價的協(xié)同特征研究。以漢語依存樹庫和(《現(xiàn)代漢語詞典(第五版)》)為基礎(chǔ),抽取出動詞的配價信息,對漢語動詞配價的協(xié)同特征進行研究,結(jié)果發(fā)現(xiàn):漢語動詞的補足語形式分布和動詞的多義度分布遵循一定的規(guī)則,動詞配價及其序之間的關(guān)系遵循冪律分布。同時,漢語動詞的多義度、詞長、頻率、多文度與配價之間的關(guān)系表現(xiàn)為:第一,漢語中動詞的多義度越大,配價越大;第二,漢語動詞的詞長越短,配價越大;第三,動詞出現(xiàn)的頻次越高,配價越大;第四,多文度越大,配價越大。為了找到最適合測量漢語詞長的單位,引入了體現(xiàn)漢語書面特點的“筆畫”和“部件”,提出并驗證了關(guān)于漢語動詞筆畫數(shù)的系列相關(guān)假設(shè):第一,動詞部首的筆畫數(shù)越多,整個漢字筆畫數(shù)越多;第二,動詞的筆畫數(shù)越少,多義度越大;第三,動詞詞長越短,筆畫越少;第四,動詞的筆畫越少,出現(xiàn)頻率越高;第五,動詞的筆畫越少,配價越大。將筆畫數(shù)、部首數(shù)與體現(xiàn)漢語口語特點的拼音字母數(shù)相對比,我們認為漢語的拼音字母數(shù)更適合測量漢語詞長。這項研究已被國際計量語言學權(quán)威刊物Journal of Quantitative Linguistics錄用,該刊為SSCI與A&HCI收錄期刊。
(6)基于概率配價模式理論的花園幽徑句研究。花園幽徑句是在英語和漢語中都存在的一種特殊句子,該句子會造成人們理解的困難。為了更好地解釋花園幽徑句理解困難的原因,在概率配價模式理論的指導下,從定性和定量的角度對漢語花園幽徑句的理解過程進行了分析,闡釋了花園幽徑句的理解機理。將漢語依存樹庫中提取出的數(shù)據(jù)與語言學中的統(tǒng)計規(guī)律相結(jié)合,證明理解花園幽徑句前面的歧義段,不同的歧義結(jié)果之間往往具有優(yōu)先性,同時提出受概率的影響和當前概率優(yōu)先原則的支配是導致花園幽徑句理解困難的一個重要原因。本研究成果《基于概率配價模式理論的花園幽徑句研究》已被《語言文字應(yīng)用》錄用,待發(fā)表。
(7)現(xiàn)代漢語多層級網(wǎng)絡(luò)研究,F(xiàn)代語言學普遍將語言視作一個在意義-形式維度上具有不同層面的系統(tǒng)。這些層面都是語言系統(tǒng)的子系統(tǒng),可定義為相關(guān)的語言單位及其關(guān)系。在語言的較深層面,語言單位之間的關(guān)系表現(xiàn)為非線性的結(jié)構(gòu)關(guān)系(如句法結(jié)構(gòu)和語義結(jié)構(gòu)關(guān)系)。而在較淺的層面,語言單位之間的關(guān)系則是線性的同現(xiàn)關(guān)系(如詞同現(xiàn)和字同現(xiàn)關(guān)系)。如果語言是一個系統(tǒng),那么其在宏觀尺度上涌現(xiàn)出來的組織方式(整體特征)就無法用偏重語言局部結(jié)構(gòu)特征的語言學傳統(tǒng)方法來進行研究。換言之,目前的語言學研究方法無法揭示語言是一個什么樣的系統(tǒng)。復雜網(wǎng)絡(luò)方法已用于研究不同的語言子系統(tǒng)。然而,這些研究存在著兩個較明顯的問題。一方面,這些研究多停留于對所研究的語言網(wǎng)絡(luò)模型的參數(shù)本身的探討,并沒有結(jié)合語言學及其周邊學科的觀點來解讀這些參數(shù)對于語言系統(tǒng)來說意味著什么。另一方面,這些研究一般只探討某一個語言子系統(tǒng)的宏觀組織方式,這樣就無法全面揭示語言作為一個分層系統(tǒng)的整體情況。因此,要研究某個語言作為一個分層系統(tǒng)的組織特征,理想的方法是基于相同的語料,在該語言的不同層面上分別構(gòu)建語言網(wǎng)絡(luò)模型,通過描述和比較這些模型的組織特征來獲得該語言作為分層系統(tǒng)的整體概觀。同時,應(yīng)結(jié)合語言學及其周邊學科的觀點對研究的發(fā)現(xiàn)進行解讀,以期讓復雜網(wǎng)絡(luò)的方法能夠真正地加深我們對于語言系統(tǒng)的理解。本研究采用復雜網(wǎng)絡(luò)方法研究作為分層系統(tǒng)的現(xiàn)代漢語。采用現(xiàn)代漢語真實語料構(gòu)擬了漢語在意義-形式維度上的(作為語言子系統(tǒng)的)四個層面的語言網(wǎng)絡(luò)模型,分別是:動態(tài)語義網(wǎng)絡(luò)(實詞/詞匯概念作為節(jié)點,其語義結(jié)構(gòu)關(guān)系作為邊)、句法依存網(wǎng)絡(luò)(詞作為節(jié)點,其句法依存關(guān)系作為邊)、詞同現(xiàn)網(wǎng)絡(luò)(詞作為節(jié)點,其同現(xiàn)關(guān)系作為邊)和字同現(xiàn)網(wǎng)絡(luò)(字作為節(jié)點,其同現(xiàn)關(guān)系作為邊)。研究計算了四個網(wǎng)絡(luò)模型的主要復雜網(wǎng)絡(luò)參數(shù)。這些參數(shù)表明:四個網(wǎng)絡(luò)均在不同程度上呈現(xiàn)小世界(較短的平均路徑長度和較高的聚集系數(shù))、無尺度(度分布符合冪律)、負相關(guān)和層級組織的拓撲結(jié)構(gòu)特性。小世界屬性意味著漢語在各個層面上的知識具有高效的組織方式。節(jié)點之間較短的距離能夠有效地減少擴散激活過程中的能量損耗。無尺度屬性意味著在各個層面上只有極少數(shù)語言單位具有極強的結(jié)合能力,而大多數(shù)語言單位的結(jié)合能力都相對較弱。這是省力原則的一種體現(xiàn),反映了說話人在語言表達和聽話人在語言理解這兩方面的省力需求所達到的平衡。而小世界和無尺度屬性共同保證了漢語在各個層面上的知識網(wǎng)絡(luò)的“適航性”,保證了擴散激活這一蠻力的、無指導的過程能夠順利進行。層級組織特征則確保了小世界和無尺度特征能同時存在,而它又與負相關(guān)特征有著密切聯(lián)系。因此,漢語的四個子系統(tǒng)所體現(xiàn)出的宏觀組織特征是相輔相成的,共同保證了它們的高效組織方式。同時,四個網(wǎng)絡(luò)模型的拓撲結(jié)構(gòu)特征也存在著差異,反映著四個子系統(tǒng)之間的關(guān)系。動態(tài)語義網(wǎng)絡(luò)的拓撲結(jié)構(gòu)特征與其他網(wǎng)絡(luò)具有較大差異。這表明,語義結(jié)構(gòu)子系統(tǒng)(作為概念表征子系統(tǒng))相比于其他三個子系統(tǒng)(作為語言表達子系統(tǒng))來說,是一個相對獨立的語言子系統(tǒng)。該網(wǎng)絡(luò)的某些拓撲結(jié)構(gòu)特征(如小世界和負相關(guān))弱于其他網(wǎng)絡(luò),這是由于該層面缺少具有極強結(jié)合能力的語言單位。較弱的拓撲結(jié)構(gòu)特征在宏觀尺度上體現(xiàn)了語義結(jié)構(gòu)的前語言性。對單個拓撲結(jié)構(gòu)特征的比較以及聚類分析均發(fā)現(xiàn),句法依存網(wǎng)絡(luò)與詞同現(xiàn)網(wǎng)絡(luò)具有極高的相似性。這種相似性源于句法依存關(guān)系與詞同現(xiàn)關(guān)系的高度重合(50%以上的依存關(guān)系存在于相鄰的兩詞之間)。這種重合使得漢語句法在產(chǎn)出、理解和習得方面的難度都控制在一個較低的水平。而句法依存網(wǎng)絡(luò)與詞同現(xiàn)網(wǎng)絡(luò)之間的高度相似在系統(tǒng)層面上反映了漢語為句法產(chǎn)出、理解和習得所提供的便利。字同現(xiàn)網(wǎng)絡(luò)的某些拓撲結(jié)構(gòu)特征明顯強于其他三種網(wǎng)絡(luò),這是由于其中樞節(jié)點的相對結(jié)合能力明顯較強。該網(wǎng)絡(luò)的中樞節(jié)點是單字的漢語虛詞,其在漢語理解的分詞過程中發(fā)揮著分隔符的作用,其較強的結(jié)合能力對于漢語這種缺乏顯式分詞機制的語言來說尤為重要?傊狙芯恳远康姆绞绞状谓沂玖藵h語作為分層系統(tǒng)的宏觀特征,并以語言學、認知科學和網(wǎng)絡(luò)科學的觀點對研究發(fā)現(xiàn)進行了解讀,拓展了我們對于語言作為分層系統(tǒng)的認識。本研究已被國際著名漢語語言學研究刊物Journal of Chinese Linguistics錄用,該雜志為SSCI、A&HCI收錄期刊。
(8)漢語句子信息量分布研究。語言是一個通訊系統(tǒng),語言系統(tǒng)在通訊方面的性質(zhì)就是語言的重要性質(zhì)。信息理論證明,通訊系統(tǒng)在噪聲信道中最優(yōu)的信息傳遞方式是與信道能力相近的穩(wěn)定的傳遞速率。如果人類在語言進化中在通訊方面已經(jīng)得到優(yōu)化,那么人類的語言和言語就應(yīng)該具有穩(wěn)定的信息傳遞速率或均勻信息密度(即UID假說或CER假說)。信息論可以解釋很多層面上的語言現(xiàn)象,但信息量是如何在句子中分布的這個可以使我們從信息量的角度理解句子的生成和理解的關(guān)鍵問題卻至今沒有一個滿意的答案。UID和CER假說只給出了一個一般性的觀點,并沒有給出句子內(nèi)部的詳細說明。我們以與信息量相關(guān)的、具有明確意義的統(tǒng)計量開展了句子中信息量分布研究。這些統(tǒng)計量有:平均語境外信息量(熵),各位置上出現(xiàn)的詞的頻率特性、詞數(shù)、詞的冪律指數(shù)等。另外,一個句子是一個具有結(jié)構(gòu)的相對完整的語言單位,句中信息量是分布在整個句子上的,由于句尾可能具有不同信息量的分布,即句尾效應(yīng),因此,在不同長度的句子中同樣的位置上信息分布特征可能會不同,因此,統(tǒng)計句中不同位置上的平均信息量應(yīng)該在相同長度的句子上進行。此研究結(jié)果發(fā)現(xiàn),句子中各位置的熵以及相關(guān)統(tǒng)計量均呈3步階梯式遞增,即,句首顯著小于句中間各位置(除去句首和句尾的位置),句中間顯著小于句尾,而句中間各位置上沒有顯著差異。這說明:第一,句中詞提供的語境信息并不是隨著詞的增加而累加,這意味著句中詞與句子整體的關(guān)系并不是多層遞進,而是多方面平行;第二,句中詞提供的語境信息呈現(xiàn)“整體大于部分之和”的模式,結(jié)構(gòu)也提供了信息。此研究不但發(fā)現(xiàn)了句中信息量的分布特性,提示我們處理通訊優(yōu)化約束以外還需要另外的參數(shù)來解釋句中信息量的分布,而且還表明在計算句中詞的信息量時,常使用馬爾科夫模型建模語境的方法存在本質(zhì)上問題,為進一步研究語境建模提供了指導。此研究成果正處于論文修改階段。
4. 子課題三“面向計算語言學的自然語言形式化計量研究”進展情況
本子課題重點圍繞依存結(jié)構(gòu)樹的計數(shù)、枚舉、層次化等方面展開研究。
(1)依存結(jié)構(gòu)樹計數(shù)研究,F(xiàn)有的研究成果給出的依存結(jié)構(gòu)樹計數(shù)算法存在著兩個局限性:一是數(shù)據(jù)精度問題,由于計算機字長的限制,該算法能得到的正確結(jié)果非常少,其他結(jié)果都因為數(shù)據(jù)溢出而不正確;二是算法的時間復雜度過高,在現(xiàn)實中無法應(yīng)用。為了克服上述局限,我們做了兩方面的準備:一方面,我們提出一套基于字符數(shù)組的超長整數(shù)表示方法和四則運算算法;另一方面,在超長整數(shù)表示方法和四則運算的基礎(chǔ)上改進了依存結(jié)構(gòu)樹的計數(shù)算法,能得到依存結(jié)構(gòu)樹的精確計數(shù)結(jié)果。改進的計數(shù)算法依賴于“直接子樹”和在此基礎(chǔ)上定義的“依存結(jié)構(gòu)森林”這兩個概念,算法的核心思想是遞歸計算:具有給定結(jié)點數(shù)的依存結(jié)構(gòu)樹的不同形態(tài)數(shù)目可用若干依存結(jié)構(gòu)森林的計數(shù)結(jié)果來表示,依存結(jié)構(gòu)森林的計數(shù)結(jié)果可用若干更小的依存結(jié)構(gòu)樹的計數(shù)結(jié)果來表示。研究依存結(jié)構(gòu)樹的精確計數(shù)有助于深入了解依存結(jié)構(gòu)樹的形式特征,為依存結(jié)構(gòu)樹的枚舉提供理論支持,并在依存句法分析過程中預估問題的規(guī)模與復雜度。這部分成果正處于后期的整理和寫作當中。
(2)依存結(jié)構(gòu)樹枚舉研究。我們提出了兩種不同的枚舉算法。一個是基于后繼思想的算法,另一個是基于后進先出棧的算法。兩種算法都是以依存結(jié)構(gòu)樹的編碼為基礎(chǔ)的,它們使用的編碼是相同的。第一種算法定義了一種能將依存結(jié)構(gòu)樹形態(tài)編碼進行排序的線序關(guān)系“前于”,并根據(jù)機械過程理論提出了求解任何一棵依存結(jié)構(gòu)樹在前于關(guān)系中的后繼樹的算法,按照這種算法可以順次生成所有可能的依存結(jié)構(gòu)樹。其特點是下一棵依存結(jié)構(gòu)樹的生成僅僅跟上一棵依存結(jié)構(gòu)樹有關(guān)。第二種算法定義了一種截然不同的線序關(guān)系,提出了一種基于棧的算法,根據(jù)這種線序關(guān)系順次生成所有可能的依存結(jié)構(gòu)樹。根據(jù)該算法產(chǎn)生的兩棵相鄰的依存結(jié)構(gòu)樹之間沒有直接關(guān)系,但該算法的一個優(yōu)點是它可以在滿足依存結(jié)構(gòu)樹部分結(jié)點間的依存關(guān)系的前提下來生成所有可能的依存結(jié)構(gòu)樹。兩種算法各有優(yōu)點,后繼算法的空間復雜度優(yōu)于棧算法,但棧算法的時間復雜度優(yōu)于后繼算法。依存結(jié)構(gòu)樹枚舉算法研究給出了依存結(jié)構(gòu)樹的全部編碼空間,為下一步的基于依存結(jié)構(gòu)的語言分析與理解研究打下堅實的理論基礎(chǔ),也為構(gòu)建基于概率統(tǒng)計的自然語言歧義消解機制研究創(chuàng)造了條件。這部分成果已經(jīng)初步完稿,待進一步修改之后即可投稿。
(3)依存結(jié)構(gòu)樹層次化研究。我們提出一種算法,使用一種由純字符組成的圖形來表示依存結(jié)構(gòu)樹的結(jié)構(gòu)形態(tài)。這種圖形的好處有兩點:一是不必借助專門的繪圖和看圖工具來查看依存結(jié)構(gòu)樹的結(jié)構(gòu)形態(tài),借助于普通的文本編輯軟件就可以查看;二是這種圖能清楚地表示依存結(jié)構(gòu)樹的層次。研究依存結(jié)構(gòu)樹的層次,有助于我們加深對依存距離最小化的認識,從而有助于對大腦的句子理解機制的研究。這部分內(nèi)容正在整理中,很快會完成數(shù)據(jù)梳理和論文撰寫的工作。
5. 子課題四“漢語計量研究與認知結(jié)構(gòu)關(guān)系研究”進展情況
本子課題已經(jīng)進行了大量的材料收集和實驗測量,積累了豐富的資料(包括評定后的500個分類學概念詞、100個情感詞、100個一般意義上的抽象詞、30萬字的聾人作文文本),構(gòu)建了多個不同語體、不同時期的漢語句法標注樹庫和兩個英語樹庫,為下一步研究工作打下堅實基礎(chǔ)。
在此基礎(chǔ)上,本子課題對中文詞識別機制、詞形態(tài)和語義認知機制、長距離依存關(guān)系處理認知機制等方面進行了研究。其中,中文詞識別機制、詞形態(tài)和語義認知機制研究以心理語言學實驗方法為主,基于分類學概念理論體系,以不同特點群體為對象,參照文本語義網(wǎng)絡(luò)資源(http://corpora.uni-leipzig.de/)確定實驗內(nèi)容(經(jīng)常出現(xiàn)在同一文本語境下的常見中文詞)并重點開展詞形態(tài)和語義認知機制研究;依存距離與語言處理認知機制研究以句法標注語料庫計量方法為主,輔之以適當?shù)男睦韺W實驗。從目前研究來看,這幾方面之間可能存在密切的關(guān)系,詞識別機制和語義認知機制對長距離依存關(guān)系的處理可能有較為重要的影響。這些方面的研究現(xiàn)在已經(jīng)取得了一些重要的成果,為今后全面系統(tǒng)地將計量語言研究與語言認知結(jié)構(gòu)研究有機融合并進行更深一步的研究打下了基礎(chǔ)。詳細的研究進展如下:
(1)基于語義加工導向的中文單、雙字詞識別機制研究。中文句法結(jié)構(gòu)和句子的最小構(gòu)成成分(詞)之間的語義關(guān)系相互交融。在非語境中考察詞的語義加工受其他詞的影響是系統(tǒng)研究中文認知結(jié)構(gòu)的前提。我們使用啟動范式下的語義歸類任務(wù),同時以分類學概念中基本水平概念單、雙字詞為目標刺激,操縱SOA和啟動詞在形音義方面與目標詞的關(guān)系,共對200人進行實驗測量(實驗1和實驗2),結(jié)果發(fā)現(xiàn)單、雙字詞的情況有相似也有差異。在反應(yīng)時上相似的是,啟動效應(yīng)在137 ms及之后的幾個SOA水平(187、237和287 ms)上顯著;實驗1形態(tài)輪廓、讀音和語義三種條件下,形態(tài)輪廓(兩/手表)和目標詞(雨/小麥)相似啟動詞對的啟動效應(yīng)最小,其次是讀音(骨/消息)和目標詞(故/小溪)相似的情況,啟動效應(yīng)最大的是語義(狼/劇院)和目標詞(豹/教堂)相近的情況;實驗2啟動刺激是目標詞(餐廳或盤)的同位概念詞的字序顛倒(室教)或部件位置顛倒(木字旁在右不字在左)——類內(nèi)倒序,是目標詞(地震或盤)的同位概念詞的字序顛倒(室教或球)或部件位置顛倒(王字旁在右求字在左)——同詞顛倒、是目標詞(劇院或狼)的語義相近詞(教堂或豹)——語義相近,在這三種條件下,本詞顛倒情況的啟動效應(yīng)最小,同類顛倒和語義相近情況的啟動效應(yīng)大小差不多。單、雙字詞的不同是,在反應(yīng)時上,實驗1中,單字詞條件下的啟動效應(yīng)較小,雙字詞條件下的啟動效應(yīng)較大。在準確率上,實驗1與單字目標詞輪廓相似的啟動刺激對目標刺激的判斷有干擾效應(yīng),與雙字詞語義相近的啟動刺激對目標刺激的判斷有有干擾效應(yīng)。實驗2,啟動刺激和目標刺激語義相近時,雙字詞條件下,目標刺激的判斷受到啟動刺激較大干擾。這兩個實驗的發(fā)現(xiàn)不僅補充了以往研究,而且系統(tǒng)揭示了常見具體事物概念詞的語義判斷在形音義方面受其他相關(guān)信息加工方面的影響。相關(guān)論文正在撰寫之中。
(2)第二語言詞形態(tài)和語義加工的心理機制研究。作為第一、二語言句法結(jié)構(gòu)認知研究的前提,在詞的層面,我們對近1000人經(jīng)數(shù)次測量,比較了一、二語言條件下分類學概念中上位和基本水平概念詞之間的概念聯(lián)系意識(實驗3)、情感詞語義加工與詞呈現(xiàn)的上下空間位置的隱喻關(guān)聯(lián)(實驗4)、一般意義抽象詞間的語義關(guān)系意識(實驗5),考察了英文派生詞和曲折詞的形態(tài)加工過程(實驗6)。結(jié)果發(fā)現(xiàn),實驗3在一、二語言條件下,分類學概念中不同水平概念詞間的聯(lián)系意識有不同的模式:在第二語言條件下,對上位水平概念詞的語義加工機制不同于對基本水平概念詞。不同水平概念詞的自動化識別有明顯孤立性傾向;上位水平詞的有意識識別能夠激活它與基本水平概念詞間的概念聯(lián)系,但是,基本水平詞的有意識識別卻不能夠激活它與上位水平概念詞間的概念聯(lián)系。實驗4在知識層面,一、二語言情感詞的語義加工機制有相似,但是,第二語言情感詞的自動化加工不能激活詞義與空間位置之間的隱喻關(guān)聯(lián)。實驗5結(jié)果和實驗4相似,第二語言詞的有意識的識別似乎是借助于翻譯完成,但是,二語詞的自動化識別卻不能激活抽象詞間的語義聯(lián)系。實驗6與其他國家研究發(fā)現(xiàn)不同的是,中國大學生(浙大一二年級理工科學生)對于曲折詞發(fā)展有明確構(gòu)詞意識;對于派生詞,他們也能發(fā)展一定程度的構(gòu)詞意識。所以如此可能得益于中文字詞識別習慣的影響。有關(guān)這些研究的論文正在審稿與撰寫中。
(3)聾人青少年書面詞形態(tài)和語義加工的心理機制研究。聾人作為特殊群體,他們在書面語認知活動中表現(xiàn)出的認知規(guī)律對于普遍意義上的書面語研究有獨特的價值。我們也初步完成了對聾人青少年在具體詞間分類學聯(lián)系和主題關(guān)聯(lián)聯(lián)系方面的比較(實驗7)和在分類學概念詞間的語義聯(lián)系意識的考察(實驗8、9),結(jié)果發(fā)現(xiàn),實驗7對于具體事物概念詞,聾人青少年能夠發(fā)展分類學聯(lián)系意識,但是,相比之下,他們較難發(fā)展主題關(guān)聯(lián)聯(lián)系意識。本研究已經(jīng)發(fā)表于American Annals of the Deaf 156(5)。實驗8對于基本水平概念詞,聾人青少年能夠發(fā)展概念詞之間的語義聯(lián)系意識,只是相對健聽人較弱,但是,在上位水平概念詞自動化識別加工過程中,他們產(chǎn)生概念間聯(lián)系的意識特別弱。實驗9聾人青少年識別上位水平概念詞的過程中,他們不可避免的需要經(jīng)過多個相應(yīng)的典型性水平較低概念成員的心理表征的激活。相關(guān)論文正在審稿與撰寫中。。
(4)漢語長距離依存關(guān)系研究。對依存標注語料庫的計量研究表明漢語中主語、賓語、介詞賓語以及介詞狀語關(guān)系是最高頻的長距離依存關(guān)系。對主語進行的計量研究表明,主語本身的信息特點與依存距離有密切關(guān)系。新主語(新信息)的依存距離往往較短,舊主語(前文已出現(xiàn)過的信息)的依存距離往往較長,兩者之間具有顯著差異。這顯然與啟動效應(yīng)有密切的關(guān)系:語義啟動詞具有非常強的啟動效應(yīng)。這表明就主語的處理而言,依存距離與主語的信息特點之間可能存在協(xié)同作用,長距離主語關(guān)系可能未必一定難以處理。介詞往往涉及長距離介詞賓語關(guān)系與介詞狀語關(guān)系,對漢語中最常見的介詞是“在”進行的反應(yīng)時實驗表明,長依存距離對“在”涉及的介詞賓語以及狀語關(guān)系的處理并無顯著影響。其原因可能在于“在”作為高頻虛詞可能主要扮演了格標記的角色,對句法及語義結(jié)構(gòu)起到標示作用,本身不涉及語義關(guān)系,處理較為簡單。高頻虛詞的激活可能較為容易,長依存距離帶來的工作記憶衰退問題可能相應(yīng)并不嚴重。其次,漢語的結(jié)構(gòu)特點使得介詞“在”的賓語往往與謂語距離較近,其長距離介賓關(guān)系往往意味著較短的語義依存距離,從語義加工的角度來看,這可能也有利于語言處理。值得注意的是,漢語中大多數(shù)的虛詞可能都具有這些特點。在漢語小句的各種依存關(guān)系中,賓語的平均依存距離是最長的。但是賓語位于句尾,如果語言的處理是一個增量的、不斷進行預測和判斷的過程,賓語的位置可能也可以在某種程度上減少處理的復雜度,因為處理賓語時句子的大部分信息是已知的信息。對長距離賓語的概率p(obj|pre,atr)進行的計量研究表明,相當一部分(45%)的長距離賓語的概率p(obj|pre,atr)大于0.1,其余賓語的概率則極低,或者無法統(tǒng)計。對于這些賓語,完型填空問卷研究表明p(obj|pre,atr)大于0.1的賓語的正確率基本都在0.2以上。根據(jù)現(xiàn)有文獻來看,這個正確率說明處理難度有效地減少了。p(obj|pre,atr)大于0.1反映了較高的可預測度。對于其余的低正確率賓語,在提供語境(前一個句子)的情況下的研究,結(jié)果表明一部分賓語的正確率也提高到0.2。這些研究表明,長距離賓語往往可能伴隨著較高可預測度與較低的信息度,這無疑有利于賓語詞的識別與加工。這兩個因素往往可能也使得長依存距離對賓語處理復雜度不會帶來顯著的影響。該研究表明在較微觀的具體依存關(guān)系層面,真實語言中的長依存距離可能僅僅是影響處理復雜度的一個因素,同時受到其他諸多因素(如詞的識別與語義處理機制等)的制約。這些因素協(xié)同作用,可能使得真實語言中高頻出現(xiàn)的長依存距離往往不會顯著增加真實使用的語言的處理難度。目前課題組正在根據(jù)該研究成果撰寫論文,擬投稿語言學及認知類的SSCI期刊。
(5)語碼轉(zhuǎn)換機制的認知與計量研究。該研究階段性成果已發(fā)表于國際著名普通語言學刊物Lingua,詳見“代表性成果簡介”第5項。
二、調(diào)研及學術(shù)交流情況
1. 調(diào)研情況
國內(nèi)計量語言學研究尚處于起步階段,課題組在申請課題時已經(jīng)對國內(nèi)外計量語言學研究現(xiàn)狀有過較為詳細的了解,立項后課題組主要進行了以下兩方面的工作。
第一,文獻資料收集整理。課題組雖然已經(jīng)掌握大量的計量語言學及相關(guān)領(lǐng)域文獻資料,但是為了本課題研究能夠處于國際學術(shù)前沿水平,始終注重文獻收集與整理工作。除了已有的幾種計量語言學學術(shù)期刊的全部期數(shù)和計量語言學主要經(jīng)典著作外,還繼續(xù)收集了大量論文和著作,以及同一著作的不同語言版本。其中不乏一些稀缺資源,包括英語、德語、俄語、法語等語種的文獻。在此基礎(chǔ)上,完成了《協(xié)同語言學》和一些計量語言學領(lǐng)域重要論文的翻譯、校訂工作。
第二,與國內(nèi)外高校和科研機構(gòu)開展多種形式的合作交流。為了提升國內(nèi)學者對計量語言學的關(guān)注熱情、加強不同學科領(lǐng)域的交流合作、增強課題研究成果的影響與價值,課題組對西安交通大學、北京外國語大學、黑龍江大學、大連海事大學、寧夏大學、浙江師范大學、寧波大學等學術(shù)機構(gòu)進行了走訪,就課題研究內(nèi)容與進展同國內(nèi)學者進行交流討論,商討合作研究等事宜。
2. 學術(shù)交流情況
為了開闊學術(shù)視野,尋求廣泛和深入的合作,增強研究成果宣傳推介力度,課題組積極組織、大力支持各類學術(shù)交流活動。一方面,“請進來”,邀請國內(nèi)外專家學者參與本課題研究或給予指導;另一方面,“走出去”,積極參加國內(nèi)外學術(shù)會議,出國訪問學習,走訪國內(nèi)外相關(guān)研究單位,開展學術(shù)報告,向國內(nèi)外學界介紹我們的研究進展與成果。
目前,課題組與國際計量語言學的幾個主要研究機構(gòu),如德國特里爾大學、波鴻大學、法蘭克福大學、奧地利維也納大學、捷克奧洛穆茨帕拉茨基大學、西班牙加泰倫尼亞理工大學等機構(gòu)的學者保持著密切的學術(shù)交流關(guān)系,并已展開一些實質(zhì)性的研究。項目首席專家劉海濤為Journal of Quantitative Linguistics、Glottometrics、Glottotheory三本國際著名的計量語言學期刊的編委會成員,這一方面保證了本課題組各項研究內(nèi)容的前沿性,另一方面也為課題組研究成果的國際交流與共享創(chuàng)造了條件。
課題組2012年年度會議于2012年12月16日在浙江大學紫金港校區(qū)舉行。會議特邀教育部語言文字應(yīng)用研究所馮志偉研究員出席指導。馮志偉研究員聽取課題組關(guān)于已取得的研究成果與正在開展的研究課題的匯報后給予充分肯定,并就研究中遇到的一些具體問題給出了指導性建議。同時他還鼓勵課題組要爭取更多地在國際上發(fā)表課題相關(guān)研究成果,以增強我國人文社會科學研究在國際學術(shù)界的影響力。
課題組成員已有數(shù)人出國訪問、學習,如:王璐目前在德國特里爾大學跟隨國際計量語言學會前會長Reinhard K?hler學習計量語言學,開展?jié)h語計量研究;陳芯瑩于2013年8月赴意大利參加國際計量語言學暑期班(IQLA-GIAT International Summer School on Quantitative Analysis of Textual Data)進修;瞿云華曾赴美國跟隨著名語料庫專家Douglas Biber學習,開展語料庫語言學研究;樂明也曾赴美隨著名語言學家Joan Bybee學習,開展語言的歷時計量研究。
課題組成員何蓮珍、馬博森、李德高、王永、梁君英、陳芯瑩等多次參加國內(nèi)外學術(shù)會議并在會上宣讀了與本課題有關(guān)的學術(shù)論文。
三、代表性成果簡介
課題組在計量語言學理論與方法、漢語(語音、詞匯、句法、語義、語體等)計量研究、多語計量研究、語言認知、語言計量研究方法創(chuàng)新等方面取得了豐富的研究成果。以下選取各方面代表性成果進行簡要介紹。
1. 《計量語言學的現(xiàn)狀、理論與方法》(發(fā)表于《浙江大學學報(人文社會科學版)》2012年第2期)
本文從理論、方法、歷史與現(xiàn)狀等方面,系統(tǒng)地總結(jié)和介紹了計量語言學這一新興的和重要的語言學分支學科。計量語言學以真實語料為基礎(chǔ),用精確的方法來研究語言結(jié)構(gòu)與發(fā)展規(guī)律,揭示各種語言現(xiàn)象形成的內(nèi)在原因,探索語言系統(tǒng)的自適應(yīng)機制和語言演化的動因。計量語言學認為語言是一種生物-認知現(xiàn)象和心理-社會現(xiàn)象,語言系統(tǒng)是一個自組織、自適應(yīng)的動態(tài)系統(tǒng),是一個復雜系統(tǒng)。計量語言學具有精確、真實、動態(tài)三大特點,是一個典型的文理交叉學科,具有鮮明的跨學科研究特質(zhì)。計量語言學研究對于構(gòu)建一種現(xiàn)代科學意義上的語言學理論是非常重要的。本文在回顧歷史、把握現(xiàn)狀的基礎(chǔ)上,厘清了該學科進一步發(fā)展的走向,在向國內(nèi)學界引介國際計量語言學研究的同時,對漢語的計量研究給予了特別關(guān)注,旨在引起國內(nèi)學者對該學科領(lǐng)域的重視,進而推動中國語言學的國際化與語言學研究的科學化水平。
2. Statistical Analysis of Chinese Phonemic Contrast(發(fā)表于Phonetica, 68, 2011,SCI、SSCI、A&HCI收錄)
在語音層面對旨在說明音位演化的Martinet假設(shè)進行了深入研究。研究表明,如果以音位對立度(phonemic contrast)作為功能負荷(functional load)的量化指標,那么音位的功能負荷大小與某些音位的消失并無直接關(guān)系,這從定量與統(tǒng)計的角度對傳統(tǒng)的Martinet假設(shè)提出了有力的質(zhì)疑,也就是說音位的功能負荷(對立度)并非越大越好。我們的研究表明,元音與輔音的音位對立度與詞長之間可以分別用兩個函數(shù)來描述:f(x)=7.249*exp(-2.673*x),f(x)=2.864*exp(-2.716*x),即:漢語的音位對立度普遍較低。較低的音位對立度意味著較高的稀疏度,從而提高了語言的冗余度。從語言的交際功能與認知心理基礎(chǔ)來看,這種高冗余度非常有利于提高語言交際過程中信息傳遞的可靠性。這一發(fā)現(xiàn)也為設(shè)計更好的自動語音識別系統(tǒng)提供了重要的啟發(fā)。
3. Synergetic Study on Chinese Lexical Structure(已錄用,將發(fā)表于Journal of Quantitative Linguistics,SSCI與A&HCI收錄期刊)
本研究在協(xié)同語言學理論框架下,使用《人民日報》標注語料庫,在漢語詞匯層面使用頻率、詞長、多義度和多文度4個屬性,實驗了協(xié)同模型,取得良好結(jié)果。具體來說,首先,模型的直接關(guān)系,間接關(guān)系,雙重間接關(guān)系擬合結(jié)果與其他語言研究得到的結(jié)果類似。說明詞匯層面,語言是一個自適應(yīng)系統(tǒng),漢語與其他語言在這方面是一致的。其次,頻率-詞長關(guān)系,即詞長受到頻率的影響程度,較為特殊,其圖線噪聲較大,數(shù)據(jù)點圍繞理論曲線在一定面積內(nèi)分布。仿照此前的協(xié)同模型研究,使用時序分析的處理方法,平均移動,得到了與其他語言一樣的圖形,即圍繞理論曲線上下波動的線圖。雖然冪律關(guān)系尚不能精確描述詞長受頻率的影響,但還是在一定程度上揭示了語言的共性。對于漢語,我們又發(fā)現(xiàn),平均移動后的線圖,更符合指數(shù)方程。該研究一方面在語言類型上豐富了協(xié)同模型的可應(yīng)用范圍,另一方面明確了漢語自身的特點以及與其他語言的異同。
4. 《基于依存句法標注樹庫的漢語語體差異研究》(發(fā)表于《語言文字應(yīng)用》2012年第4期)
以前期建設(shè)的依存句法標注語料庫為基礎(chǔ),我們首次嘗試在句法層面對語體進行精確的定量研究。研究表明,書面語中主語大多數(shù)由名詞充當,口語中主語大多數(shù)由代詞充當;書面語的定語構(gòu)成中名詞占絕對優(yōu)勢;口語中定語構(gòu)成中量詞結(jié)構(gòu)和“的”字結(jié)構(gòu)占多數(shù);書面語中副詞占29.8%,介詞結(jié)構(gòu)占24.8%;口語中副詞占57.5%,介詞結(jié)構(gòu)占10.6%;書面語中補語構(gòu)成較分散,口語中補語構(gòu)成較集中,主要是動詞。不同語體在謂語、賓語的詞類構(gòu)成方面差別較小,定語、狀語、補語等在詞類構(gòu)成上分布較為分散。該研究基于大量真實語料,將句法計量研究與語體比較研究相結(jié)合,對不同語體進行定量的描寫與比較,有助于發(fā)現(xiàn)潛在的語言規(guī)律。
5. Syntactic Variations in Chinese-English Code-switching(發(fā)表于Lingua, 123(1), 2013,SSCI與A&HCI收錄)
語碼轉(zhuǎn)換是指在日常交際中兩種或兩種以上語言或語言變體的語言運用;跐h英語碼轉(zhuǎn)換的依存樹庫,我們發(fā)現(xiàn):漢英語碼轉(zhuǎn)換樹庫存在依存距離的變異和以依存方向為測量指標的詞序變異;祀s依存比具有相同支配詞的單語依存的平均依存距離長。具體而言,漢英語碼轉(zhuǎn)換語料庫的平均依存距離比英語單語的平均依存距離長,比漢語單語的平均依存距離短。在語碼轉(zhuǎn)換樹庫中,存在兩類依存關(guān)系:單語依存和混雜依存。混雜依存類型比單語依存類型的平均依存距離長。主要語法關(guān)系(主語、賓語、定語和狀語)在句法變異中發(fā)揮著重要作用。依存方向在單語依存和混雜依存中的分布差異導致了語碼轉(zhuǎn)換的詞序變異。主要語法關(guān)系在單語依存和混雜依存中的分布差異導致了依存方向的分布差異。本研究以基于真實語料庫的計量語言學方法來研究語言在實際使用中呈現(xiàn)的趨勢和傾向,并進而探究了這些趨勢和傾向背后的認知功能等機制。把計量語言學研究成果和認知科學研究有機地結(jié)合起來無疑將使我們對語言有更為深入的認識。
6. Probability Distribution of Semantic Roles in a Chinese Treebank Annotated with Semantic Roles(發(fā)表于Synergetic Linguistics: Text and Languages as Dynamic Systems. Wien: Praesens Verlag. 2012)
語義是語言學的重要研究領(lǐng)域,但是目前該領(lǐng)域的計量研究非常少見。以語義標注語料庫為基礎(chǔ),我們首次對漢語語義角色的分布進行了研究。研究表明,漢語中語義角色的的頻率(frequency)以及頻率秩(frequency-rank)之間存在函數(shù)關(guān)系。語義角色的分布符合右截尾Zipf-Alekseev分布。這一發(fā)現(xiàn)有力地說明,在語義層面上語言的演化同樣經(jīng)歷了其他語言層面曾經(jīng)出現(xiàn)過的多樣化(diversification)過程。也就是說,各種不同的語義角色都是由某一個原型角色通過多樣化過程不斷演化發(fā)展而產(chǎn)生的。
7. Quantitative Typological Analysis of Romance Languages(發(fā)表于Poznań Studies in Contemporary Linguistics, 48(4), 2012,SSCI與A&HCI收錄)
以依存樹庫和相應(yīng)的句法復雜網(wǎng)絡(luò)為基礎(chǔ),將句法計量研究方法與句法復雜網(wǎng)絡(luò)研究方法應(yīng)用于羅曼語族的語言歷時研究和類型學共時研究。結(jié)果表明,著眼于整體的句法復雜網(wǎng)絡(luò)參數(shù)聚類分析和句法依存方向定量分析很好地體現(xiàn)了語言變化與差異的連續(xù)性,可以較好的揭示語言的歷時變化以及共時的類型學差異,為羅曼語族的歷史句法演變以及共時區(qū)分問題提供了令人滿意的答案。傳統(tǒng)的語言學解構(gòu)觀點可以對語言中某些細節(jié)的具體的問題做出描述。物理學中的復雜網(wǎng)絡(luò)分析方法和基于真實語料的計量方法則可以幫助我們從整體的角度來觀察語言。這種整體的觀點對于語言類型學的研究具有重要的意義。因為不同語言之間的差異是連續(xù)的,這意味著定性的傳統(tǒng)類型學研究方法有很大局限性。因為從不同的細節(jié)著眼,人們會對不同語族(如羅曼語族)的劃分得出完全不同的觀點。該研究將句法復雜網(wǎng)絡(luò)方法、依存樹庫計量方法與語言歷時研究、語言類型學研究結(jié)合起來,具有較強的研究方法指導意義。
8. Language Clustering with Word co-occurrence Networks based on Parallel Texts(發(fā)表于Chinese Science Bulletin, 58(10), 2013,SCI收錄)
將語言作為一個系統(tǒng)的觀念是現(xiàn)代語言學中最重要的假設(shè)之一。語言學的傳統(tǒng)方法無法揭示語言在宏觀尺度上的整體特征。而能夠以整體觀考察各種系統(tǒng)的復雜網(wǎng)絡(luò)可以彌補語言學在這方面的欠缺。對語言網(wǎng)絡(luò)的定量分析可望成為語言學中不同領(lǐng)域的潛在研究方法。語言分類就是一個有代表性的例子。以往研究表明,基于真實語料構(gòu)建句法依存網(wǎng)絡(luò),并采用這些網(wǎng)絡(luò)的主要參數(shù)進行聚類分析,能夠大致反映出對應(yīng)的語言在語言譜系中的親緣關(guān)系。由于語言復雜網(wǎng)絡(luò)反映的正是語言在宏觀尺度上的整體特征,基于復雜網(wǎng)絡(luò)的語言分類是對整體類型學的一大貢獻。然而,這些研究所獲得的語言分類并不精細,一般只滿足于將不同的語言大致劃入各自的語族。從方法上講,這些研究存在兩大問題。一是構(gòu)建句法依存網(wǎng)絡(luò)所采用的語料在語義內(nèi)容和語體方面不一致,可能會影響分類結(jié)果。二是句法依存網(wǎng)絡(luò)的構(gòu)建費時費力,不適用于對較多語言進行分類?紤]到以上這些問題,本研究采用了在語義和語體上均一致的平行文本作為語料,采用可以自動方式構(gòu)建的詞同現(xiàn)網(wǎng)絡(luò)作為網(wǎng)絡(luò)模型來進行語言分類實驗。研究采用的平行文本共14個,其中12個為斯拉夫語族不同語言的文本,其余2個為漢語和英語文本。因此,本研究能夠檢驗復雜網(wǎng)絡(luò)方法對同一語族的不同語言的分類,即較為精細的語言分類的適用性。研究分別計算了14個詞同現(xiàn)網(wǎng)絡(luò)的10個主要參數(shù),采用這些參數(shù)的64種不同組合進行聚類實驗。結(jié)果表明,有15種組合能夠得出較為理想的分類結(jié)果,即,既能將斯拉夫語言與非斯拉夫語言區(qū)分開來,又能將12種斯拉夫語言正確地劃分到各自的語支中去。此外,聚類結(jié)果還能反映出某些斯拉夫語言在其語支內(nèi)部的親緣關(guān)系。該分類結(jié)果要稍好于基于斯拉夫語言中的型例關(guān)系而得出的結(jié)果,與采用包括詞匯統(tǒng)計學在內(nèi)的其他方法所得到的結(jié)果大致具有可比性。結(jié)果也表明,這些語言在書寫系統(tǒng)上的差異對其分類并無影響。這也引起我們對語言與書寫系統(tǒng)之間關(guān)系的思考。另外,由于本研究所采用的方法依據(jù)的是語言作為一個系統(tǒng)的整體特征,其分類結(jié)果明顯好于采用依存方向等語序指標所得到的結(jié)果。這也表明, 對于像斯拉夫語言這樣具有較豐富的屈折形態(tài)變化的語言來說, 語序可能不是其分類的最佳依據(jù)。由于本研究的方法完全是從定量的角度去進行語言分類,它反映出來的語言之間的異同是連續(xù)性的,而非離散的。本研究的結(jié)論是:平行詞同現(xiàn)網(wǎng)絡(luò)能夠被用于語言的精細分類,而且在基于復雜網(wǎng)絡(luò)的語言分類中可被用作句法依存網(wǎng)絡(luò)的一種更為便捷的替代品。本研究所采用的方法也有助于建立一種注重整體特征的、定量的、能反映語言之間連續(xù)性差異的語言類型學研究路向。
四、成果宣傳推介情況
1. 開題研討會
本課題開題研討會于2012年2月26日在浙江大學外語學院舉行。專家組由教育部語言文字應(yīng)用研究所、大連海事大學、北京大學、清華大學、廣東外語外貿(mào)大學的知名學者構(gòu)成。浙江省社會科學界聯(lián)合會、浙江省哲學社會科學規(guī)劃辦公室、浙江大學、浙江大學社會科學研究院等單位的領(lǐng)導同志到會指導。與會專家和領(lǐng)導認真聽取了課題組的報告,對本課題的選題意義與價值、研究思路與方法、課題組人員配置分工等給予了充分肯定,就多方面相關(guān)問題與課題組成員展開廣泛和深入的討論,希望并一致認為課題組能夠在語言學跨學科研究方面取得突破性進展、取得豐碩成果,增強與提高中國語言學在國際學術(shù)界的聲望與話語權(quán)。開題研討會的已被國家社科規(guī)劃辦以及浙江大學相關(guān)網(wǎng)站報道。
2. 《光明日報》刊登《計量語言學:語言研究的科學化途徑》一文
2012年2月15日,《光明日報》(第16版)刊登了本課題首席專家劉海濤撰寫的文章《計量語言學:語言研究的科學化途徑》。這是該報“國家社科基金”?_辟“跨學科研究”專欄后的首篇文章。文章指出,語言研究的科學化一直是現(xiàn)代語言學家的一個主要努力方向與重要目標;在語言學中引入計量方法可能是語言學科學化的必要途徑;開展多層次的漢語計量語言學研究不僅是對國際計量語言學的補充與發(fā)展,也有助于提高中國語言學的國際化與語言學的科學化,是一個值得更多語言學家參與的領(lǐng)域。文章還對計量語言學的理論、方法、歷史與現(xiàn)狀進行了介紹。
3. 國際著名計量語言學期刊Glottometrics對本項目進行了專題報道
國際著名計量語言學刊物Glottometrics在2011年出版的第22期中,對本項目進行了較詳細的報道與介紹。鑒于這本期刊在國際計量語言學中的重要地位,該報道使得幾乎所有的國際計量語言學同行都對我們的項目有了一個較詳細的了解,起到了很好的宣傳效果,為項目進一步的國際合作奠定了基礎(chǔ)。
4. 課題組研究工作與成果的相關(guān)報道
課題組2012年年度會議于12月16-17日在浙江大學外語學院舉行。浙大相關(guān)單位的網(wǎng)站對會議召開(以及上述開題研討會與《光明日報》刊文等)進行了詳細報道。課題組成員共30余人參加了會議。會議回顧了課題研究的目標、內(nèi)容、計劃進度等,總結(jié)了已經(jīng)取得的成果,討論并明確了研究中存在的一些問題和下一步的研究計劃。
浙江大學人文學院網(wǎng)站于2013年1月以《語言與認知研究中心博士生王琳在國際知名語言學期刊發(fā)表論文》為題報道課題組成員在Lingua發(fā)表研究成果。報道稱,“該論文的發(fā)表是長期以來堅持跨學科研究、問題意識引導以及培養(yǎng)學生具有國際視野的成果體現(xiàn)”。Lingua創(chuàng)刊于1949年,是被SSCI和A&HCI同時收錄的最重要的國際普通語言學專業(yè)期刊之一。
階段性成果
序號 |
成果名稱 |
作者 |
成果形式 |
刊物名或出版社、刊發(fā)或出版時間 |
字數(shù) |
轉(zhuǎn)載、引用、獲獎等情況 |
1 |
計量語言學的現(xiàn)狀、理論與方法 |
劉海濤 |
論文 |
浙江大學學報(人文社會科學版) |
15000 |
|
2 |
基于依存句法標注樹庫的漢語語體差異研究 |
劉丙麗 |
論文 |
語言文字應(yīng)用 |
12000 |
|
3 |
Statistical Analysis of Chinese Phonemic Contrast |
于水源 徐春山 劉海濤 |
論文 |
Phonetica, 68. 2011. |
15000 |
SSCI, SCI, A&HCI |
4 |
Language Clustering with Word Co-occurrence Networks based on Parallel Texts |
劉海濤 叢進 |
論文 |
Chinese Science Bulletin, 58(10), 2013. |
8000 |
SCI |
5 |
Quantitative Typological Analysis of Romance Languages |
劉海濤 徐春山 |
論文 |
Poznań Studies in Contemporary Linguistics, 48(4), 2012. |
25000 |
SSCI, A&HCI |
6 |
Syntactic Variations in Chinese-English Code-switching. |
王琳 劉海濤 |
論文 |
Lingua, 123(1), 2013. |
25000 |
SSCI, A&HCI |
7 |
Probability Distribution of Semantic Roles in a Chinese Treebank Annotated with Semantic Roles |
劉海濤 |
論文 |
In: Synergetic Linguistics: Text and Language as Dynamic Systems. Wien: Praesens Verlag. 2012. |
7000 |
|
8 |
Word Length in Chinese |
王璐 |
論文 |
In: Issues in Quantitative Linguistics 3. Ram-Verlag. 2013. |
16000 |
|
9 |
Chinese Deaf and Hard of Hearing Adolescents’ Awareness of Thematic and Taxonomic Relations among Ordinary Concepts Represented by Pictures and Written Words |
李德高等 |
論文 |
American Annals of the Deaf, 10, 2012. |
16000 |
SSCI |
10 |
Mosuos’ Awareness of Taxonomic Relations in Word Associations, Lexicon Decisions and Semantic Categorizations |
李德高等 |
論文 |
Scandinavian Journal of Psychology, 2012, 6. |
18000 |
SSCI |
11 |
句法復雜網(wǎng)絡(luò)作為語體分類的知識源研究 |
陳芯瑩 |
論文 |
計算機工程與應(yīng)用 |
7500 |
|
(課題組供稿)