RM新时代APP官网

舊版網(wǎng)站入口

站內(nèi)搜索

“現(xiàn)代漢語(yǔ)計(jì)量語(yǔ)言學(xué)研究”中期檢查報(bào)告

2014年02月21日08:59來(lái)源:全國(guó)哲學(xué)社會(huì)科學(xué)工作辦公室

一、研究計(jì)劃總體執(zhí)行情況及各子課題進(jìn)展情況

1. 研究計(jì)劃總體執(zhí)行情況

自立項(xiàng)以來(lái),課題組積極、認(rèn)真開展研究活動(dòng)。截止到2013年8月,基本完成了本時(shí)間段原定的研究計(jì)劃。具體來(lái)說(shuō),(1)完成了用于開展研究的“多語(yǔ)體現(xiàn)代漢語(yǔ)語(yǔ)料庫(kù)”“漢語(yǔ)歷時(shí)語(yǔ)料庫(kù)”“漢英平行語(yǔ)料庫(kù)”“依存語(yǔ)法樹庫(kù)”“漢語(yǔ)(句法)網(wǎng)絡(luò)”等語(yǔ)言數(shù)據(jù)資源庫(kù)的構(gòu)建和部分?jǐn)?shù)據(jù)統(tǒng)計(jì)、分析工作;(2)完成了大量文獻(xiàn)調(diào)研工作,尤其是計(jì)量語(yǔ)言學(xué)重要文獻(xiàn)的收集整理、翻譯、校訂等,已完成兩部譯著;(3)設(shè)計(jì)并實(shí)施了多種共計(jì)近1500人次的心理語(yǔ)言學(xué)實(shí)驗(yàn);(4)在上述基礎(chǔ)上開展研究,已發(fā)表10余項(xiàng)階段性研究成果,其中大多數(shù)成果發(fā)表于國(guó)內(nèi)外高水平學(xué)術(shù)期刊,被SCI、SSCI、A&HCI等檢索系統(tǒng)收錄的論文達(dá)到6篇。

目前,本課題的多個(gè)研究方向均處于緊鑼密鼓的研究階段,預(yù)計(jì)會(huì)產(chǎn)生不少高水平成果;部分研究方向在完成既定研究計(jì)劃后,將針對(duì)研究過(guò)程中遇到的問題進(jìn)行調(diào)整、補(bǔ)充,繼續(xù)深入追蹤相關(guān)問題,或增加新的研究方向。

就課題研究計(jì)劃來(lái)說(shuō),已經(jīng)完成的工作和取得的成果相對(duì)較多、質(zhì)量較好。一方面,這說(shuō)明課題組態(tài)度積極、工作努力,采用的研究方法科學(xué)、高效,能夠在跨學(xué)科語(yǔ)言研究方面取得有價(jià)值的新發(fā)現(xiàn);另一方面,也說(shuō)明本課題研究還有很大的拓展空間,值得繼續(xù)努力,深入開展研究。下面分子課題具體介紹研究進(jìn)展情況。

2. 子課題一“現(xiàn)代漢語(yǔ)文本的計(jì)量研究”進(jìn)展情況

子課題一的研究主要基于詞典數(shù)據(jù)和文本(包括口語(yǔ)轉(zhuǎn)寫文本)。目前已經(jīng)建立了一個(gè)涵蓋12種語(yǔ)體的百萬(wàn)字規(guī)模的“現(xiàn)代漢語(yǔ)多種語(yǔ)體文本語(yǔ)料庫(kù)”,并在此基礎(chǔ)上開發(fā)了一系列計(jì)算機(jī)程序,形成了一個(gè)面向計(jì)量語(yǔ)言學(xué)研究的語(yǔ)言結(jié)構(gòu)特征數(shù)據(jù)庫(kù)。雖然在語(yǔ)料規(guī)模、樣本代表性與多樣性等方面還有待加強(qiáng),但是其架構(gòu)與內(nèi)容、計(jì)算方法與工具等,除了能夠滿足既定研究的需要外,還在一定程度上為開展其他層面的漢語(yǔ)計(jì)量語(yǔ)言學(xué)研究奠定了基礎(chǔ)。

除資源建設(shè)外,該子課題主要開展了漢語(yǔ)語(yǔ)音、詞長(zhǎng)、詞長(zhǎng)與詞義關(guān)系、詞性、詞頻、詞匯豐富程度等詞匯層面的計(jì)量研究,以及基于詞匯層面語(yǔ)言結(jié)構(gòu)的語(yǔ)體計(jì)量研究和歷時(shí)研究。以下前四項(xiàng)研究已經(jīng)發(fā)表或已錄用待發(fā)表,后三項(xiàng)研究處于論文寫作、修改階段。

(1)漢語(yǔ)語(yǔ)音計(jì)量研究,詳見“代表性成果簡(jiǎn)介”第2項(xiàng)。

(2)漢語(yǔ)詞長(zhǎng)與詞義關(guān)系研究;凇度嗣袢?qǐng)?bào)》和《現(xiàn)代漢語(yǔ)詞典(第五版)》(動(dòng)靜結(jié)合)的詞長(zhǎng)分布與詞長(zhǎng)-詞義函數(shù)關(guān)系研究發(fā)現(xiàn):第一,漢語(yǔ)最大限度的實(shí)現(xiàn)了經(jīng)濟(jì)原則,即在不擴(kuò)大單字符字庫(kù)的情況下,最大程度使用最短組合(兩字詞);第二,詞長(zhǎng)分布一方面具有共性,如漢語(yǔ)詞長(zhǎng)的靜態(tài)、動(dòng)態(tài)詞型(type)、動(dòng)態(tài)詞例(token)都符合Positive Cohen-negative Binomial分布,另一方面,動(dòng)態(tài)詞例具有特殊性,除了符合Positive Cohen-negative binomial分布,與Dacey-negative Binomial分布的擬合度更高。該函數(shù)的特點(diǎn)在于,它融合了Dacey-泊松、伽馬、貝塔3種分布。雖然共同屬于Negative Binomial分布的衍生形式,但較之Positive Cohen-negative Binomial分布更為復(fù)雜。此語(yǔ)言學(xué)現(xiàn)象結(jié)合統(tǒng)計(jì)學(xué)理論可解釋為,靜態(tài)與動(dòng)態(tài)語(yǔ)料的最大區(qū)別就在于頻率因素,而語(yǔ)境需求、語(yǔ)義明確化、詞匯多樣化、語(yǔ)言編碼解碼最優(yōu)化、傳輸準(zhǔn)確性保障都在頻率中有所體現(xiàn)。在頻率的影響下,詞長(zhǎng)呈現(xiàn)了更復(fù)雜、多融合性的分布特點(diǎn)、表現(xiàn)出不同于靜態(tài)分布的特殊性質(zhì);第三,詞長(zhǎng)-詞義雙向數(shù)量關(guān)系在動(dòng)、靜態(tài)條件下都符合冪律函數(shù),即詞長(zhǎng)越長(zhǎng)所承載詞義越少,詞長(zhǎng)越短多義程度越高。

(3)漢語(yǔ)兼類詞計(jì)量研究;凇冬F(xiàn)代漢語(yǔ)詞典(第五版)》的詞性計(jì)量研究,在漢語(yǔ)學(xué)界首次給出漢語(yǔ)詞匯兼類的全部模式,首次提出新的語(yǔ)言學(xué)概念——詞性兼類度(Polyfunctionality),即詞匯所能承載的詞性數(shù)量,并得出其詞例和模式層面的分布規(guī)律。研究了兼類詞形成的原因,并從語(yǔ)言學(xué)理論角度進(jìn)行了解釋,即:漢語(yǔ)詞匯產(chǎn)生了功能性變體,卻由于缺乏形態(tài)變化而保持了原本詞形。該研究創(chuàng)新性地列出12種詞性的兼類度分布,發(fā)現(xiàn)其圖形呈雙曲線。該成果已被國(guó)際計(jì)量語(yǔ)言學(xué)權(quán)威刊物Journal of Quantitative Linguistics錄用,該刊為SSCI與A&HCI收錄期刊。

(4)漢語(yǔ)詞匯結(jié)構(gòu)的協(xié)同研究,詳見“代表性成果簡(jiǎn)介”第3項(xiàng)。

(5)漢語(yǔ)詞頻分布研究;诙嗾Z(yǔ)體文本語(yǔ)料庫(kù)的漢語(yǔ)詞頻分布規(guī)律研究發(fā)現(xiàn),漢語(yǔ)文本中詞頻符合Zipf分布、Zeta分布、Zipf-Mandelbort分布、Negative Hypergeometric分布、Waring分布、Hyperpoisson分布等規(guī)律;詞頻譜符合Zeta分布、Zipf-Mandelbrot分布、Waring分布、Yule分布、Johnson-Kotz分布等規(guī)律。漢語(yǔ)文本中的詞頻(譜)分布規(guī)律與其他語(yǔ)言相比沒有特殊性。

(6)漢語(yǔ)語(yǔ)體詞匯豐富性研究;谠~頻(譜)的詞匯豐富性計(jì)量研究發(fā)現(xiàn),詞頻分布規(guī)律中的參數(shù)、詞頻指數(shù)、詞頻幾何學(xué)指標(biāo)、詞頻熵和重復(fù)率指標(biāo)等,在不同語(yǔ)體中具有不同的計(jì)量特征,即這些指標(biāo)可以用于區(qū)別不同語(yǔ)體。不同指標(biāo)在區(qū)別不同語(yǔ)體方面具有顯著差異。

(7)漢語(yǔ)新詩(shī)形式的計(jì)量研究;诓煌瑫r(shí)期的詩(shī)歌語(yǔ)料開展了歷時(shí)研究,從單現(xiàn)詞(hapax)、N元組、詞匯豐富程度(包括型例比TTR、詞頻指標(biāo)h點(diǎn)和a指數(shù)、洛倫茨曲線、基尼系數(shù)等)、詞頻熵等角度,對(duì)不同時(shí)期的詩(shī)作文本進(jìn)行計(jì)量描寫與比較,初步發(fā)現(xiàn)了一些能夠體現(xiàn)漢語(yǔ)新詩(shī)特征的計(jì)量指標(biāo)。

3. 子課題二“現(xiàn)代漢語(yǔ)句法計(jì)量研究”進(jìn)展情況

該子課題已經(jīng)基本完成了“漢英平行語(yǔ)料庫(kù)”“漢語(yǔ)歷時(shí)語(yǔ)料庫(kù)”“依存語(yǔ)法樹庫(kù)”“漢語(yǔ)(句法)網(wǎng)絡(luò)”等研究資源的構(gòu)建工作,并在此基礎(chǔ)上開展了漢語(yǔ)配價(jià)的協(xié)同特征、人類語(yǔ)言句中信息分布研究、漢語(yǔ)多層級(jí)系統(tǒng)、漢語(yǔ)句法歷時(shí)比較、漢語(yǔ)文體比較、英漢句法比較、依存句法網(wǎng)絡(luò)特性及其在語(yǔ)言類型學(xué)領(lǐng)域的應(yīng)用等方面的研究。詳細(xì)進(jìn)展情況如下:

(1)漢語(yǔ)句法歷時(shí)演化研究。以唐前、唐五代、宋代、元明、清代和現(xiàn)代六個(gè)漢語(yǔ)依存樹庫(kù)為基礎(chǔ)對(duì)漢語(yǔ)句法的演化進(jìn)行了一些計(jì)量研究。就句法功能的詞類構(gòu)成而言,主語(yǔ)、定語(yǔ)以及“的”字補(bǔ)足語(yǔ)的詞類構(gòu)成具有較大的歷時(shí)變化。其他句法功能的詞類構(gòu)成相對(duì)變化較小。就詞類的句法功能來(lái)看,除了形容詞之外,其他詞類的主要句法功能歷時(shí)變化不大。漢語(yǔ)的演化過(guò)程,支配詞居后這個(gè)詞序逐漸占據(jù)了主導(dǎo)的地位。與此同時(shí),漢語(yǔ)的平均依存距離持續(xù)增加,意味著句法結(jié)構(gòu)變得更為復(fù)雜。這與定語(yǔ)關(guān)系以及狀語(yǔ)關(guān)系所占比例的持續(xù)增加可能密切相關(guān)。而“的”字補(bǔ)語(yǔ)關(guān)系以及量詞補(bǔ)語(yǔ)關(guān)系的大量出現(xiàn)可能體現(xiàn)了人們用以應(yīng)對(duì)這種復(fù)雜度增加的某種認(rèn)知策略。該研究立足于真實(shí)語(yǔ)料,以定量的方式清晰的展示了所研究語(yǔ)料在歷時(shí)維度上的句法變化。目前有關(guān)該研究的論文正在寫作與修改中。

(2)漢語(yǔ)句法語(yǔ)體比較研究,詳見“代表性成果簡(jiǎn)介”第3項(xiàng)。。

(3)英漢句法比較研究。以《中國(guó)日?qǐng)?bào)》英漢雙語(yǔ)平行新聞?wù)Z料為基礎(chǔ),進(jìn)行了分詞、詞性標(biāo)注、依存關(guān)系句法標(biāo)注,從而構(gòu)建了英漢雙語(yǔ)依存句法樹庫(kù)。在此基礎(chǔ)之上,對(duì)兩個(gè)樹庫(kù)中詞類、詞類頻率、主要依存關(guān)系頻率、依存距離、依存方向、依存關(guān)系構(gòu)成、詞類句法功能以及特殊結(jié)構(gòu)等方面進(jìn)行了計(jì)量研究,獲得了大量反映了英漢兩種語(yǔ)言句法層面差異與相似之處的定量數(shù)據(jù)。這一研究從整體上更精確地把握了英漢句法差異。傳統(tǒng)的語(yǔ)言對(duì)比研究大都基于直覺內(nèi)省或簡(jiǎn)單例句的分析討論,這往往難以全面地概括不同語(yǔ)言的結(jié)構(gòu)特點(diǎn)。以經(jīng)過(guò)標(biāo)注的真實(shí)語(yǔ)料為基礎(chǔ),借助定量的研究方法對(duì)不同語(yǔ)言進(jìn)行對(duì)比分析,有助于從語(yǔ)言整體的角度更清楚、更準(zhǔn)確地觀察語(yǔ)言的共性以及不同語(yǔ)言的特殊性。此外,我們并未止步于這些數(shù)據(jù)的描寫,而是結(jié)合其他語(yǔ)言學(xué)科的相關(guān)理論就英漢對(duì)比研究所獲得的數(shù)據(jù)進(jìn)行了語(yǔ)言學(xué)分析與討論,提出了能夠解釋這些差異的可能原因。目前該研究的相關(guān)論文正在撰寫中。

(4)句法復(fù)雜網(wǎng)絡(luò)研究;诰浞◤(fù)雜網(wǎng)絡(luò)的類型學(xué)研究成果已發(fā)表于國(guó)際語(yǔ)言學(xué)SSCI、A&HCI期刊和國(guó)內(nèi)自然科學(xué)綜合類頂級(jí)期刊《科學(xué)通報(bào)》(SCI收錄)之上,詳見“代表性成果簡(jiǎn)介”第7、8項(xiàng)。此外,我們也進(jìn)行了句法復(fù)雜網(wǎng)絡(luò)作為語(yǔ)體分類知識(shí)源的研究,基于6種語(yǔ)體的句法樹庫(kù)構(gòu)建了6個(gè)依存句法網(wǎng)絡(luò),對(duì)這些網(wǎng)絡(luò)的邊數(shù)、節(jié)點(diǎn)數(shù)、節(jié)點(diǎn)平均度、聚類系數(shù)、平均最短路徑長(zhǎng)度、網(wǎng)絡(luò)中心勢(shì)、直徑、節(jié)點(diǎn)度冪律分布的冪指數(shù)、度分布與冪律擬合的決定系數(shù)等整體特征進(jìn)行了對(duì)比分析。以這些整體特征為變量,采用歐幾里得的“最短距離”法,對(duì)這6種語(yǔ)體的句法網(wǎng)絡(luò)進(jìn)行了聚類分析。研究結(jié)果顯示,通過(guò)一些網(wǎng)絡(luò)的主要參數(shù),即網(wǎng)絡(luò)節(jié)點(diǎn)數(shù)、聚集系數(shù)、平均路徑長(zhǎng)度、中心勢(shì)以及節(jié)點(diǎn)度冪律分布的冪指數(shù),可以對(duì)所研究的文本進(jìn)行分類。與傳統(tǒng)的文本聚類方法相比,其結(jié)果更容易從語(yǔ)言學(xué)的角度進(jìn)行合理的解釋。該研究成果已發(fā)表于國(guó)內(nèi)刊物《計(jì)算機(jī)工程與應(yīng)用》2013年第8期。

(5)漢語(yǔ)動(dòng)詞配價(jià)的協(xié)同特征研究。以漢語(yǔ)依存樹庫(kù)和(《現(xiàn)代漢語(yǔ)詞典(第五版)》)為基礎(chǔ),抽取出動(dòng)詞的配價(jià)信息,對(duì)漢語(yǔ)動(dòng)詞配價(jià)的協(xié)同特征進(jìn)行研究,結(jié)果發(fā)現(xiàn):漢語(yǔ)動(dòng)詞的補(bǔ)足語(yǔ)形式分布和動(dòng)詞的多義度分布遵循一定的規(guī)則,動(dòng)詞配價(jià)及其序之間的關(guān)系遵循冪律分布。同時(shí),漢語(yǔ)動(dòng)詞的多義度、詞長(zhǎng)、頻率、多文度與配價(jià)之間的關(guān)系表現(xiàn)為:第一,漢語(yǔ)中動(dòng)詞的多義度越大,配價(jià)越大;第二,漢語(yǔ)動(dòng)詞的詞長(zhǎng)越短,配價(jià)越大;第三,動(dòng)詞出現(xiàn)的頻次越高,配價(jià)越大;第四,多文度越大,配價(jià)越大。為了找到最適合測(cè)量漢語(yǔ)詞長(zhǎng)的單位,引入了體現(xiàn)漢語(yǔ)書面特點(diǎn)的“筆畫”和“部件”,提出并驗(yàn)證了關(guān)于漢語(yǔ)動(dòng)詞筆畫數(shù)的系列相關(guān)假設(shè):第一,動(dòng)詞部首的筆畫數(shù)越多,整個(gè)漢字筆畫數(shù)越多;第二,動(dòng)詞的筆畫數(shù)越少,多義度越大;第三,動(dòng)詞詞長(zhǎng)越短,筆畫越少;第四,動(dòng)詞的筆畫越少,出現(xiàn)頻率越高;第五,動(dòng)詞的筆畫越少,配價(jià)越大。將筆畫數(shù)、部首數(shù)與體現(xiàn)漢語(yǔ)口語(yǔ)特點(diǎn)的拼音字母數(shù)相對(duì)比,我們認(rèn)為漢語(yǔ)的拼音字母數(shù)更適合測(cè)量漢語(yǔ)詞長(zhǎng)。這項(xiàng)研究已被國(guó)際計(jì)量語(yǔ)言學(xué)權(quán)威刊物Journal of Quantitative Linguistics錄用,該刊為SSCI與A&HCI收錄期刊。

(6)基于概率配價(jià)模式理論的花園幽徑句研究;▓@幽徑句是在英語(yǔ)和漢語(yǔ)中都存在的一種特殊句子,該句子會(huì)造成人們理解的困難。為了更好地解釋花園幽徑句理解困難的原因,在概率配價(jià)模式理論的指導(dǎo)下,從定性和定量的角度對(duì)漢語(yǔ)花園幽徑句的理解過(guò)程進(jìn)行了分析,闡釋了花園幽徑句的理解機(jī)理。將漢語(yǔ)依存樹庫(kù)中提取出的數(shù)據(jù)與語(yǔ)言學(xué)中的統(tǒng)計(jì)規(guī)律相結(jié)合,證明理解花園幽徑句前面的歧義段,不同的歧義結(jié)果之間往往具有優(yōu)先性,同時(shí)提出受概率的影響和當(dāng)前概率優(yōu)先原則的支配是導(dǎo)致花園幽徑句理解困難的一個(gè)重要原因。本研究成果《基于概率配價(jià)模式理論的花園幽徑句研究》已被《語(yǔ)言文字應(yīng)用》錄用,待發(fā)表。

(7)現(xiàn)代漢語(yǔ)多層級(jí)網(wǎng)絡(luò)研究,F(xiàn)代語(yǔ)言學(xué)普遍將語(yǔ)言視作一個(gè)在意義-形式維度上具有不同層面的系統(tǒng)。這些層面都是語(yǔ)言系統(tǒng)的子系統(tǒng),可定義為相關(guān)的語(yǔ)言單位及其關(guān)系。在語(yǔ)言的較深層面,語(yǔ)言單位之間的關(guān)系表現(xiàn)為非線性的結(jié)構(gòu)關(guān)系(如句法結(jié)構(gòu)和語(yǔ)義結(jié)構(gòu)關(guān)系)。而在較淺的層面,語(yǔ)言單位之間的關(guān)系則是線性的同現(xiàn)關(guān)系(如詞同現(xiàn)和字同現(xiàn)關(guān)系)。如果語(yǔ)言是一個(gè)系統(tǒng),那么其在宏觀尺度上涌現(xiàn)出來(lái)的組織方式(整體特征)就無(wú)法用偏重語(yǔ)言局部結(jié)構(gòu)特征的語(yǔ)言學(xué)傳統(tǒng)方法來(lái)進(jìn)行研究。換言之,目前的語(yǔ)言學(xué)研究方法無(wú)法揭示語(yǔ)言是一個(gè)什么樣的系統(tǒng)。復(fù)雜網(wǎng)絡(luò)方法已用于研究不同的語(yǔ)言子系統(tǒng)。然而,這些研究存在著兩個(gè)較明顯的問題。一方面,這些研究多停留于對(duì)所研究的語(yǔ)言網(wǎng)絡(luò)模型的參數(shù)本身的探討,并沒有結(jié)合語(yǔ)言學(xué)及其周邊學(xué)科的觀點(diǎn)來(lái)解讀這些參數(shù)對(duì)于語(yǔ)言系統(tǒng)來(lái)說(shuō)意味著什么。另一方面,這些研究一般只探討某一個(gè)語(yǔ)言子系統(tǒng)的宏觀組織方式,這樣就無(wú)法全面揭示語(yǔ)言作為一個(gè)分層系統(tǒng)的整體情況。因此,要研究某個(gè)語(yǔ)言作為一個(gè)分層系統(tǒng)的組織特征,理想的方法是基于相同的語(yǔ)料,在該語(yǔ)言的不同層面上分別構(gòu)建語(yǔ)言網(wǎng)絡(luò)模型,通過(guò)描述和比較這些模型的組織特征來(lái)獲得該語(yǔ)言作為分層系統(tǒng)的整體概觀。同時(shí),應(yīng)結(jié)合語(yǔ)言學(xué)及其周邊學(xué)科的觀點(diǎn)對(duì)研究的發(fā)現(xiàn)進(jìn)行解讀,以期讓復(fù)雜網(wǎng)絡(luò)的方法能夠真正地加深我們對(duì)于語(yǔ)言系統(tǒng)的理解。本研究采用復(fù)雜網(wǎng)絡(luò)方法研究作為分層系統(tǒng)的現(xiàn)代漢語(yǔ)。采用現(xiàn)代漢語(yǔ)真實(shí)語(yǔ)料構(gòu)擬了漢語(yǔ)在意義-形式維度上的(作為語(yǔ)言子系統(tǒng)的)四個(gè)層面的語(yǔ)言網(wǎng)絡(luò)模型,分別是:動(dòng)態(tài)語(yǔ)義網(wǎng)絡(luò)(實(shí)詞/詞匯概念作為節(jié)點(diǎn),其語(yǔ)義結(jié)構(gòu)關(guān)系作為邊)、句法依存網(wǎng)絡(luò)(詞作為節(jié)點(diǎn),其句法依存關(guān)系作為邊)、詞同現(xiàn)網(wǎng)絡(luò)(詞作為節(jié)點(diǎn),其同現(xiàn)關(guān)系作為邊)和字同現(xiàn)網(wǎng)絡(luò)(字作為節(jié)點(diǎn),其同現(xiàn)關(guān)系作為邊)。研究計(jì)算了四個(gè)網(wǎng)絡(luò)模型的主要復(fù)雜網(wǎng)絡(luò)參數(shù)。這些參數(shù)表明:四個(gè)網(wǎng)絡(luò)均在不同程度上呈現(xiàn)小世界(較短的平均路徑長(zhǎng)度和較高的聚集系數(shù))、無(wú)尺度(度分布符合冪律)、負(fù)相關(guān)和層級(jí)組織的拓?fù)浣Y(jié)構(gòu)特性。小世界屬性意味著漢語(yǔ)在各個(gè)層面上的知識(shí)具有高效的組織方式。節(jié)點(diǎn)之間較短的距離能夠有效地減少擴(kuò)散激活過(guò)程中的能量損耗。無(wú)尺度屬性意味著在各個(gè)層面上只有極少數(shù)語(yǔ)言單位具有極強(qiáng)的結(jié)合能力,而大多數(shù)語(yǔ)言單位的結(jié)合能力都相對(duì)較弱。這是省力原則的一種體現(xiàn),反映了說(shuō)話人在語(yǔ)言表達(dá)和聽話人在語(yǔ)言理解這兩方面的省力需求所達(dá)到的平衡。而小世界和無(wú)尺度屬性共同保證了漢語(yǔ)在各個(gè)層面上的知識(shí)網(wǎng)絡(luò)的“適航性”,保證了擴(kuò)散激活這一蠻力的、無(wú)指導(dǎo)的過(guò)程能夠順利進(jìn)行。層級(jí)組織特征則確保了小世界和無(wú)尺度特征能同時(shí)存在,而它又與負(fù)相關(guān)特征有著密切聯(lián)系。因此,漢語(yǔ)的四個(gè)子系統(tǒng)所體現(xiàn)出的宏觀組織特征是相輔相成的,共同保證了它們的高效組織方式。同時(shí),四個(gè)網(wǎng)絡(luò)模型的拓?fù)浣Y(jié)構(gòu)特征也存在著差異,反映著四個(gè)子系統(tǒng)之間的關(guān)系。動(dòng)態(tài)語(yǔ)義網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)特征與其他網(wǎng)絡(luò)具有較大差異。這表明,語(yǔ)義結(jié)構(gòu)子系統(tǒng)(作為概念表征子系統(tǒng))相比于其他三個(gè)子系統(tǒng)(作為語(yǔ)言表達(dá)子系統(tǒng))來(lái)說(shuō),是一個(gè)相對(duì)獨(dú)立的語(yǔ)言子系統(tǒng)。該網(wǎng)絡(luò)的某些拓?fù)浣Y(jié)構(gòu)特征(如小世界和負(fù)相關(guān))弱于其他網(wǎng)絡(luò),這是由于該層面缺少具有極強(qiáng)結(jié)合能力的語(yǔ)言單位。較弱的拓?fù)浣Y(jié)構(gòu)特征在宏觀尺度上體現(xiàn)了語(yǔ)義結(jié)構(gòu)的前語(yǔ)言性。對(duì)單個(gè)拓?fù)浣Y(jié)構(gòu)特征的比較以及聚類分析均發(fā)現(xiàn),句法依存網(wǎng)絡(luò)與詞同現(xiàn)網(wǎng)絡(luò)具有極高的相似性。這種相似性源于句法依存關(guān)系與詞同現(xiàn)關(guān)系的高度重合(50%以上的依存關(guān)系存在于相鄰的兩詞之間)。這種重合使得漢語(yǔ)句法在產(chǎn)出、理解和習(xí)得方面的難度都控制在一個(gè)較低的水平。而句法依存網(wǎng)絡(luò)與詞同現(xiàn)網(wǎng)絡(luò)之間的高度相似在系統(tǒng)層面上反映了漢語(yǔ)為句法產(chǎn)出、理解和習(xí)得所提供的便利。字同現(xiàn)網(wǎng)絡(luò)的某些拓?fù)浣Y(jié)構(gòu)特征明顯強(qiáng)于其他三種網(wǎng)絡(luò),這是由于其中樞節(jié)點(diǎn)的相對(duì)結(jié)合能力明顯較強(qiáng)。該網(wǎng)絡(luò)的中樞節(jié)點(diǎn)是單字的漢語(yǔ)虛詞,其在漢語(yǔ)理解的分詞過(guò)程中發(fā)揮著分隔符的作用,其較強(qiáng)的結(jié)合能力對(duì)于漢語(yǔ)這種缺乏顯式分詞機(jī)制的語(yǔ)言來(lái)說(shuō)尤為重要?傊,本研究以定量的方式首次揭示了漢語(yǔ)作為分層系統(tǒng)的宏觀特征,并以語(yǔ)言學(xué)、認(rèn)知科學(xué)和網(wǎng)絡(luò)科學(xué)的觀點(diǎn)對(duì)研究發(fā)現(xiàn)進(jìn)行了解讀,拓展了我們對(duì)于語(yǔ)言作為分層系統(tǒng)的認(rèn)識(shí)。本研究已被國(guó)際著名漢語(yǔ)語(yǔ)言學(xué)研究刊物Journal of Chinese Linguistics錄用,該雜志為SSCI、A&HCI收錄期刊。

(8)漢語(yǔ)句子信息量分布研究。語(yǔ)言是一個(gè)通訊系統(tǒng),語(yǔ)言系統(tǒng)在通訊方面的性質(zhì)就是語(yǔ)言的重要性質(zhì)。信息理論證明,通訊系統(tǒng)在噪聲信道中最優(yōu)的信息傳遞方式是與信道能力相近的穩(wěn)定的傳遞速率。如果人類在語(yǔ)言進(jìn)化中在通訊方面已經(jīng)得到優(yōu)化,那么人類的語(yǔ)言和言語(yǔ)就應(yīng)該具有穩(wěn)定的信息傳遞速率或均勻信息密度(即UID假說(shuō)或CER假說(shuō))。信息論可以解釋很多層面上的語(yǔ)言現(xiàn)象,但信息量是如何在句子中分布的這個(gè)可以使我們從信息量的角度理解句子的生成和理解的關(guān)鍵問題卻至今沒有一個(gè)滿意的答案。UID和CER假說(shuō)只給出了一個(gè)一般性的觀點(diǎn),并沒有給出句子內(nèi)部的詳細(xì)說(shuō)明。我們以與信息量相關(guān)的、具有明確意義的統(tǒng)計(jì)量開展了句子中信息量分布研究。這些統(tǒng)計(jì)量有:平均語(yǔ)境外信息量(熵),各位置上出現(xiàn)的詞的頻率特性、詞數(shù)、詞的冪律指數(shù)等。另外,一個(gè)句子是一個(gè)具有結(jié)構(gòu)的相對(duì)完整的語(yǔ)言單位,句中信息量是分布在整個(gè)句子上的,由于句尾可能具有不同信息量的分布,即句尾效應(yīng),因此,在不同長(zhǎng)度的句子中同樣的位置上信息分布特征可能會(huì)不同,因此,統(tǒng)計(jì)句中不同位置上的平均信息量應(yīng)該在相同長(zhǎng)度的句子上進(jìn)行。此研究結(jié)果發(fā)現(xiàn),句子中各位置的熵以及相關(guān)統(tǒng)計(jì)量均呈3步階梯式遞增,即,句首顯著小于句中間各位置(除去句首和句尾的位置),句中間顯著小于句尾,而句中間各位置上沒有顯著差異。這說(shuō)明:第一,句中詞提供的語(yǔ)境信息并不是隨著詞的增加而累加,這意味著句中詞與句子整體的關(guān)系并不是多層遞進(jìn),而是多方面平行;第二,句中詞提供的語(yǔ)境信息呈現(xiàn)“整體大于部分之和”的模式,結(jié)構(gòu)也提供了信息。此研究不但發(fā)現(xiàn)了句中信息量的分布特性,提示我們處理通訊優(yōu)化約束以外還需要另外的參數(shù)來(lái)解釋句中信息量的分布,而且還表明在計(jì)算句中詞的信息量時(shí),常使用馬爾科夫模型建模語(yǔ)境的方法存在本質(zhì)上問題,為進(jìn)一步研究語(yǔ)境建模提供了指導(dǎo)。此研究成果正處于論文修改階段。

4. 子課題三“面向計(jì)算語(yǔ)言學(xué)的自然語(yǔ)言形式化計(jì)量研究”進(jìn)展情況

本子課題重點(diǎn)圍繞依存結(jié)構(gòu)樹的計(jì)數(shù)、枚舉、層次化等方面展開研究。

(1)依存結(jié)構(gòu)樹計(jì)數(shù)研究,F(xiàn)有的研究成果給出的依存結(jié)構(gòu)樹計(jì)數(shù)算法存在著兩個(gè)局限性:一是數(shù)據(jù)精度問題,由于計(jì)算機(jī)字長(zhǎng)的限制,該算法能得到的正確結(jié)果非常少,其他結(jié)果都因?yàn)閿?shù)據(jù)溢出而不正確;二是算法的時(shí)間復(fù)雜度過(guò)高,在現(xiàn)實(shí)中無(wú)法應(yīng)用。為了克服上述局限,我們做了兩方面的準(zhǔn)備:一方面,我們提出一套基于字符數(shù)組的超長(zhǎng)整數(shù)表示方法和四則運(yùn)算算法;另一方面,在超長(zhǎng)整數(shù)表示方法和四則運(yùn)算的基礎(chǔ)上改進(jìn)了依存結(jié)構(gòu)樹的計(jì)數(shù)算法,能得到依存結(jié)構(gòu)樹的精確計(jì)數(shù)結(jié)果。改進(jìn)的計(jì)數(shù)算法依賴于“直接子樹”和在此基礎(chǔ)上定義的“依存結(jié)構(gòu)森林”這兩個(gè)概念,算法的核心思想是遞歸計(jì)算:具有給定結(jié)點(diǎn)數(shù)的依存結(jié)構(gòu)樹的不同形態(tài)數(shù)目可用若干依存結(jié)構(gòu)森林的計(jì)數(shù)結(jié)果來(lái)表示,依存結(jié)構(gòu)森林的計(jì)數(shù)結(jié)果可用若干更小的依存結(jié)構(gòu)樹的計(jì)數(shù)結(jié)果來(lái)表示。研究依存結(jié)構(gòu)樹的精確計(jì)數(shù)有助于深入了解依存結(jié)構(gòu)樹的形式特征,為依存結(jié)構(gòu)樹的枚舉提供理論支持,并在依存句法分析過(guò)程中預(yù)估問題的規(guī)模與復(fù)雜度。這部分成果正處于后期的整理和寫作當(dāng)中。

(2)依存結(jié)構(gòu)樹枚舉研究。我們提出了兩種不同的枚舉算法。一個(gè)是基于后繼思想的算法,另一個(gè)是基于后進(jìn)先出棧的算法。兩種算法都是以依存結(jié)構(gòu)樹的編碼為基礎(chǔ)的,它們使用的編碼是相同的。第一種算法定義了一種能將依存結(jié)構(gòu)樹形態(tài)編碼進(jìn)行排序的線序關(guān)系“前于”,并根據(jù)機(jī)械過(guò)程理論提出了求解任何一棵依存結(jié)構(gòu)樹在前于關(guān)系中的后繼樹的算法,按照這種算法可以順次生成所有可能的依存結(jié)構(gòu)樹。其特點(diǎn)是下一棵依存結(jié)構(gòu)樹的生成僅僅跟上一棵依存結(jié)構(gòu)樹有關(guān)。第二種算法定義了一種截然不同的線序關(guān)系,提出了一種基于棧的算法,根據(jù)這種線序關(guān)系順次生成所有可能的依存結(jié)構(gòu)樹。根據(jù)該算法產(chǎn)生的兩棵相鄰的依存結(jié)構(gòu)樹之間沒有直接關(guān)系,但該算法的一個(gè)優(yōu)點(diǎn)是它可以在滿足依存結(jié)構(gòu)樹部分結(jié)點(diǎn)間的依存關(guān)系的前提下來(lái)生成所有可能的依存結(jié)構(gòu)樹。兩種算法各有優(yōu)點(diǎn),后繼算法的空間復(fù)雜度優(yōu)于棧算法,但棧算法的時(shí)間復(fù)雜度優(yōu)于后繼算法。依存結(jié)構(gòu)樹枚舉算法研究給出了依存結(jié)構(gòu)樹的全部編碼空間,為下一步的基于依存結(jié)構(gòu)的語(yǔ)言分析與理解研究打下堅(jiān)實(shí)的理論基礎(chǔ),也為構(gòu)建基于概率統(tǒng)計(jì)的自然語(yǔ)言歧義消解機(jī)制研究創(chuàng)造了條件。這部分成果已經(jīng)初步完稿,待進(jìn)一步修改之后即可投稿。

(3)依存結(jié)構(gòu)樹層次化研究。我們提出一種算法,使用一種由純字符組成的圖形來(lái)表示依存結(jié)構(gòu)樹的結(jié)構(gòu)形態(tài)。這種圖形的好處有兩點(diǎn):一是不必借助專門的繪圖和看圖工具來(lái)查看依存結(jié)構(gòu)樹的結(jié)構(gòu)形態(tài),借助于普通的文本編輯軟件就可以查看;二是這種圖能清楚地表示依存結(jié)構(gòu)樹的層次。研究依存結(jié)構(gòu)樹的層次,有助于我們加深對(duì)依存距離最小化的認(rèn)識(shí),從而有助于對(duì)大腦的句子理解機(jī)制的研究。這部分內(nèi)容正在整理中,很快會(huì)完成數(shù)據(jù)梳理和論文撰寫的工作。

5. 子課題四“漢語(yǔ)計(jì)量研究與認(rèn)知結(jié)構(gòu)關(guān)系研究”進(jìn)展情況

本子課題已經(jīng)進(jìn)行了大量的材料收集和實(shí)驗(yàn)測(cè)量,積累了豐富的資料(包括評(píng)定后的500個(gè)分類學(xué)概念詞、100個(gè)情感詞、100個(gè)一般意義上的抽象詞、30萬(wàn)字的聾人作文文本),構(gòu)建了多個(gè)不同語(yǔ)體、不同時(shí)期的漢語(yǔ)句法標(biāo)注樹庫(kù)和兩個(gè)英語(yǔ)樹庫(kù),為下一步研究工作打下堅(jiān)實(shí)基礎(chǔ)。

在此基礎(chǔ)上,本子課題對(duì)中文詞識(shí)別機(jī)制、詞形態(tài)和語(yǔ)義認(rèn)知機(jī)制、長(zhǎng)距離依存關(guān)系處理認(rèn)知機(jī)制等方面進(jìn)行了研究。其中,中文詞識(shí)別機(jī)制、詞形態(tài)和語(yǔ)義認(rèn)知機(jī)制研究以心理語(yǔ)言學(xué)實(shí)驗(yàn)方法為主,基于分類學(xué)概念理論體系,以不同特點(diǎn)群體為對(duì)象,參照文本語(yǔ)義網(wǎng)絡(luò)資源(http://corpora.uni-leipzig.de/)確定實(shí)驗(yàn)內(nèi)容(經(jīng)常出現(xiàn)在同一文本語(yǔ)境下的常見中文詞)并重點(diǎn)開展詞形態(tài)和語(yǔ)義認(rèn)知機(jī)制研究;依存距離與語(yǔ)言處理認(rèn)知機(jī)制研究以句法標(biāo)注語(yǔ)料庫(kù)計(jì)量方法為主,輔之以適當(dāng)?shù)男睦韺W(xué)實(shí)驗(yàn)。從目前研究來(lái)看,這幾方面之間可能存在密切的關(guān)系,詞識(shí)別機(jī)制和語(yǔ)義認(rèn)知機(jī)制對(duì)長(zhǎng)距離依存關(guān)系的處理可能有較為重要的影響。這些方面的研究現(xiàn)在已經(jīng)取得了一些重要的成果,為今后全面系統(tǒng)地將計(jì)量語(yǔ)言研究與語(yǔ)言認(rèn)知結(jié)構(gòu)研究有機(jī)融合并進(jìn)行更深一步的研究打下了基礎(chǔ)。詳細(xì)的研究進(jìn)展如下:

(1)基于語(yǔ)義加工導(dǎo)向的中文單、雙字詞識(shí)別機(jī)制研究。中文句法結(jié)構(gòu)和句子的最小構(gòu)成成分(詞)之間的語(yǔ)義關(guān)系相互交融。在非語(yǔ)境中考察詞的語(yǔ)義加工受其他詞的影響是系統(tǒng)研究中文認(rèn)知結(jié)構(gòu)的前提。我們使用啟動(dòng)范式下的語(yǔ)義歸類任務(wù),同時(shí)以分類學(xué)概念中基本水平概念單、雙字詞為目標(biāo)刺激,操縱SOA和啟動(dòng)詞在形音義方面與目標(biāo)詞的關(guān)系,共對(duì)200人進(jìn)行實(shí)驗(yàn)測(cè)量(實(shí)驗(yàn)1和實(shí)驗(yàn)2),結(jié)果發(fā)現(xiàn)單、雙字詞的情況有相似也有差異。在反應(yīng)時(shí)上相似的是,啟動(dòng)效應(yīng)在137 ms及之后的幾個(gè)SOA水平(187、237和287 ms)上顯著;實(shí)驗(yàn)1形態(tài)輪廓、讀音和語(yǔ)義三種條件下,形態(tài)輪廓(兩/手表)和目標(biāo)詞(雨/小麥)相似啟動(dòng)詞對(duì)的啟動(dòng)效應(yīng)最小,其次是讀音(骨/消息)和目標(biāo)詞(故/小溪)相似的情況,啟動(dòng)效應(yīng)最大的是語(yǔ)義(狼/劇院)和目標(biāo)詞(豹/教堂)相近的情況;實(shí)驗(yàn)2啟動(dòng)刺激是目標(biāo)詞(餐廳或盤)的同位概念詞的字序顛倒(室教)或部件位置顛倒(木字旁在右不字在左)——類內(nèi)倒序,是目標(biāo)詞(地震或盤)的同位概念詞的字序顛倒(室教或球)或部件位置顛倒(王字旁在右求字在左)——同詞顛倒、是目標(biāo)詞(劇院或狼)的語(yǔ)義相近詞(教堂或豹)——語(yǔ)義相近,在這三種條件下,本詞顛倒情況的啟動(dòng)效應(yīng)最小,同類顛倒和語(yǔ)義相近情況的啟動(dòng)效應(yīng)大小差不多。單、雙字詞的不同是,在反應(yīng)時(shí)上,實(shí)驗(yàn)1中,單字詞條件下的啟動(dòng)效應(yīng)較小,雙字詞條件下的啟動(dòng)效應(yīng)較大。在準(zhǔn)確率上,實(shí)驗(yàn)1與單字目標(biāo)詞輪廓相似的啟動(dòng)刺激對(duì)目標(biāo)刺激的判斷有干擾效應(yīng),與雙字詞語(yǔ)義相近的啟動(dòng)刺激對(duì)目標(biāo)刺激的判斷有有干擾效應(yīng)。實(shí)驗(yàn)2,啟動(dòng)刺激和目標(biāo)刺激語(yǔ)義相近時(shí),雙字詞條件下,目標(biāo)刺激的判斷受到啟動(dòng)刺激較大干擾。這兩個(gè)實(shí)驗(yàn)的發(fā)現(xiàn)不僅補(bǔ)充了以往研究,而且系統(tǒng)揭示了常見具體事物概念詞的語(yǔ)義判斷在形音義方面受其他相關(guān)信息加工方面的影響。相關(guān)論文正在撰寫之中。

(2)第二語(yǔ)言詞形態(tài)和語(yǔ)義加工的心理機(jī)制研究。作為第一、二語(yǔ)言句法結(jié)構(gòu)認(rèn)知研究的前提,在詞的層面,我們對(duì)近1000人經(jīng)數(shù)次測(cè)量,比較了一、二語(yǔ)言條件下分類學(xué)概念中上位和基本水平概念詞之間的概念聯(lián)系意識(shí)(實(shí)驗(yàn)3)、情感詞語(yǔ)義加工與詞呈現(xiàn)的上下空間位置的隱喻關(guān)聯(lián)(實(shí)驗(yàn)4)、一般意義抽象詞間的語(yǔ)義關(guān)系意識(shí)(實(shí)驗(yàn)5),考察了英文派生詞和曲折詞的形態(tài)加工過(guò)程(實(shí)驗(yàn)6)。結(jié)果發(fā)現(xiàn),實(shí)驗(yàn)3在一、二語(yǔ)言條件下,分類學(xué)概念中不同水平概念詞間的聯(lián)系意識(shí)有不同的模式:在第二語(yǔ)言條件下,對(duì)上位水平概念詞的語(yǔ)義加工機(jī)制不同于對(duì)基本水平概念詞。不同水平概念詞的自動(dòng)化識(shí)別有明顯孤立性傾向;上位水平詞的有意識(shí)識(shí)別能夠激活它與基本水平概念詞間的概念聯(lián)系,但是,基本水平詞的有意識(shí)識(shí)別卻不能夠激活它與上位水平概念詞間的概念聯(lián)系。實(shí)驗(yàn)4在知識(shí)層面,一、二語(yǔ)言情感詞的語(yǔ)義加工機(jī)制有相似,但是,第二語(yǔ)言情感詞的自動(dòng)化加工不能激活詞義與空間位置之間的隱喻關(guān)聯(lián)。實(shí)驗(yàn)5結(jié)果和實(shí)驗(yàn)4相似,第二語(yǔ)言詞的有意識(shí)的識(shí)別似乎是借助于翻譯完成,但是,二語(yǔ)詞的自動(dòng)化識(shí)別卻不能激活抽象詞間的語(yǔ)義聯(lián)系。實(shí)驗(yàn)6與其他國(guó)家研究發(fā)現(xiàn)不同的是,中國(guó)大學(xué)生(浙大一二年級(jí)理工科學(xué)生)對(duì)于曲折詞發(fā)展有明確構(gòu)詞意識(shí);對(duì)于派生詞,他們也能發(fā)展一定程度的構(gòu)詞意識(shí)。所以如此可能得益于中文字詞識(shí)別習(xí)慣的影響。有關(guān)這些研究的論文正在審稿與撰寫中。

(3)聾人青少年書面詞形態(tài)和語(yǔ)義加工的心理機(jī)制研究。聾人作為特殊群體,他們?cè)跁嬲Z(yǔ)認(rèn)知活動(dòng)中表現(xiàn)出的認(rèn)知規(guī)律對(duì)于普遍意義上的書面語(yǔ)研究有獨(dú)特的價(jià)值。我們也初步完成了對(duì)聾人青少年在具體詞間分類學(xué)聯(lián)系和主題關(guān)聯(lián)聯(lián)系方面的比較(實(shí)驗(yàn)7)和在分類學(xué)概念詞間的語(yǔ)義聯(lián)系意識(shí)的考察(實(shí)驗(yàn)8、9),結(jié)果發(fā)現(xiàn),實(shí)驗(yàn)7對(duì)于具體事物概念詞,聾人青少年能夠發(fā)展分類學(xué)聯(lián)系意識(shí),但是,相比之下,他們較難發(fā)展主題關(guān)聯(lián)聯(lián)系意識(shí)。本研究已經(jīng)發(fā)表于American Annals of the Deaf 156(5)。實(shí)驗(yàn)8對(duì)于基本水平概念詞,聾人青少年能夠發(fā)展概念詞之間的語(yǔ)義聯(lián)系意識(shí),只是相對(duì)健聽人較弱,但是,在上位水平概念詞自動(dòng)化識(shí)別加工過(guò)程中,他們產(chǎn)生概念間聯(lián)系的意識(shí)特別弱。實(shí)驗(yàn)9聾人青少年識(shí)別上位水平概念詞的過(guò)程中,他們不可避免的需要經(jīng)過(guò)多個(gè)相應(yīng)的典型性水平較低概念成員的心理表征的激活。相關(guān)論文正在審稿與撰寫中。。

(4)漢語(yǔ)長(zhǎng)距離依存關(guān)系研究。對(duì)依存標(biāo)注語(yǔ)料庫(kù)的計(jì)量研究表明漢語(yǔ)中主語(yǔ)、賓語(yǔ)、介詞賓語(yǔ)以及介詞狀語(yǔ)關(guān)系是最高頻的長(zhǎng)距離依存關(guān)系。對(duì)主語(yǔ)進(jìn)行的計(jì)量研究表明,主語(yǔ)本身的信息特點(diǎn)與依存距離有密切關(guān)系。新主語(yǔ)(新信息)的依存距離往往較短,舊主語(yǔ)(前文已出現(xiàn)過(guò)的信息)的依存距離往往較長(zhǎng),兩者之間具有顯著差異。這顯然與啟動(dòng)效應(yīng)有密切的關(guān)系:語(yǔ)義啟動(dòng)詞具有非常強(qiáng)的啟動(dòng)效應(yīng)。這表明就主語(yǔ)的處理而言,依存距離與主語(yǔ)的信息特點(diǎn)之間可能存在協(xié)同作用,長(zhǎng)距離主語(yǔ)關(guān)系可能未必一定難以處理。介詞往往涉及長(zhǎng)距離介詞賓語(yǔ)關(guān)系與介詞狀語(yǔ)關(guān)系,對(duì)漢語(yǔ)中最常見的介詞是“在”進(jìn)行的反應(yīng)時(shí)實(shí)驗(yàn)表明,長(zhǎng)依存距離對(duì)“在”涉及的介詞賓語(yǔ)以及狀語(yǔ)關(guān)系的處理并無(wú)顯著影響。其原因可能在于“在”作為高頻虛詞可能主要扮演了格標(biāo)記的角色,對(duì)句法及語(yǔ)義結(jié)構(gòu)起到標(biāo)示作用,本身不涉及語(yǔ)義關(guān)系,處理較為簡(jiǎn)單。高頻虛詞的激活可能較為容易,長(zhǎng)依存距離帶來(lái)的工作記憶衰退問題可能相應(yīng)并不嚴(yán)重。其次,漢語(yǔ)的結(jié)構(gòu)特點(diǎn)使得介詞“在”的賓語(yǔ)往往與謂語(yǔ)距離較近,其長(zhǎng)距離介賓關(guān)系往往意味著較短的語(yǔ)義依存距離,從語(yǔ)義加工的角度來(lái)看,這可能也有利于語(yǔ)言處理。值得注意的是,漢語(yǔ)中大多數(shù)的虛詞可能都具有這些特點(diǎn)。在漢語(yǔ)小句的各種依存關(guān)系中,賓語(yǔ)的平均依存距離是最長(zhǎng)的。但是賓語(yǔ)位于句尾,如果語(yǔ)言的處理是一個(gè)增量的、不斷進(jìn)行預(yù)測(cè)和判斷的過(guò)程,賓語(yǔ)的位置可能也可以在某種程度上減少處理的復(fù)雜度,因?yàn)樘幚碣e語(yǔ)時(shí)句子的大部分信息是已知的信息。對(duì)長(zhǎng)距離賓語(yǔ)的概率p(obj|pre,atr)進(jìn)行的計(jì)量研究表明,相當(dāng)一部分(45%)的長(zhǎng)距離賓語(yǔ)的概率p(obj|pre,atr)大于0.1,其余賓語(yǔ)的概率則極低,或者無(wú)法統(tǒng)計(jì)。對(duì)于這些賓語(yǔ),完型填空問卷研究表明p(obj|pre,atr)大于0.1的賓語(yǔ)的正確率基本都在0.2以上。根據(jù)現(xiàn)有文獻(xiàn)來(lái)看,這個(gè)正確率說(shuō)明處理難度有效地減少了。p(obj|pre,atr)大于0.1反映了較高的可預(yù)測(cè)度。對(duì)于其余的低正確率賓語(yǔ),在提供語(yǔ)境(前一個(gè)句子)的情況下的研究,結(jié)果表明一部分賓語(yǔ)的正確率也提高到0.2。這些研究表明,長(zhǎng)距離賓語(yǔ)往往可能伴隨著較高可預(yù)測(cè)度與較低的信息度,這無(wú)疑有利于賓語(yǔ)詞的識(shí)別與加工。這兩個(gè)因素往往可能也使得長(zhǎng)依存距離對(duì)賓語(yǔ)處理復(fù)雜度不會(huì)帶來(lái)顯著的影響。該研究表明在較微觀的具體依存關(guān)系層面,真實(shí)語(yǔ)言中的長(zhǎng)依存距離可能僅僅是影響處理復(fù)雜度的一個(gè)因素,同時(shí)受到其他諸多因素(如詞的識(shí)別與語(yǔ)義處理機(jī)制等)的制約。這些因素協(xié)同作用,可能使得真實(shí)語(yǔ)言中高頻出現(xiàn)的長(zhǎng)依存距離往往不會(huì)顯著增加真實(shí)使用的語(yǔ)言的處理難度。目前課題組正在根據(jù)該研究成果撰寫論文,擬投稿語(yǔ)言學(xué)及認(rèn)知類的SSCI期刊。

(5)語(yǔ)碼轉(zhuǎn)換機(jī)制的認(rèn)知與計(jì)量研究。該研究階段性成果已發(fā)表于國(guó)際著名普通語(yǔ)言學(xué)刊物L(fēng)ingua,詳見“代表性成果簡(jiǎn)介”第5項(xiàng)。

二、調(diào)研及學(xué)術(shù)交流情況

1. 調(diào)研情況

國(guó)內(nèi)計(jì)量語(yǔ)言學(xué)研究尚處于起步階段,課題組在申請(qǐng)課題時(shí)已經(jīng)對(duì)國(guó)內(nèi)外計(jì)量語(yǔ)言學(xué)研究現(xiàn)狀有過(guò)較為詳細(xì)的了解,立項(xiàng)后課題組主要進(jìn)行了以下兩方面的工作。

第一,文獻(xiàn)資料收集整理。課題組雖然已經(jīng)掌握大量的計(jì)量語(yǔ)言學(xué)及相關(guān)領(lǐng)域文獻(xiàn)資料,但是為了本課題研究能夠處于國(guó)際學(xué)術(shù)前沿水平,始終注重文獻(xiàn)收集與整理工作。除了已有的幾種計(jì)量語(yǔ)言學(xué)學(xué)術(shù)期刊的全部期數(shù)和計(jì)量語(yǔ)言學(xué)主要經(jīng)典著作外,還繼續(xù)收集了大量論文和著作,以及同一著作的不同語(yǔ)言版本。其中不乏一些稀缺資源,包括英語(yǔ)、德語(yǔ)、俄語(yǔ)、法語(yǔ)等語(yǔ)種的文獻(xiàn)。在此基礎(chǔ)上,完成了《協(xié)同語(yǔ)言學(xué)》和一些計(jì)量語(yǔ)言學(xué)領(lǐng)域重要論文的翻譯、校訂工作。

第二,與國(guó)內(nèi)外高校和科研機(jī)構(gòu)開展多種形式的合作交流。為了提升國(guó)內(nèi)學(xué)者對(duì)計(jì)量語(yǔ)言學(xué)的關(guān)注熱情、加強(qiáng)不同學(xué)科領(lǐng)域的交流合作、增強(qiáng)課題研究成果的影響與價(jià)值,課題組對(duì)西安交通大學(xué)、北京外國(guó)語(yǔ)大學(xué)、黑龍江大學(xué)、大連海事大學(xué)、寧夏大學(xué)、浙江師范大學(xué)、寧波大學(xué)等學(xué)術(shù)機(jī)構(gòu)進(jìn)行了走訪,就課題研究?jī)?nèi)容與進(jìn)展同國(guó)內(nèi)學(xué)者進(jìn)行交流討論,商討合作研究等事宜。

2. 學(xué)術(shù)交流情況

為了開闊學(xué)術(shù)視野,尋求廣泛和深入的合作,增強(qiáng)研究成果宣傳推介力度,課題組積極組織、大力支持各類學(xué)術(shù)交流活動(dòng)。一方面,“請(qǐng)進(jìn)來(lái)”,邀請(qǐng)國(guó)內(nèi)外專家學(xué)者參與本課題研究或給予指導(dǎo);另一方面,“走出去”,積極參加國(guó)內(nèi)外學(xué)術(shù)會(huì)議,出國(guó)訪問學(xué)習(xí),走訪國(guó)內(nèi)外相關(guān)研究單位,開展學(xué)術(shù)報(bào)告,向國(guó)內(nèi)外學(xué)界介紹我們的研究進(jìn)展與成果。

目前,課題組與國(guó)際計(jì)量語(yǔ)言學(xué)的幾個(gè)主要研究機(jī)構(gòu),如德國(guó)特里爾大學(xué)、波鴻大學(xué)、法蘭克福大學(xué)、奧地利維也納大學(xué)、捷克奧洛穆茨帕拉茨基大學(xué)、西班牙加泰倫尼亞理工大學(xué)等機(jī)構(gòu)的學(xué)者保持著密切的學(xué)術(shù)交流關(guān)系,并已展開一些實(shí)質(zhì)性的研究。項(xiàng)目首席專家劉海濤為Journal of Quantitative Linguistics、Glottometrics、Glottotheory三本國(guó)際著名的計(jì)量語(yǔ)言學(xué)期刊的編委會(huì)成員,這一方面保證了本課題組各項(xiàng)研究?jī)?nèi)容的前沿性,另一方面也為課題組研究成果的國(guó)際交流與共享創(chuàng)造了條件。

課題組2012年年度會(huì)議于2012年12月16日在浙江大學(xué)紫金港校區(qū)舉行。會(huì)議特邀教育部語(yǔ)言文字應(yīng)用研究所馮志偉研究員出席指導(dǎo)。馮志偉研究員聽取課題組關(guān)于已取得的研究成果與正在開展的研究課題的匯報(bào)后給予充分肯定,并就研究中遇到的一些具體問題給出了指導(dǎo)性建議。同時(shí)他還鼓勵(lì)課題組要爭(zhēng)取更多地在國(guó)際上發(fā)表課題相關(guān)研究成果,以增強(qiáng)我國(guó)人文社會(huì)科學(xué)研究在國(guó)際學(xué)術(shù)界的影響力。

課題組成員已有數(shù)人出國(guó)訪問、學(xué)習(xí),如:王璐目前在德國(guó)特里爾大學(xué)跟隨國(guó)際計(jì)量語(yǔ)言學(xué)會(huì)前會(huì)長(zhǎng)Reinhard K?hler學(xué)習(xí)計(jì)量語(yǔ)言學(xué),開展?jié)h語(yǔ)計(jì)量研究;陳芯瑩于2013年8月赴意大利參加國(guó)際計(jì)量語(yǔ)言學(xué)暑期班(IQLA-GIAT International Summer School on Quantitative Analysis of Textual Data)進(jìn)修;瞿云華曾赴美國(guó)跟隨著名語(yǔ)料庫(kù)專家Douglas Biber學(xué)習(xí),開展語(yǔ)料庫(kù)語(yǔ)言學(xué)研究;樂明也曾赴美隨著名語(yǔ)言學(xué)家Joan Bybee學(xué)習(xí),開展語(yǔ)言的歷時(shí)計(jì)量研究。

課題組成員何蓮珍、馬博森、李德高、王永、梁君英、陳芯瑩等多次參加國(guó)內(nèi)外學(xué)術(shù)會(huì)議并在會(huì)上宣讀了與本課題有關(guān)的學(xué)術(shù)論文。

三、代表性成果簡(jiǎn)介

課題組在計(jì)量語(yǔ)言學(xué)理論與方法、漢語(yǔ)(語(yǔ)音、詞匯、句法、語(yǔ)義、語(yǔ)體等)計(jì)量研究、多語(yǔ)計(jì)量研究、語(yǔ)言認(rèn)知、語(yǔ)言計(jì)量研究方法創(chuàng)新等方面取得了豐富的研究成果。以下選取各方面代表性成果進(jìn)行簡(jiǎn)要介紹。

1. 《計(jì)量語(yǔ)言學(xué)的現(xiàn)狀、理論與方法》(發(fā)表于《浙江大學(xué)學(xué)報(bào)(人文社會(huì)科學(xué)版)》2012年第2期)

本文從理論、方法、歷史與現(xiàn)狀等方面,系統(tǒng)地總結(jié)和介紹了計(jì)量語(yǔ)言學(xué)這一新興的和重要的語(yǔ)言學(xué)分支學(xué)科。計(jì)量語(yǔ)言學(xué)以真實(shí)語(yǔ)料為基礎(chǔ),用精確的方法來(lái)研究語(yǔ)言結(jié)構(gòu)與發(fā)展規(guī)律,揭示各種語(yǔ)言現(xiàn)象形成的內(nèi)在原因,探索語(yǔ)言系統(tǒng)的自適應(yīng)機(jī)制和語(yǔ)言演化的動(dòng)因。計(jì)量語(yǔ)言學(xué)認(rèn)為語(yǔ)言是一種生物-認(rèn)知現(xiàn)象和心理-社會(huì)現(xiàn)象,語(yǔ)言系統(tǒng)是一個(gè)自組織、自適應(yīng)的動(dòng)態(tài)系統(tǒng),是一個(gè)復(fù)雜系統(tǒng)。計(jì)量語(yǔ)言學(xué)具有精確、真實(shí)、動(dòng)態(tài)三大特點(diǎn),是一個(gè)典型的文理交叉學(xué)科,具有鮮明的跨學(xué)科研究特質(zhì)。計(jì)量語(yǔ)言學(xué)研究對(duì)于構(gòu)建一種現(xiàn)代科學(xué)意義上的語(yǔ)言學(xué)理論是非常重要的。本文在回顧歷史、把握現(xiàn)狀的基礎(chǔ)上,厘清了該學(xué)科進(jìn)一步發(fā)展的走向,在向國(guó)內(nèi)學(xué)界引介國(guó)際計(jì)量語(yǔ)言學(xué)研究的同時(shí),對(duì)漢語(yǔ)的計(jì)量研究給予了特別關(guān)注,旨在引起國(guó)內(nèi)學(xué)者對(duì)該學(xué)科領(lǐng)域的重視,進(jìn)而推動(dòng)中國(guó)語(yǔ)言學(xué)的國(guó)際化與語(yǔ)言學(xué)研究的科學(xué)化水平。

2. Statistical Analysis of Chinese Phonemic Contrast(發(fā)表于Phonetica, 68, 2011,SCI、SSCI、A&HCI收錄)

在語(yǔ)音層面對(duì)旨在說(shuō)明音位演化的Martinet假設(shè)進(jìn)行了深入研究。研究表明,如果以音位對(duì)立度(phonemic contrast)作為功能負(fù)荷(functional load)的量化指標(biāo),那么音位的功能負(fù)荷大小與某些音位的消失并無(wú)直接關(guān)系,這從定量與統(tǒng)計(jì)的角度對(duì)傳統(tǒng)的Martinet假設(shè)提出了有力的質(zhì)疑,也就是說(shuō)音位的功能負(fù)荷(對(duì)立度)并非越大越好。我們的研究表明,元音與輔音的音位對(duì)立度與詞長(zhǎng)之間可以分別用兩個(gè)函數(shù)來(lái)描述:f(x)=7.249*exp(-2.673*x),f(x)=2.864*exp(-2.716*x),即:漢語(yǔ)的音位對(duì)立度普遍較低。較低的音位對(duì)立度意味著較高的稀疏度,從而提高了語(yǔ)言的冗余度。從語(yǔ)言的交際功能與認(rèn)知心理基礎(chǔ)來(lái)看,這種高冗余度非常有利于提高語(yǔ)言交際過(guò)程中信息傳遞的可靠性。這一發(fā)現(xiàn)也為設(shè)計(jì)更好的自動(dòng)語(yǔ)音識(shí)別系統(tǒng)提供了重要的啟發(fā)。

3. Synergetic Study on Chinese Lexical Structure(已錄用,將發(fā)表于Journal of Quantitative Linguistics,SSCI與A&HCI收錄期刊)

本研究在協(xié)同語(yǔ)言學(xué)理論框架下,使用《人民日?qǐng)?bào)》標(biāo)注語(yǔ)料庫(kù),在漢語(yǔ)詞匯層面使用頻率、詞長(zhǎng)、多義度和多文度4個(gè)屬性,實(shí)驗(yàn)了協(xié)同模型,取得良好結(jié)果。具體來(lái)說(shuō),首先,模型的直接關(guān)系,間接關(guān)系,雙重間接關(guān)系擬合結(jié)果與其他語(yǔ)言研究得到的結(jié)果類似。說(shuō)明詞匯層面,語(yǔ)言是一個(gè)自適應(yīng)系統(tǒng),漢語(yǔ)與其他語(yǔ)言在這方面是一致的。其次,頻率-詞長(zhǎng)關(guān)系,即詞長(zhǎng)受到頻率的影響程度,較為特殊,其圖線噪聲較大,數(shù)據(jù)點(diǎn)圍繞理論曲線在一定面積內(nèi)分布。仿照此前的協(xié)同模型研究,使用時(shí)序分析的處理方法,平均移動(dòng),得到了與其他語(yǔ)言一樣的圖形,即圍繞理論曲線上下波動(dòng)的線圖。雖然冪律關(guān)系尚不能精確描述詞長(zhǎng)受頻率的影響,但還是在一定程度上揭示了語(yǔ)言的共性。對(duì)于漢語(yǔ),我們又發(fā)現(xiàn),平均移動(dòng)后的線圖,更符合指數(shù)方程。該研究一方面在語(yǔ)言類型上豐富了協(xié)同模型的可應(yīng)用范圍,另一方面明確了漢語(yǔ)自身的特點(diǎn)以及與其他語(yǔ)言的異同。

4. 《基于依存句法標(biāo)注樹庫(kù)的漢語(yǔ)語(yǔ)體差異研究》(發(fā)表于《語(yǔ)言文字應(yīng)用》2012年第4期)

以前期建設(shè)的依存句法標(biāo)注語(yǔ)料庫(kù)為基礎(chǔ),我們首次嘗試在句法層面對(duì)語(yǔ)體進(jìn)行精確的定量研究。研究表明,書面語(yǔ)中主語(yǔ)大多數(shù)由名詞充當(dāng),口語(yǔ)中主語(yǔ)大多數(shù)由代詞充當(dāng);書面語(yǔ)的定語(yǔ)構(gòu)成中名詞占絕對(duì)優(yōu)勢(shì);口語(yǔ)中定語(yǔ)構(gòu)成中量詞結(jié)構(gòu)和“的”字結(jié)構(gòu)占多數(shù);書面語(yǔ)中副詞占29.8%,介詞結(jié)構(gòu)占24.8%;口語(yǔ)中副詞占57.5%,介詞結(jié)構(gòu)占10.6%;書面語(yǔ)中補(bǔ)語(yǔ)構(gòu)成較分散,口語(yǔ)中補(bǔ)語(yǔ)構(gòu)成較集中,主要是動(dòng)詞。不同語(yǔ)體在謂語(yǔ)、賓語(yǔ)的詞類構(gòu)成方面差別較小,定語(yǔ)、狀語(yǔ)、補(bǔ)語(yǔ)等在詞類構(gòu)成上分布較為分散。該研究基于大量真實(shí)語(yǔ)料,將句法計(jì)量研究與語(yǔ)體比較研究相結(jié)合,對(duì)不同語(yǔ)體進(jìn)行定量的描寫與比較,有助于發(fā)現(xiàn)潛在的語(yǔ)言規(guī)律。

5. Syntactic Variations in Chinese-English Code-switching(發(fā)表于Lingua, 123(1), 2013,SSCI與A&HCI收錄)

語(yǔ)碼轉(zhuǎn)換是指在日常交際中兩種或兩種以上語(yǔ)言或語(yǔ)言變體的語(yǔ)言運(yùn)用;跐h英語(yǔ)碼轉(zhuǎn)換的依存樹庫(kù),我們發(fā)現(xiàn):漢英語(yǔ)碼轉(zhuǎn)換樹庫(kù)存在依存距離的變異和以依存方向?yàn)闇y(cè)量指標(biāo)的詞序變異。混雜依存比具有相同支配詞的單語(yǔ)依存的平均依存距離長(zhǎng)。具體而言,漢英語(yǔ)碼轉(zhuǎn)換語(yǔ)料庫(kù)的平均依存距離比英語(yǔ)單語(yǔ)的平均依存距離長(zhǎng),比漢語(yǔ)單語(yǔ)的平均依存距離短。在語(yǔ)碼轉(zhuǎn)換樹庫(kù)中,存在兩類依存關(guān)系:?jiǎn)握Z(yǔ)依存和混雜依存。混雜依存類型比單語(yǔ)依存類型的平均依存距離長(zhǎng)。主要語(yǔ)法關(guān)系(主語(yǔ)、賓語(yǔ)、定語(yǔ)和狀語(yǔ))在句法變異中發(fā)揮著重要作用。依存方向在單語(yǔ)依存和混雜依存中的分布差異導(dǎo)致了語(yǔ)碼轉(zhuǎn)換的詞序變異。主要語(yǔ)法關(guān)系在單語(yǔ)依存和混雜依存中的分布差異導(dǎo)致了依存方向的分布差異。本研究以基于真實(shí)語(yǔ)料庫(kù)的計(jì)量語(yǔ)言學(xué)方法來(lái)研究語(yǔ)言在實(shí)際使用中呈現(xiàn)的趨勢(shì)和傾向,并進(jìn)而探究了這些趨勢(shì)和傾向背后的認(rèn)知功能等機(jī)制。把計(jì)量語(yǔ)言學(xué)研究成果和認(rèn)知科學(xué)研究有機(jī)地結(jié)合起來(lái)無(wú)疑將使我們對(duì)語(yǔ)言有更為深入的認(rèn)識(shí)。

6. Probability Distribution of Semantic Roles in a Chinese Treebank Annotated with Semantic Roles(發(fā)表于Synergetic Linguistics: Text and Languages as Dynamic Systems. Wien: Praesens Verlag. 2012)

語(yǔ)義是語(yǔ)言學(xué)的重要研究領(lǐng)域,但是目前該領(lǐng)域的計(jì)量研究非常少見。以語(yǔ)義標(biāo)注語(yǔ)料庫(kù)為基礎(chǔ),我們首次對(duì)漢語(yǔ)語(yǔ)義角色的分布進(jìn)行了研究。研究表明,漢語(yǔ)中語(yǔ)義角色的的頻率(frequency)以及頻率秩(frequency-rank)之間存在函數(shù)關(guān)系。語(yǔ)義角色的分布符合右截尾Zipf-Alekseev分布。這一發(fā)現(xiàn)有力地說(shuō)明,在語(yǔ)義層面上語(yǔ)言的演化同樣經(jīng)歷了其他語(yǔ)言層面曾經(jīng)出現(xiàn)過(guò)的多樣化(diversification)過(guò)程。也就是說(shuō),各種不同的語(yǔ)義角色都是由某一個(gè)原型角色通過(guò)多樣化過(guò)程不斷演化發(fā)展而產(chǎn)生的。

7. Quantitative Typological Analysis of Romance Languages(發(fā)表于Poznań Studies in Contemporary Linguistics, 48(4), 2012,SSCI與A&HCI收錄)

以依存樹庫(kù)和相應(yīng)的句法復(fù)雜網(wǎng)絡(luò)為基礎(chǔ),將句法計(jì)量研究方法與句法復(fù)雜網(wǎng)絡(luò)研究方法應(yīng)用于羅曼語(yǔ)族的語(yǔ)言歷時(shí)研究和類型學(xué)共時(shí)研究。結(jié)果表明,著眼于整體的句法復(fù)雜網(wǎng)絡(luò)參數(shù)聚類分析和句法依存方向定量分析很好地體現(xiàn)了語(yǔ)言變化與差異的連續(xù)性,可以較好的揭示語(yǔ)言的歷時(shí)變化以及共時(shí)的類型學(xué)差異,為羅曼語(yǔ)族的歷史句法演變以及共時(shí)區(qū)分問題提供了令人滿意的答案。傳統(tǒng)的語(yǔ)言學(xué)解構(gòu)觀點(diǎn)可以對(duì)語(yǔ)言中某些細(xì)節(jié)的具體的問題做出描述。物理學(xué)中的復(fù)雜網(wǎng)絡(luò)分析方法和基于真實(shí)語(yǔ)料的計(jì)量方法則可以幫助我們從整體的角度來(lái)觀察語(yǔ)言。這種整體的觀點(diǎn)對(duì)于語(yǔ)言類型學(xué)的研究具有重要的意義。因?yàn)椴煌Z(yǔ)言之間的差異是連續(xù)的,這意味著定性的傳統(tǒng)類型學(xué)研究方法有很大局限性。因?yàn)閺牟煌募?xì)節(jié)著眼,人們會(huì)對(duì)不同語(yǔ)族(如羅曼語(yǔ)族)的劃分得出完全不同的觀點(diǎn)。該研究將句法復(fù)雜網(wǎng)絡(luò)方法、依存樹庫(kù)計(jì)量方法與語(yǔ)言歷時(shí)研究、語(yǔ)言類型學(xué)研究結(jié)合起來(lái),具有較強(qiáng)的研究方法指導(dǎo)意義。

8. Language Clustering with Word co-occurrence Networks based on Parallel Texts(發(fā)表于Chinese Science Bulletin, 58(10), 2013,SCI收錄)

將語(yǔ)言作為一個(gè)系統(tǒng)的觀念是現(xiàn)代語(yǔ)言學(xué)中最重要的假設(shè)之一。語(yǔ)言學(xué)的傳統(tǒng)方法無(wú)法揭示語(yǔ)言在宏觀尺度上的整體特征。而能夠以整體觀考察各種系統(tǒng)的復(fù)雜網(wǎng)絡(luò)可以彌補(bǔ)語(yǔ)言學(xué)在這方面的欠缺。對(duì)語(yǔ)言網(wǎng)絡(luò)的定量分析可望成為語(yǔ)言學(xué)中不同領(lǐng)域的潛在研究方法。語(yǔ)言分類就是一個(gè)有代表性的例子。以往研究表明,基于真實(shí)語(yǔ)料構(gòu)建句法依存網(wǎng)絡(luò),并采用這些網(wǎng)絡(luò)的主要參數(shù)進(jìn)行聚類分析,能夠大致反映出對(duì)應(yīng)的語(yǔ)言在語(yǔ)言譜系中的親緣關(guān)系。由于語(yǔ)言復(fù)雜網(wǎng)絡(luò)反映的正是語(yǔ)言在宏觀尺度上的整體特征,基于復(fù)雜網(wǎng)絡(luò)的語(yǔ)言分類是對(duì)整體類型學(xué)的一大貢獻(xiàn)。然而,這些研究所獲得的語(yǔ)言分類并不精細(xì),一般只滿足于將不同的語(yǔ)言大致劃入各自的語(yǔ)族。從方法上講,這些研究存在兩大問題。一是構(gòu)建句法依存網(wǎng)絡(luò)所采用的語(yǔ)料在語(yǔ)義內(nèi)容和語(yǔ)體方面不一致,可能會(huì)影響分類結(jié)果。二是句法依存網(wǎng)絡(luò)的構(gòu)建費(fèi)時(shí)費(fèi)力,不適用于對(duì)較多語(yǔ)言進(jìn)行分類。考慮到以上這些問題,本研究采用了在語(yǔ)義和語(yǔ)體上均一致的平行文本作為語(yǔ)料,采用可以自動(dòng)方式構(gòu)建的詞同現(xiàn)網(wǎng)絡(luò)作為網(wǎng)絡(luò)模型來(lái)進(jìn)行語(yǔ)言分類實(shí)驗(yàn)。研究采用的平行文本共14個(gè),其中12個(gè)為斯拉夫語(yǔ)族不同語(yǔ)言的文本,其余2個(gè)為漢語(yǔ)和英語(yǔ)文本。因此,本研究能夠檢驗(yàn)復(fù)雜網(wǎng)絡(luò)方法對(duì)同一語(yǔ)族的不同語(yǔ)言的分類,即較為精細(xì)的語(yǔ)言分類的適用性。研究分別計(jì)算了14個(gè)詞同現(xiàn)網(wǎng)絡(luò)的10個(gè)主要參數(shù),采用這些參數(shù)的64種不同組合進(jìn)行聚類實(shí)驗(yàn)。結(jié)果表明,有15種組合能夠得出較為理想的分類結(jié)果,即,既能將斯拉夫語(yǔ)言與非斯拉夫語(yǔ)言區(qū)分開來(lái),又能將12種斯拉夫語(yǔ)言正確地劃分到各自的語(yǔ)支中去。此外,聚類結(jié)果還能反映出某些斯拉夫語(yǔ)言在其語(yǔ)支內(nèi)部的親緣關(guān)系。該分類結(jié)果要稍好于基于斯拉夫語(yǔ)言中的型例關(guān)系而得出的結(jié)果,與采用包括詞匯統(tǒng)計(jì)學(xué)在內(nèi)的其他方法所得到的結(jié)果大致具有可比性。結(jié)果也表明,這些語(yǔ)言在書寫系統(tǒng)上的差異對(duì)其分類并無(wú)影響。這也引起我們對(duì)語(yǔ)言與書寫系統(tǒng)之間關(guān)系的思考。另外,由于本研究所采用的方法依據(jù)的是語(yǔ)言作為一個(gè)系統(tǒng)的整體特征,其分類結(jié)果明顯好于采用依存方向等語(yǔ)序指標(biāo)所得到的結(jié)果。這也表明, 對(duì)于像斯拉夫語(yǔ)言這樣具有較豐富的屈折形態(tài)變化的語(yǔ)言來(lái)說(shuō), 語(yǔ)序可能不是其分類的最佳依據(jù)。由于本研究的方法完全是從定量的角度去進(jìn)行語(yǔ)言分類,它反映出來(lái)的語(yǔ)言之間的異同是連續(xù)性的,而非離散的。本研究的結(jié)論是:平行詞同現(xiàn)網(wǎng)絡(luò)能夠被用于語(yǔ)言的精細(xì)分類,而且在基于復(fù)雜網(wǎng)絡(luò)的語(yǔ)言分類中可被用作句法依存網(wǎng)絡(luò)的一種更為便捷的替代品。本研究所采用的方法也有助于建立一種注重整體特征的、定量的、能反映語(yǔ)言之間連續(xù)性差異的語(yǔ)言類型學(xué)研究路向。

四、成果宣傳推介情況

1. 開題研討會(huì)

本課題開題研討會(huì)于2012年2月26日在浙江大學(xué)外語(yǔ)學(xué)院舉行。專家組由教育部語(yǔ)言文字應(yīng)用研究所、大連海事大學(xué)、北京大學(xué)、清華大學(xué)、廣東外語(yǔ)外貿(mào)大學(xué)的知名學(xué)者構(gòu)成。浙江省社會(huì)科學(xué)界聯(lián)合會(huì)、浙江省哲學(xué)社會(huì)科學(xué)規(guī)劃辦公室、浙江大學(xué)、浙江大學(xué)社會(huì)科學(xué)研究院等單位的領(lǐng)導(dǎo)同志到會(huì)指導(dǎo)。與會(huì)專家和領(lǐng)導(dǎo)認(rèn)真聽取了課題組的報(bào)告,對(duì)本課題的選題意義與價(jià)值、研究思路與方法、課題組人員配置分工等給予了充分肯定,就多方面相關(guān)問題與課題組成員展開廣泛和深入的討論,希望并一致認(rèn)為課題組能夠在語(yǔ)言學(xué)跨學(xué)科研究方面取得突破性進(jìn)展、取得豐碩成果,增強(qiáng)與提高中國(guó)語(yǔ)言學(xué)在國(guó)際學(xué)術(shù)界的聲望與話語(yǔ)權(quán)。開題研討會(huì)的已被國(guó)家社科規(guī)劃辦以及浙江大學(xué)相關(guān)網(wǎng)站報(bào)道。

2. 《光明日?qǐng)?bào)》刊登《計(jì)量語(yǔ)言學(xué):語(yǔ)言研究的科學(xué)化途徑》一文

2012年2月15日,《光明日?qǐng)?bào)》(第16版)刊登了本課題首席專家劉海濤撰寫的文章《計(jì)量語(yǔ)言學(xué):語(yǔ)言研究的科學(xué)化途徑》。這是該報(bào)“國(guó)家社科基金”專刊開辟“跨學(xué)科研究”專欄后的首篇文章。文章指出,語(yǔ)言研究的科學(xué)化一直是現(xiàn)代語(yǔ)言學(xué)家的一個(gè)主要努力方向與重要目標(biāo);在語(yǔ)言學(xué)中引入計(jì)量方法可能是語(yǔ)言學(xué)科學(xué)化的必要途徑;開展多層次的漢語(yǔ)計(jì)量語(yǔ)言學(xué)研究不僅是對(duì)國(guó)際計(jì)量語(yǔ)言學(xué)的補(bǔ)充與發(fā)展,也有助于提高中國(guó)語(yǔ)言學(xué)的國(guó)際化與語(yǔ)言學(xué)的科學(xué)化,是一個(gè)值得更多語(yǔ)言學(xué)家參與的領(lǐng)域。文章還對(duì)計(jì)量語(yǔ)言學(xué)的理論、方法、歷史與現(xiàn)狀進(jìn)行了介紹。

3. 國(guó)際著名計(jì)量語(yǔ)言學(xué)期刊Glottometrics對(duì)本項(xiàng)目進(jìn)行了專題報(bào)道

國(guó)際著名計(jì)量語(yǔ)言學(xué)刊物Glottometrics在2011年出版的第22期中,對(duì)本項(xiàng)目進(jìn)行了較詳細(xì)的報(bào)道與介紹。鑒于這本期刊在國(guó)際計(jì)量語(yǔ)言學(xué)中的重要地位,該報(bào)道使得幾乎所有的國(guó)際計(jì)量語(yǔ)言學(xué)同行都對(duì)我們的項(xiàng)目有了一個(gè)較詳細(xì)的了解,起到了很好的宣傳效果,為項(xiàng)目進(jìn)一步的國(guó)際合作奠定了基礎(chǔ)。

4. 課題組研究工作與成果的相關(guān)報(bào)道

課題組2012年年度會(huì)議于12月16-17日在浙江大學(xué)外語(yǔ)學(xué)院舉行。浙大相關(guān)單位的網(wǎng)站對(duì)會(huì)議召開(以及上述開題研討會(huì)與《光明日?qǐng)?bào)》刊文等)進(jìn)行了詳細(xì)報(bào)道。課題組成員共30余人參加了會(huì)議。會(huì)議回顧了課題研究的目標(biāo)、內(nèi)容、計(jì)劃進(jìn)度等,總結(jié)了已經(jīng)取得的成果,討論并明確了研究中存在的一些問題和下一步的研究計(jì)劃。

浙江大學(xué)人文學(xué)院網(wǎng)站于2013年1月以《語(yǔ)言與認(rèn)知研究中心博士生王琳在國(guó)際知名語(yǔ)言學(xué)期刊發(fā)表論文》為題報(bào)道課題組成員在Lingua發(fā)表研究成果。報(bào)道稱,“該論文的發(fā)表是長(zhǎng)期以來(lái)堅(jiān)持跨學(xué)科研究、問題意識(shí)引導(dǎo)以及培養(yǎng)學(xué)生具有國(guó)際視野的成果體現(xiàn)”。Lingua創(chuàng)刊于1949年,是被SSCI和A&HCI同時(shí)收錄的最重要的國(guó)際普通語(yǔ)言學(xué)專業(yè)期刊之一。

階段性成果

序號(hào)

成果名稱

作者

成果形式

刊物名或出版社、刊發(fā)或出版時(shí)間

字?jǐn)?shù)

轉(zhuǎn)載、引用、獲獎(jiǎng)等情況

1

計(jì)量語(yǔ)言學(xué)的現(xiàn)狀、理論與方法

劉海濤
黃偉

論文

浙江大學(xué)學(xué)報(bào)(人文社會(huì)科學(xué)版)
2012年第2期

15000

 

2

基于依存句法標(biāo)注樹庫(kù)的漢語(yǔ)語(yǔ)體差異研究

劉丙麗
牛雅嫻
劉海濤

論文

語(yǔ)言文字應(yīng)用
2012年第4期

12000

 

3

Statistical Analysis of Chinese Phonemic Contrast

于水源

徐春山

劉海濤

論文

Phonetica, 68. 2011.

15000

SSCI, SCI, A&HCI

4

Language Clustering with Word Co-occurrence Networks based on Parallel Texts

劉海濤

叢進(jìn)

論文

Chinese Science Bulletin, 58(10), 2013.

8000

SCI

5

Quantitative Typological Analysis of Romance Languages

劉海濤

徐春山

論文

Poznań Studies in Contemporary Linguistics, 48(4), 2012.

25000

SSCI, A&HCI

6

Syntactic Variations in Chinese-English Code-switching.

王琳

劉海濤

論文

Lingua, 123(1), 2013.

25000

SSCI, A&HCI

7

Probability Distribution of Semantic Roles in a Chinese Treebank Annotated with Semantic Roles

劉海濤

論文

In: Synergetic Linguistics: Text and Language as Dynamic Systems. Wien: Praesens Verlag. 2012.

7000

 

8

Word Length in Chinese

王璐

論文

In: Issues in Quantitative Linguistics 3. Ram-Verlag. 2013.

16000

 

9

Chinese Deaf and Hard of Hearing Adolescents’ Awareness of Thematic and Taxonomic Relations among Ordinary Concepts Represented by Pictures and Written Words

李德高等

論文

American Annals of the Deaf, 10, 2012.

16000

SSCI

10

Mosuos’ Awareness of Taxonomic Relations in Word Associations, Lexicon Decisions and Semantic Categorizations

李德高等

論文

Scandinavian Journal of Psychology, 2012, 6.

18000

SSCI

11

句法復(fù)雜網(wǎng)絡(luò)作為語(yǔ)體分類的知識(shí)源研究

陳芯瑩
劉海濤

論文

計(jì)算機(jī)工程與應(yīng)用
2013, 49 (8).

7500

 

(課題組供稿)

(責(zé)編:趙晶)
RM新时代APP官网