RM新时代APP官网

舊版網(wǎng)站入口

站內(nèi)搜索

“中國民族語言語法標(biāo)注文本及軟件平臺”中期檢查報告

2014年02月26日18:19來源:全國哲學(xué)社會科學(xué)工作辦公室

一、研究進(jìn)展情況

進(jìn)展情況:本項目嚴(yán)格按照申請書中的預(yù)定計劃、課題設(shè)計進(jìn)行研究,項目負(fù)責(zé)人和課題組成員按照規(guī)定負(fù)責(zé)或參加研究工作。在項目負(fù)責(zé)人和項目管理組的安排下,各個子課題承擔(dān)人紛紛到民族地區(qū)對所承擔(dān)語言進(jìn)行深入的調(diào)查描寫。課題組成員黃行、于金枝、藍(lán)利國等到廣西、貴州等地調(diào)查了苗語、壯語;江荻、龍從軍、燕海雄、馬輝等到四川甘孜州、涼山州、西藏等地調(diào)查了藏語甘孜話、藏語拉薩話、彝語涼山話;王鋒、楊將領(lǐng)、陳國慶、鐘耀萍等到云南等地調(diào)查了白語、獨(dú)龍語、佤語、納西語;潘立慧到海南調(diào)查了黎語;徐世璇到湖南湘西調(diào)查了土家語;斯欽朝克圖到內(nèi)蒙等地調(diào)查了蒙古語巴林話;苗東霞到新疆調(diào)查了西部裕固語等。目前,各個子項目進(jìn)展較為順利,多數(shù)已經(jīng)編輯完成電子詞典,并整理完成了文本語料。已有9種語言(藏語拉薩話、藏語安多話、彝語涼山話、壯語武鳴話、黎語志強(qiáng)話、德昂語、哈尼語、獨(dú)龍語、土家語)在Toolbox軟件上完成了文本的語法標(biāo)注工作。近期,課題組獨(dú)立開發(fā)的軟件平臺也進(jìn)入試用期,可望為后續(xù)語言標(biāo)注提供軟件平臺。其余6種語言(拉塢戎語、滇東北苗語、傈僳語、水語、白語、鄂倫春語)已經(jīng)完成了前期工作,包括詞典的編輯和部分文本語料的記錄采集,還需要進(jìn)一步到民族地區(qū)補(bǔ)充記錄民間故事等文本語料。

課題組于2011年3月份舉辦開題論證會1次(約50人,邀請了八位學(xué)術(shù)界權(quán)威專家),對本課題的意義、國內(nèi)外研究狀況以及本課題的重點(diǎn)難點(diǎn)等問題進(jìn)行了匯報和說明,并咨詢各位專家和參會人員的意見,統(tǒng)一了思路,明確了方法。課題執(zhí)行過程中,先后舉辦軟件培訓(xùn)會議7次(前后約37人次)以及課題中期檢查會議1次(約15人)等,各子課題負(fù)責(zé)人掌握了課題的總體思路,能夠熟練利用語法標(biāo)注軟件進(jìn)行工作。此外,課題組成員先后在玉溪師范學(xué)院、上海師范大學(xué)、復(fù)旦大學(xué)、中央民族大學(xué)、西藏民族學(xué)院、青海師范大學(xué)、北京大學(xué)、云南民族大學(xué)等國內(nèi)多所高校和研究單位進(jìn)行學(xué)術(shù)訪問、交流和軟件培訓(xùn),推進(jìn)了本課題學(xué)術(shù)創(chuàng)新,提高了課題成果的學(xué)術(shù)水平和影響力度,達(dá)到了技術(shù)共享的目的。

本課題從2010年立項以來,各子課題組經(jīng)過兩年的田野調(diào)查和語法標(biāo)注的實(shí)踐,積累了較為豐富的經(jīng)驗,也發(fā)現(xiàn)了存在的問題。為此,課題組于2013年1月份舉辦了中國民族語言語法標(biāo)注專題會議,專門探討民族語言標(biāo)注過程中遇到的問題和積累的經(jīng)驗。該次會議的成果已編纂成專著《中國民族語言語法標(biāo)注研究》,即將于2013年10月份在民族出版社出版。

課題組支持和鼓勵子課題成員參加國內(nèi)外相關(guān)的學(xué)術(shù)會議,先后參加的主要學(xué)術(shù)會議有“四川境內(nèi)的藏緬語國際學(xué)術(shù)研討會“、“當(dāng)代語言科學(xué)創(chuàng)新與發(fā)展國際研討會”、“第6屆國際彝緬語學(xué)術(shù)研討會”、“2012演化語言學(xué)國際研討會”、“第六界全國青年計算語言學(xué)會議”、“第11屆全國計算語言學(xué)學(xué)術(shù)會議”、“第2屆語言進(jìn)化與遺傳進(jìn)化國際會議”、“漢語方言類型研討會”等。

成果宣傳方面:課題組每年提交了工作簡報。其中2011年開題論證會內(nèi)容在社科基金辦網(wǎng)站作為工作簡報發(fā)布,2012年向社科基金辦提交了“走向創(chuàng)新:中國語言資源挖掘的新領(lǐng)域和新方法”外宣稿和年度簡報。國家規(guī)劃辦(中宣部領(lǐng)導(dǎo))在2012年社科基金重大招標(biāo)項目的立項會議上,對本課題特別口頭提出表揚(yáng),對本課題的重大價值和意義以及課題的執(zhí)行情況予以了肯定!吨袊鐣茖W(xué)報》2012年9月19日第358期發(fā)表了《打造信息時代的學(xué)術(shù)利器》,著重指出本課題意義重大:“當(dāng)代語言研究呼喚一種跨語言、跨方言的開放性研究,期待可供學(xué)科利用的多語種、多元化的真實(shí)文本資源。正是在這個意義上,利用專業(yè)軟件平臺開展民族語言語法文本標(biāo)注,不僅將拓展中國語言資源挖掘的新領(lǐng)域,而且將開辟新的研究范式,推進(jìn)語言研究的深度發(fā)展”。在昆明舉辦的“2013國際語言學(xué)高級研習(xí)班”上,課題組向參會的國內(nèi)外同行(包括美國少數(shù)民族語言研究院多位專家和中國臺北靜宜大學(xué)專家)全面介紹了本課題的設(shè)計思想、研究思路、技術(shù)方法以及階段成果,得到了與會者的高度好評,擴(kuò)大了課題的影響力。

二、研究成果情況

1、已完成9部專著及相應(yīng)的數(shù)據(jù)庫(成果形式:專著/數(shù)據(jù)庫)

本課題截至目前已有9種語言完成了語法標(biāo)注工作,在標(biāo)注數(shù)據(jù)庫的基礎(chǔ)上已經(jīng)撰寫成相應(yīng)的書稿。每部書稿的基本內(nèi)容包括:第一,該語言導(dǎo)論,介紹標(biāo)注語言的背景和語音、詞匯、語法特征。第二,20余篇約5-10萬字語法標(biāo)注真實(shí)文本(即標(biāo)注熟語料,形態(tài)、語序、句法),并配以句對齊漢語譯文和全文譯文,多行對照總字?jǐn)?shù)達(dá)20余萬字,是全書的主體。第三,全書文本詞匯索引和后記。每部專著約30萬字,分別為:

(1)、江 荻:《藏語拉薩話語法標(biāo)注文本》,專著/數(shù)據(jù)庫,約30萬;

(2)、龍從軍:《藏語安多話語法標(biāo)注文本》,專著/數(shù)據(jù)庫,約30萬;

(3)、燕海雄:《彝語涼山話語法標(biāo)注文本》,專著/數(shù)據(jù)庫,約30萬;

(4)、楊將領(lǐng):《獨(dú)龍語獨(dú)龍江話語法標(biāo)注文本》,專著/數(shù)據(jù)庫,30萬;

(5)、尹巧云:《德昂語語法標(biāo)注文本》,專著/數(shù)據(jù)庫,約30萬;

(6)、藍(lán)利國:《壯語武鳴話語法標(biāo)注文本》,專著/數(shù)據(jù)庫,約30萬;

(7)、潘立慧:《黎語志強(qiáng)話語法標(biāo)注文本》,專著/數(shù)據(jù)庫,約30萬;

(8)、白碧波:《哈尼語語法標(biāo)注文本》,專著/數(shù)據(jù)庫,約30萬;

(9)、徐世璇:《土家語語法標(biāo)注文本》,專著/數(shù)據(jù)庫,約30萬;

2、中國民族語言語法標(biāo)注平臺(成果形式:軟件)

本項目前期語言采用Toolbox軟件操作。由于SIL的Toolbox有兩方面缺陷:計算機(jī)內(nèi)碼層次太低,是基于DOS系統(tǒng)開發(fā)和改造的軟件,對多文字多字體操作缺乏兼容性,例如漢字處理仍然保留單八位底層編碼,造成半個漢字現(xiàn)象;同時,該軟件英文版本,功能設(shè)置重復(fù),使用困難。為此,課題組開發(fā)出漢語版文本語法標(biāo)注平臺軟件,增加必要的輸入和輸出功能。這套軟件還包括分詞功能、詞典與文本互動功能、字體設(shè)置(包括英語、漢語、音標(biāo)和其他民族文字)功能、隔行對照化整體移行功能等。目前,該軟件處于試用階段,正在完善隔行對照化、跳轉(zhuǎn)插詞、形態(tài)分析、深層形式和表層形式交互標(biāo)注等功能。

我們相信這套文本處理軟件將是一套適合中國少數(shù)民族語言或無文字語言全面開展語法-詞典研究的優(yōu)秀工具軟件,也是一種幫助研究者實(shí)現(xiàn)從文本編制語法詞典,又利用詞典自動標(biāo)注文本的互動分析工具。

3、《中國民族語言語法標(biāo)注集》(成果形式:數(shù)據(jù)庫)

《中國民族語言語法標(biāo)注集》是本項研究的基礎(chǔ)工作。課題組建立三套完整的涵蓋了整個語法系統(tǒng)(詞法或形態(tài)、句法)的語法標(biāo)注集。實(shí)際上,由于各語言語法類型差異較大,按照語法差異類別可以分為苗瑤侗臺語、藏緬語、阿爾泰語(北方)三種類型,分別建立適合各類語言的標(biāo)注集。這三套語法標(biāo)注集由子課題組承擔(dān),要求全部按照國際規(guī)范用英語命名和縮略語注解,另外添加中文術(shù)語翻譯。具體要求包括詞類標(biāo)記、語法詞小類標(biāo)記(如語氣詞、代詞等)、形態(tài)標(biāo)記(如復(fù)數(shù)詞綴、時態(tài)詞綴等)、格標(biāo)記、體貌標(biāo)記、名詞化標(biāo)記、助詞標(biāo)記等。對于整套叢書,要求語法標(biāo)記保持一致,每個語言都從子課題語法標(biāo)注集選取標(biāo)記,形成標(biāo)準(zhǔn)化和規(guī)范化的標(biāo)注集,為中國民族語言研究奠定堅實(shí)的基礎(chǔ)。

4、《中國民族語言語法信息電子詞典》(成果形式:數(shù)據(jù)庫)

本課題每種語言的文本標(biāo)注都需要建立交互用電子詞典。因此,詞典是本課題的一項重要研究成果。這些詞典具有以下內(nèi)容:第一,雙語對照或多語對照(部分語言可以添加傳統(tǒng)文字,例如藏文、彝文、蒙古文等),即要求詞典包含民族語詞條,每個詞條用漢語(和/或英語)注釋,注釋詞條將作為文本自動標(biāo)注的對照詞條;第二,詞典規(guī)模在5000條至數(shù)萬條。本項研究的語法標(biāo)注軟件平臺能為詞典與文本互動提供了交互功能,即任何時候都可以從文本修改增刪詞典的詞條,擴(kuò)大詞條規(guī)模。第三,所有語言詞典都要添加語法標(biāo)記,語法標(biāo)記需要事先植入詞典,其中語法屬性包括每個詞的詞類,所有可能的語法詞(虛詞)的語法標(biāo)記,人稱代詞等封閉詞類的標(biāo)記等。

5、《中國民族語言語法標(biāo)注研究》(成果形式:專著)

課題組于2013年1月份舉辦了中國民族語言語法標(biāo)注專題會議,探討民族語言語法現(xiàn)象和語法標(biāo)注過程中遇到的問題,交流經(jīng)驗。在這次會議的基礎(chǔ)上,課題組成員積極撰寫研究文章。目前,書稿已經(jīng)提交民族出版社,全書約30萬字,目前正在編輯印刷中。

 

序號

成果名稱

作者

成果形式

刊物名或出版社、刊發(fā)或出版時間

字?jǐn)?shù)

轉(zhuǎn)引

1

中國民族語言語法標(biāo)注研究

課題組

論著集

民族出版社

2013年10月

30萬

 

2

中國民族語言語法標(biāo)注軟件平臺

課題組

軟件

1.0試用版

1件

 

3

東亞語言語音詞匯數(shù)據(jù)檢索系統(tǒng)的設(shè)計與功能概述

江荻

論文

《云南師范大學(xué)學(xué)報》2011年第2期

8000

 

4

國際音標(biāo)輸入軟件的設(shè)計與實(shí)現(xiàn)

江荻,劉匯丹,吳兵

論文

《中文信息學(xué)報》2011第2期

9000

 

5

重音、重調(diào)和聲調(diào)

江荻

論文

《語言教學(xué)與研究》2011第4期

10000

 

6

藏語不規(guī)則動詞的信息標(biāo)注方法

江荻

論文

《中國計算語言學(xué)研究前沿進(jìn)展》,清華大學(xué)出版社,2011年

9000

 

7

藏語la don格標(biāo)記新分類

龍從軍

論文

《博士論壇論文集》,中央民族大學(xué)出版社,2012年

9000

 

8

la don分類標(biāo)準(zhǔn)及識別標(biāo)注研究

龍從軍

論文

《少數(shù)民族青年計算語言學(xué)論文集》,青海出版社,2012年

8000

 

9

簡析藏語中的指小后綴

龍從軍

論文

《民族所青年論壇論文集》,社會科學(xué)文獻(xiàn)出版社,2012年

7000

 

10

基于Unicode的藏文轉(zhuǎn)寫拉丁算法

康才畯,江荻

論文

《中國計算語言學(xué)研究前沿進(jìn)展》,清華大學(xué)出版社,2011年

8000

 

11

藏文國際編碼的發(fā)展與技術(shù)應(yīng)用

吳兵,江荻

論文

西南民族大學(xué)學(xué)報》2011年第8期

9000

 

12

彝語派生名詞構(gòu)詞法研究

馬輝,江荻

論文

《民族語文》2012年第3期31-38頁

12000

 

13

有關(guān)計算機(jī)數(shù)據(jù)處理的記音規(guī)范建議

潘悟云 江荻 麥耘

論文

民族語文2012年第5期3-7頁

8000

 

14

獨(dú)龍語個體量詞的產(chǎn)生和發(fā)展

楊將領(lǐng)

論文

《民族語文》 2011年第6期

9000

 

15

內(nèi)爆音聲母探源

黃行

論文

《民族語文》2012年第2期

8000

 

16

相同語音范疇類型的跨語言比較研究

黃行

論文

《中國語言學(xué)報》第15期,商務(wù)印書館 2012年

12000

 

17

白語方言否定標(biāo)記的特征與來源

張軍

論文

《大理學(xué)院學(xué)報》 2012年第7期

7000

 

18

藏語文本信息處理的幾個關(guān)鍵問題

龍從軍

論文

科研信息化技術(shù)與應(yīng)用. 2012, 3(4): 51–58.

11000

 

19

論漢藏語言硬腭塞音的來源

燕海雄

論文

《民族語文》2011年第5期

8000

 

20

藏語判斷、存在動詞識別策略

李琳,龍從軍

論文

中文信息學(xué)報(已接受)

9000

 

21

基于詞位的藏文黏寫形式的切分

康才畯,龍從軍,江荻

論文

計算機(jī)工程與應(yīng)用(已接受)

7000

 

22

藏語句法功能組塊的邊界識別

李琳,龍從軍,江荻

論文

第十二屆全國計算語言學(xué)會議,2013年10月10-12日,蘇州大學(xué)

7000

 

23

基于條件隨機(jī)場的藏文人名識別研究

康才俊,龍從軍,江荻

論文

“2013亞洲語言信息處理國際會議”,8月17日-19日,新疆師范大學(xué)

8000

 

24

壯語的領(lǐng)屬結(jié)構(gòu)

藍(lán)利國

論文

漢語方言類型研討會暨第一屆方言語音與語法論壇,2012年8月7-9日,復(fù)旦大學(xué)

9000

 

25

藏東南地區(qū)藏緬語領(lǐng)屬結(jié)構(gòu)現(xiàn)象

江荻

論文

漢語方言類型研討會暨第一屆方言語音與語法論壇,2012年8月7-9日,復(fù)旦大學(xué)

 

 

26

藏語拉薩話語法標(biāo)注文本

江荻

專著

數(shù)據(jù)庫

專著排版中

30萬

 

27

藏語安多話語法標(biāo)注文本

龍從軍

專著

數(shù)據(jù)庫

專著排版中

30萬

 

28

彝語涼山話語法標(biāo)注文本

燕海雄,馬輝

專著

數(shù)據(jù)庫

專著排版中

30萬

 

29

獨(dú)龍語獨(dú)龍江話語法標(biāo)注文本

楊將領(lǐng)

專著

數(shù)據(jù)庫

專著排版中

30萬

 

30

德昂語語法標(biāo)注文本

尹巧云,劉巖

專著

數(shù)據(jù)庫

專著排版中

30萬

 

31

壯語武鳴話語法標(biāo)注文本

藍(lán)利國

專著

數(shù)據(jù)庫

專著排版中

30萬

 

32

黎語志強(qiáng)話語法標(biāo)注文本

潘立慧

專著

數(shù)據(jù)庫

專著排版中

30萬

 

33

哈尼語語法標(biāo)注文本

白碧波,許鮮明

專著

數(shù)據(jù)庫

專著排版中

30萬

 

34

土家語語法標(biāo)注文本

徐世璇

專著

數(shù)據(jù)庫

專著排版中

30萬

 

(課題組供稿)

(責(zé)編:趙晶)
RM新时代APP官网