一、研究進(jìn)展情況(可另加附頁(yè))
主要內(nèi)容:①研究計(jì)劃總體執(zhí)行情況及各子課題進(jìn)展情況;②調(diào)查研究及學(xué)術(shù)交流情況(調(diào)研數(shù)據(jù)整理運(yùn)用、文獻(xiàn)資料收集整理、學(xué)術(shù)會(huì)議、學(xué)術(shù)交流、國(guó)際合作等);③成果宣傳推介情況(成果發(fā)布會(huì)、《工作簡(jiǎn)報(bào)》報(bào)送情況、國(guó)家社科基金?陡寮安捎们闆r等);④研究中存在的主要問(wèn)題、改進(jìn)措施,研究心得、意見(jiàn)建議;⑤其他需要說(shuō)明的問(wèn)題。
① 研究計(jì)劃總體執(zhí)行情況及各子課題進(jìn)展情況
本項(xiàng)目于2012年12月28日獲批立項(xiàng)。項(xiàng)目執(zhí)行時(shí)間是2013年1月 — 2017年12月。本項(xiàng)目的計(jì)劃與時(shí)間安排如下:
到2014年6月底,項(xiàng)目實(shí)施一年半,執(zhí)行時(shí)間還不到項(xiàng)目總計(jì)劃時(shí)間的三分之一。我們參照項(xiàng)目的上述計(jì)劃進(jìn)度,順利推進(jìn)項(xiàng)目,開(kāi)展相關(guān)研究。
總體而言,在過(guò)去的一年半時(shí)間里,我們完成了相應(yīng)時(shí)間內(nèi)預(yù)期的任務(wù):知識(shí)庫(kù)的構(gòu)建取得階段性進(jìn)展,制定了知識(shí)表示框架,填寫(xiě)了部分詞匯的知識(shí);在多級(jí)語(yǔ)料庫(kù)的加工與挖掘方面,完成了規(guī)范的制定和試標(biāo)工作,為后續(xù)規(guī);募庸ご蛳铝肆己玫幕A(chǔ);設(shè)計(jì)了眾包平臺(tái)的總體框架,以語(yǔ)篇的指代關(guān)系標(biāo)注為例,在眾包平臺(tái)上發(fā)布標(biāo)注任務(wù);目前已通過(guò)使用平臺(tái)開(kāi)始指代關(guān)系的標(biāo)注,并得到一定量的寶貴數(shù)據(jù);在多視角語(yǔ)義分析方面也取得了一系列的成果,縮略語(yǔ)識(shí)別、情感分析、實(shí)體關(guān)系分析等均取得研究進(jìn)展。
迄今為止,我們已經(jīng)發(fā)表學(xué)術(shù)論文23篇,接受待發(fā)表的論文7篇,共計(jì)30篇,已經(jīng)達(dá)到了計(jì)劃的全部論文數(shù),論文均標(biāo)有本項(xiàng)目資助號(hào)。其中有多篇論文發(fā)表于計(jì)算語(yǔ)言學(xué)領(lǐng)域的頂級(jí)國(guó)際會(huì)議。此外,還申請(qǐng)專利1項(xiàng)。可以說(shuō),本項(xiàng)目圓滿完成了相應(yīng)時(shí)期的任務(wù)。
下面分別介紹各子課題的進(jìn)展情況。
子課題1:基于生成詞庫(kù)理論和論元結(jié)構(gòu)理論的語(yǔ)義知識(shí)體系研究
(1) 已經(jīng)制定漢語(yǔ)名詞的物性結(jié)構(gòu)描寫(xiě)和標(biāo)注體系,并通過(guò)試描述和組內(nèi)多次討論交流,對(duì)規(guī)范作了反復(fù)調(diào)整和完善。
(2) 以規(guī)范為依據(jù)描述了3000個(gè)左右的名詞的物性結(jié)構(gòu),共計(jì)200多萬(wàn)字。對(duì)于高頻名詞的物性結(jié)構(gòu)標(biāo)注已經(jīng)基本完成,初步構(gòu)造了一個(gè)面對(duì)網(wǎng)絡(luò)文本分析的語(yǔ)言知識(shí)庫(kù)。
(3) 建立了一套漢語(yǔ)動(dòng)詞、形容詞的論元結(jié)構(gòu)描寫(xiě)體系和語(yǔ)義角色的標(biāo)注體系和規(guī)范,并且在北京大學(xué)現(xiàn)代漢語(yǔ)句法樹(shù)庫(kù)的語(yǔ)料上標(biāo)注了10多萬(wàn)字,正在配備相關(guān)的索引軟件。
(4) 研制了一個(gè)在線漢語(yǔ)謂詞語(yǔ)義知識(shí)庫(kù),包括為15,000多個(gè)常用動(dòng)詞和形容詞的每一個(gè)義項(xiàng)(約40,000個(gè)條目)編制語(yǔ)義角色框架文檔,內(nèi)容包括:詞形、拼音、詞性、釋義、語(yǔ)義角色及其定義、配位方式及其實(shí)例、真實(shí)文本中的例子等。
子課題2:網(wǎng)絡(luò)文本的多級(jí)加工與語(yǔ)言知識(shí)挖掘研究
(1) 制定了漢語(yǔ)語(yǔ)料標(biāo)注的系列規(guī)范,包括“多視圖的漢語(yǔ)樹(shù)庫(kù)標(biāo)注規(guī)范”,“漢語(yǔ)句際關(guān)系的標(biāo)注體系”,“漢語(yǔ)口語(yǔ)語(yǔ)料庫(kù)對(duì)話行為標(biāo)注體系”等。
(2) 開(kāi)發(fā)了多級(jí)多視圖語(yǔ)料標(biāo)注的系列計(jì)算機(jī)輔助軟件,并通過(guò)了試標(biāo)注的檢驗(yàn),達(dá)到了較好的效果。
(3) 為了分析網(wǎng)絡(luò)語(yǔ)言的特點(diǎn),標(biāo)注了部分網(wǎng)絡(luò)微博語(yǔ)料和口語(yǔ)對(duì)話語(yǔ)料中的依存關(guān)系和對(duì)話行為。
(4) 研究了網(wǎng)絡(luò)文本中的信息挖掘方法和對(duì)話語(yǔ)料中的對(duì)話行為分析方法。為多視角的語(yǔ)義分析提供了依據(jù)。
子課題3:基于群體智慧的知識(shí)資源加工技術(shù)及眾包平臺(tái)研究
(1) 設(shè)計(jì)了眾包平臺(tái)的基本構(gòu)建,在參與中包任務(wù)的用戶使用層面,設(shè)計(jì)實(shí)現(xiàn)了展示模塊,語(yǔ)料(知識(shí))加工模塊,候選答案推薦模塊。
(2) 為檢查用戶對(duì)語(yǔ)料(知識(shí))加工的質(zhì)量,設(shè)計(jì)了參與用戶的行為跟蹤記錄模塊,通過(guò)日志形式,動(dòng)態(tài)記錄用戶的行為軌跡。
(3) 利用眾包平臺(tái),發(fā)布了單數(shù)指代詞的指代關(guān)系標(biāo)注任務(wù)。并已有3人參與指代關(guān)系標(biāo)注的任務(wù),目前通過(guò)雙盲重復(fù)標(biāo)注的方式已完成了2025篇文章的標(biāo)注,同時(shí)也獲得了相關(guān)行為的日志信息,我們已對(duì)標(biāo)注情況進(jìn)行初步分析,以進(jìn)一步完善平臺(tái)。
(4) 利用眾包平臺(tái),正在設(shè)計(jì)實(shí)現(xiàn)句間關(guān)系標(biāo)注的任務(wù),設(shè)計(jì)工作已基本完成,很快便可發(fā)布加工任務(wù)。
子課題4:知識(shí)與統(tǒng)計(jì)相結(jié)合的多視角文本語(yǔ)義分析技術(shù)研究
(1) 研究了微博語(yǔ)料的分詞方法。不同于規(guī)范的文本,微博的表達(dá)十分隨意,新詞頻現(xiàn),用詞不囿于通常的規(guī)律。但微博的標(biāo)點(diǎn)句短,非漢字的符號(hào)(包括標(biāo)點(diǎn))多,利用這一特點(diǎn),實(shí)現(xiàn)了微博分詞模塊。
(2) 研究了跨語(yǔ)言的情感分析方法,特別是,研究了利用英語(yǔ)的情感詞表自動(dòng)獲取漢語(yǔ)情感詞的方法。這對(duì)于情感語(yǔ)義的分析將是非常重要的基礎(chǔ)資源。
(3) 研究了漢語(yǔ)縮略語(yǔ)的分析和預(yù)測(cè)方法。在網(wǎng)絡(luò)上,存在大量的縮略語(yǔ)現(xiàn)象。如何預(yù)測(cè)縮略語(yǔ),建立縮略語(yǔ)與完整形式之間的關(guān)系,是分析理解縮略語(yǔ)的基礎(chǔ)。
(4) 研究了中文的指代方法,包括文本內(nèi)的指代關(guān)系和跨文本的同指關(guān)系。在文本內(nèi)的指代關(guān)系分析方面,我們重點(diǎn)研究了漢語(yǔ)零型指代的消解問(wèn)題,在跨文本的指代消解中,重點(diǎn)研究了實(shí)體鏈接問(wèn)題。
② 調(diào)查研究及學(xué)術(shù)交流情況(調(diào)研數(shù)據(jù)整理運(yùn)用、文獻(xiàn)資料收集整理、學(xué)術(shù)會(huì)議、學(xué)術(shù)交流、國(guó)際合作等)
過(guò)去的一年半時(shí)間正好是項(xiàng)目的開(kāi)始期,按照研究的計(jì)劃安排,調(diào)查研究是本時(shí)期最重要的任務(wù)。為此,我們開(kāi)展了如下工作:
(1) 進(jìn)行了大量的數(shù)據(jù)收集和分析:通過(guò)自動(dòng)采集方式爬取了新浪微博、口語(yǔ)對(duì)話、博客、網(wǎng)上新聞等數(shù)據(jù),同時(shí),也收集了一定量的語(yǔ)音-文字轉(zhuǎn)換的結(jié)果數(shù)據(jù)。本項(xiàng)目收集上述數(shù)據(jù)的主要原因是,微博是典型的網(wǎng)上語(yǔ)言,而且是最具代表性的非規(guī)范語(yǔ)言特征。而口語(yǔ)對(duì)話則在一定程度上代表了聊天語(yǔ)言現(xiàn)象(包括即時(shí)通信),博客是一種相對(duì)規(guī)范的語(yǔ)言表示。收集語(yǔ)音-文字轉(zhuǎn)換數(shù)據(jù)主要原因是隨著移動(dòng)互聯(lián)網(wǎng)的發(fā)展,語(yǔ)音將成為重要的信息表示形式。語(yǔ)音的處理通常需要先轉(zhuǎn)換為文本信息,以進(jìn)一步分析語(yǔ)義信息,這就需要分析相關(guān)材料。
(2) 收集查閱了大量的文獻(xiàn)資料。為了便于本項(xiàng)目更有效的開(kāi)展,我們對(duì)國(guó)內(nèi)外的研究進(jìn)行了調(diào)研,重點(diǎn)查閱并收集了近幾年來(lái)相關(guān)研究的文獻(xiàn)資料,包括社交媒體的語(yǔ)言處理、不規(guī)范語(yǔ)言的處理方法、相關(guān)的語(yǔ)言知識(shí)庫(kù)及語(yǔ)料庫(kù)加工方法和加工平臺(tái)的研究狀況。查閱文獻(xiàn)資料100多篇(部)。為本項(xiàng)目的優(yōu)化實(shí)施起到了重要作用。
(3) 學(xué)術(shù)會(huì)議與學(xué)術(shù)交流方面,項(xiàng)目各子課題多次進(jìn)行了小組討論。參加了一系列的學(xué)術(shù)會(huì)議,包括2013年在保加利亞舉行的國(guó)際頂級(jí)計(jì)算語(yǔ)言學(xué)會(huì)議ACL,2013年在美國(guó)舉行的國(guó)際權(quán)威計(jì)算語(yǔ)言學(xué)會(huì)議EMNLP,2013年在日本舉行的IJNLP會(huì)議,以及在新加坡、臺(tái)灣等地舉辦的重要語(yǔ)言學(xué)國(guó)際學(xué)術(shù)會(huì)議和計(jì)算語(yǔ)言學(xué)國(guó)際學(xué)術(shù)會(huì)議。在國(guó)內(nèi),參加了多個(gè)重要會(huì)議,包括2013年全國(guó)計(jì)算語(yǔ)言學(xué),詞匯語(yǔ)義學(xué)會(huì)以,中文計(jì)算會(huì)議等,項(xiàng)目首席專家還應(yīng)邀在2013年的第14屆漢語(yǔ)詞匯語(yǔ)義學(xué)會(huì)議作特邀報(bào)告,并應(yīng)邀參與哈佛大學(xué)中文文本挖掘的研討會(huì)。此外,還與臺(tái)灣元智大學(xué)、香港理工大學(xué)合作開(kāi)始了相關(guān)的合作研究。
③ 成果宣傳推介情況
在項(xiàng)目實(shí)施中,我們?cè)诙鄠(gè)不同場(chǎng)合介紹我們的項(xiàng)目情況。2013年在鄭州召開(kāi)的漢語(yǔ)詞匯語(yǔ)義學(xué)會(huì)以(CLSW2013)上,項(xiàng)目首席專家王厚峰作為會(huì)議的特邀報(bào)告人(Keynote Speaker),重點(diǎn)介紹了本項(xiàng)目的情況和研究成果,而后在洛陽(yáng)外國(guó)語(yǔ)學(xué)院、黑龍江大學(xué)、以及應(yīng)邀訪問(wèn)美國(guó)哈佛大學(xué)時(shí),王厚峰均分別介紹了本項(xiàng)目的研究成果;在2013年6月到臺(tái)灣參加會(huì)議期間,也到交通大學(xué)介紹了本項(xiàng)目的研究情況。此外,我們也在計(jì)算語(yǔ)言學(xué)有影響的國(guó)際會(huì)議、國(guó)內(nèi)會(huì)議報(bào)告相關(guān)的成果,起到了很好的推介作用。
當(dāng)然,在這一年半的時(shí)間里,我們主要注意到了向本領(lǐng)域?qū)W術(shù)期刊和學(xué)術(shù)會(huì)議投稿,今后,我們將注意向國(guó)家社科基金?耐陡濉
④ 研究中存在的主要問(wèn)題、改進(jìn)措施,研究心得、意見(jiàn)建議
本項(xiàng)研究我們基本上按照計(jì)劃進(jìn)行,并針對(duì)研究中的問(wèn)題按課題進(jìn)行研討,總的來(lái)看,我們按正常方式推進(jìn)。目前暫沒(méi)有特別的建議。
二、研究成果情況
①代表性成果簡(jiǎn)介
我們圍繞項(xiàng)目任務(wù)開(kāi)展了多方面的研究,取得了一系列的成果,下面僅介紹幾項(xiàng)代表性的成果。
(1) 建立了名詞的物性結(jié)構(gòu)體系
根據(jù)Pustejovsky (1995、2006)的物性結(jié)構(gòu)描寫(xiě)框架,結(jié)合漢語(yǔ)的實(shí)際情況,構(gòu)建了一套漢語(yǔ)名詞的物性描寫(xiě)體系。說(shuō)明如下:
(1)形式(formal,簡(jiǎn)寫(xiě)為FAL):名詞的分類屬性、語(yǔ)義類型和本體層級(jí)特征。比如,“石頭”是“有形物質(zhì)、自然物”;
(2)構(gòu)成(constitutive,簡(jiǎn)寫(xiě)為CON):名詞所指的事物的結(jié)構(gòu)屬性,包括:構(gòu)成狀態(tài)、組成成分、在更大的范圍內(nèi)構(gòu)成或組成哪些事物、跟其他事物的關(guān)系,也包括物體的大。╩agnitude)、形狀(shape)、維度(dimensionality)、顏色(color)和方位(orientation),等等。比如,“石頭”的構(gòu)成是“礦物;可以根據(jù)下列顏色、形狀、作用等屬性進(jìn)行分類:彩色、黑色、紅色、褐色、白色、圓形、柱形、棱角分明、保健,等等”;
(3)單位(unite,簡(jiǎn)寫(xiě)為UNI):名詞所指事物的計(jì)量單位,也即跟名詞相應(yīng)的量詞;
(4)評(píng)價(jià)(evaluation,簡(jiǎn)寫(xiě)為EVA):對(duì)名詞所指事物的主觀評(píng)價(jià)、情感色彩。比如,對(duì)“水”的評(píng)價(jià)有“清、清澈、清潔、臟、渾、渾濁”;
(5)施成(agentive,簡(jiǎn)寫(xiě)為AGE):名詞所指的事物是怎樣形成的,如創(chuàng)造、天然存在、因果關(guān)系等。比如,“椅子”的施成是“制作、做、加工、編制”等等;
(6)材料(material,簡(jiǎn)寫(xiě)為MAT):創(chuàng)造名詞所指的事物所用的材料。比如,“椅子”的材料是“木頭、竹子、藤子、木、竹、藤、鋼、鐵、塑料、硬板”等等;
(7)功用(telic,簡(jiǎn)寫(xiě)為T(mén)EL):名詞所指的事物的用途和功能。比如,“椅子”的功用是“坐”等等;
(8)行為(action,簡(jiǎn)寫(xiě)為ACT):名詞所指的事物的慣常性的動(dòng)作、行為、活動(dòng)。比如,“水”的行為是“流、流動(dòng)、奔騰、翻滾、滴、淌、流淌”等等;
(9)處置(handle,簡(jiǎn)寫(xiě)為HAN):人或其他事物對(duì)名詞所指的事物的慣常性的動(dòng)作、行為、影響。比如,對(duì)“水”的處置是“打、舀、取、蓄、灑、放、排、倒、噴、潑、玩兒”等等。
目前,已經(jīng)完成了3000個(gè)名詞。下面僅以“商店”為例作說(shuō)明:
商店 shāngdiàn〈名詞,中性〉在室內(nèi)出售商品的場(chǎng)所。
〔1〕物性角色:
形式FOR:機(jī)構(gòu)、場(chǎng)所、人造物;
構(gòu)成CON:可以根據(jù)所出售的東西類型進(jìn)行分類,如:百貨、五金、音樂(lè)器材、工藝品、土特產(chǎn)、綜合,等等;也可以根據(jù)其類型、等級(jí)、地區(qū)等進(jìn)行分類,如:大型、新型、高檔、高級(jí)、連鎖、水上、地下、社區(qū),等等。
單位UNI:個(gè)體:個(gè)、家、座,等等;集合:批、部分、種、類、排,等等;不定:各、每個(gè)、些,等等;
評(píng)價(jià)EVA:大、小、豪華、信譽(yù)良好、鱗次櫛比,等等;
施成AGE:開(kāi)辦、興建、蓋、建造,等等;
行為ACT:賣(mài)飲料、掛出條幅、開(kāi)門(mén)、開(kāi)始工作、舉辦、開(kāi)設(shè)、開(kāi)張、營(yíng)業(yè)、出臺(tái)促銷手段
功用TEL:出售商品,等等;
處置HAN:裝飾、拆除、走進(jìn)、出入、洗劫、沖擊、哄搶,等等
定位ORI:里、從、中、去、在、附近、到、向、通往、位于,等等。
〔2〕句法格式:
S1:CON + __
如:音樂(lè)器材~| 電腦~ | 工藝美術(shù)~ | 大型~ | 新型~ | 工藝品~ | 百貨~ | 高級(jí)~ | 普通~ | 五金~| 土特產(chǎn)~| 食品~ | 春節(jié)用品~ | 社區(qū)~ | 服裝~ | 網(wǎng)絡(luò)~ | 化妝品~ | 零售~ | 移動(dòng)電話~ | 兒童~ | NBA~ | 化學(xué)品~ | 建材~ | 煙酒~ | 專業(yè)~ | 珠寶首飾~ | 連鎖~ | 批發(fā)~ | 個(gè)體~ | 計(jì)算機(jī)~
S2:Num + UNI + __
如:兩個(gè)~ | 許多~ |各種~ | 一家~ | 一座~| 一些~ | 一(大)批~ | 一排~
S3:EVA +(的+)__
如:大~ | 小~ | 鱗次櫛比的~ | 信譽(yù)良好~ | 豪華~
S4:AGE + __
如:開(kāi)辦~ | 蓋~ | 建造~
S5: __ + ACT
如:~賣(mài)飲料 | ~掛出條幅 | ~開(kāi)門(mén) | ~開(kāi)始工作 | ~開(kāi)設(shè) | ~開(kāi)張 | ~營(yíng)業(yè) | ~開(kāi)放 | ~出臺(tái)促銷手段 | ~舉辦 | ~打烊 | ~配備 | ~關(guān)閉 | ~停業(yè)
S6:__ + TEL
如:~出售商品
S7:HAN + __
如:裝飾~ | 拆除~ | 進(jìn)入~ | 走進(jìn)~ | 出入~ | 洗劫~ | 沖擊~ | 檢查~ | 焚燒~ | 打砸~ | 哄搶~ | 看守~
S8:ORI + __ / __ + ORI
如:~里 | ~中 | 在~ |~內(nèi) | 到~ | 從~| ~附近 | 往~ | 去~
名詞物性結(jié)構(gòu)有利于信息處理中文本蘊(yùn)涵推理計(jì)算,尤其對(duì)于一些名詞結(jié)構(gòu)中隱含謂詞的還原有著重要的意義。
(2) 制定了多視圖的漢語(yǔ)樹(shù)庫(kù)標(biāo)注規(guī)范并實(shí)現(xiàn)了樹(shù)庫(kù)輔助標(biāo)注工具
提出一套多視圖的漢語(yǔ)樹(shù)庫(kù)體系,這套體系以依存視圖為核心,在句法層面上僅僅標(biāo)注中心語(yǔ)和語(yǔ)法角色兩類信息,然后通過(guò)設(shè)計(jì)一套層次生成程序和結(jié)構(gòu)功能映射規(guī)則和算法推導(dǎo)出層次信息和短語(yǔ)結(jié)構(gòu)功能信息,從而自動(dòng)轉(zhuǎn)換出相應(yīng)的短語(yǔ)結(jié)構(gòu)樹(shù);在語(yǔ)義層面上,通過(guò)對(duì)部分語(yǔ)法標(biāo)簽的細(xì)化進(jìn)一步標(biāo)注語(yǔ)義角色標(biāo)簽,并通過(guò)虛詞的格傳遞來(lái)保證語(yǔ)法依存和語(yǔ)義依存在中心語(yǔ)上的一致性。最終生成的多視圖樹(shù)庫(kù)含有語(yǔ)法依存視圖、短語(yǔ)結(jié)構(gòu)視圖和語(yǔ)義依存視圖等三個(gè)視圖。如下是依存視圖的示例:
目前已有的句法結(jié)構(gòu)的語(yǔ)料基本都是單一地針對(duì)一種句法體系,如短語(yǔ)結(jié)構(gòu)或依存結(jié)構(gòu),不能滿足實(shí)際應(yīng)用的需求。我們構(gòu)建多視圖的樹(shù)庫(kù),有助于實(shí)際使用者根據(jù)需求選擇不同視圖,或同時(shí)使用不同視圖的信息。
為了進(jìn)行了多視圖樹(shù)庫(kù)構(gòu)建的工作,我們開(kāi)發(fā)了一套支持多視圖樹(shù)庫(kù)標(biāo)注的工具,該工具除基本標(biāo)注功能外,還包含人機(jī)互動(dòng)校對(duì)和與語(yǔ)法詞典交叉驗(yàn)證的功能。用戶可以方便地添加、刪除依存弧,修改依存標(biāo)簽、檢索特定標(biāo)簽等。下圖是操作界面。
(3) 漢語(yǔ)句際關(guān)系的標(biāo)注體系
提出了漢語(yǔ)復(fù)句層次上句際層級(jí)結(jié)構(gòu)和邏輯關(guān)系的語(yǔ)料標(biāo)注體系。結(jié)構(gòu)關(guān)聯(lián)方面主要借鑒了英語(yǔ)RST理論,語(yǔ)義關(guān)聯(lián)方面主要借鑒了英語(yǔ)的PDTB篇章樹(shù)庫(kù)。小句之間通過(guò)各種語(yǔ)義關(guān)系的連接而形成一棵完整的層級(jí)結(jié)構(gòu)樹(shù)。提出了漢語(yǔ)句際的邏輯關(guān)系類型,這是漢語(yǔ)篇章分析的基礎(chǔ)。體系如下表所示:
第1層:CLASS
第2層:TYPE
第3層:SUBTYPE
聯(lián)合關(guān)系
(multi-nuclear)
并列(conjunction)
[CONJ]
○1等立(coordinate) [COOR]
○2時(shí)序(temporal) [TEMP]
○3選擇(alternative) [ALT]
○4遞進(jìn)(progression) [PROG]
○5順承(succession) [SUCC]
主從關(guān)系
(single-nuclear)
對(duì)比(comparison)
[COMP]
○6轉(zhuǎn)折(contrast) [CONT]
○7讓步(concession) [CONC]
推論(inference)
[INF]
○8因果(cause) [CAUS]
○9結(jié)果(result) [RESU]
○10目的(purpose) [PURP]
條件(condition)
[CON]
○11假設(shè)(hypothetical) [HYP]
○12條件(condition) [COND]
總分(specification)
[SPE]
○13解證(explanation) [EXPL]
○14分述(list) [LIST]
分總(summary)
[SUM]
○15總括(generalization) [GENE]
(4) 口語(yǔ)對(duì)話語(yǔ)料中對(duì)話行為的標(biāo)注規(guī)范
對(duì)話行為(dialog act)指在對(duì)話中(dialog)言談?wù)叩男袨橐鈭D。自動(dòng)分析對(duì)話行為可以幫助識(shí)別言談?wù)叩囊鈭D、幫助構(gòu)建對(duì)話模型、提升口語(yǔ)機(jī)器翻譯系統(tǒng)的性能等。本項(xiàng)目第一次構(gòu)建了漢語(yǔ)領(lǐng)域完整的對(duì)話行為標(biāo)簽集。首先,對(duì)一個(gè)語(yǔ)句進(jìn)行言語(yǔ)切分(utterance segmentation),明確標(biāo)示出言語(yǔ)的界限;然后,每個(gè)言語(yǔ)片段標(biāo)示出一個(gè)明確的、惟一的對(duì)話行為標(biāo)簽。
Tag (Abbr.)
Description
Example
Statement
(S)
State a belief or an event
陳述一個(gè)信念或一個(gè)事件
我接下來(lái)圖片看一下啊先
Request
(R)
Express a speaker’s desire that the hearer do something
期望聽(tīng)者做出一個(gè)動(dòng)作或某種響應(yīng)
就是這個(gè)圖片 請(qǐng)接收一下
Open-question
(Q)
A question that can not be answered with only “yes” or “no”
不能單純用“是”和“否”來(lái)回答的問(wèn)句
產(chǎn)生費(fèi)用怎么算?
Yes-No-question
(QYN)
A closed question which can be answered by either a “yes” or “no”
是非問(wèn)句
這些圖片,你是從gettyimages上面找的么?
Opinion
(O)
(B)
Express opinions or unsatisfactory towards something or some services
對(duì)事情或服務(wù)發(fā)表評(píng)價(jià)或發(fā)出抱怨
那么貴?
Yes-answer
(AY)
A positive answer to a Yes-no-question
是非問(wèn)句的肯定回答
對(duì)的
No-answer
(AN)
A negative answer to a Yes-no-question
是非問(wèn)句的否定回答
不是
Answer
(AQ)
An answer to an open-question
開(kāi)放問(wèn)句的回答
咱們的圖片按照授權(quán)方式不同,分了2種
Response-ack
(RA)
Confirm that the previous request was received/accepted
對(duì)上一句需求性言語(yǔ)作出響應(yīng)
好的
Statement-ack
(SA)
Confirm that the previous statement was received/accepted
對(duì)上一句陳述作出響應(yīng)
client:抬頭 北京鼎尚利合餐飲管理有限公司
server:好的!收到!
Explain-why
(EW)
Explain further the reason of the previous utterance
對(duì)上一句言語(yǔ)進(jìn)一步解釋原因
client:手機(jī)和直郵能改嗎?
server:這個(gè)修改不了
server:用途由內(nèi)部系統(tǒng)生成
Conversational opening
(CO)
Greetings and other ways of starting a conversation
開(kāi)始一個(gè)對(duì)話
你好
Conversational closing
(CC)
Various ways of ending a conversation
結(jié)束一個(gè)對(duì)話
Bye Bye
Conversational continuer
(CT)
Various ways of continuing a conversation
延續(xù)一個(gè)對(duì)話
呵呵
Thanks
(TH)
Express appreciation and thanks
表示感謝等禮貌用語(yǔ)
麻煩了,謝謝
Downplayer
(D)
A backwards-linking label often used after THANKS to down play the contribution
對(duì)感謝用語(yǔ)作出禮貌性的回應(yīng)
不客氣
Confirmation
(CF)
Verify or confirm a previous information
對(duì)上一句言語(yǔ)信息進(jìn)一步確認(rèn)
Server:大概從1000-3000不等。
Server:圖片價(jià)格大概1000-3000/張不等。
Entity
(EN)
Using non-verbal entity to convey information
用不成句的實(shí)體詞語(yǔ)傳輸信息
菲爾?米克爾森
Cut
(Cut)
The first part that constitutes a complete utterance
被切斷的一個(gè)言語(yǔ)的前半部分
server:咱們那張圖呀<CUT>
server:定下來(lái)了不哈?<QYN>
Chat
(CHAT)
Chat unrelated to business
完全與業(yè)務(wù)無(wú)關(guān)的閑聊
Uncertainty
(U)
Uncertain information
不確定的信息
(5) 設(shè)計(jì)實(shí)現(xiàn)了眾包平臺(tái),并發(fā)布了單數(shù)人稱代詞的標(biāo)注任務(wù)
為了便于知識(shí)資源的加工,我們開(kāi)發(fā)了一個(gè)眾包平臺(tái),界面如下所示:
基本框架如下:
基于眾包平臺(tái)發(fā)布了單數(shù)人稱代詞的指代關(guān)系標(biāo)注。見(jiàn)如下界面:
通過(guò)眾包模式(Crowdsourcing)建設(shè)大規(guī)模的語(yǔ)料庫(kù),可以讓大量的非專業(yè)人員參與語(yǔ)料庫(kù)標(biāo)注的工作,這有助于降低加工成本,提高加工效率。
(5) 設(shè)計(jì)實(shí)現(xiàn)了面向網(wǎng)絡(luò)短文本的漢語(yǔ)切詞模塊
網(wǎng)絡(luò)語(yǔ)言超出了通常規(guī)范語(yǔ)言的很多限制,使得計(jì)算機(jī)處理變得十分困難。而計(jì)算機(jī)分析中文的第一步通常是切詞。一般切詞工具在新聞文本上可以達(dá)到95%的F 值,在微博上則只有大約82% 。為此,我們特別研究了面向網(wǎng)絡(luò)短文本的漢語(yǔ)切詞方法,特別是針對(duì)微博的切詞方法。
現(xiàn)有的切詞方法大都使用有指導(dǎo)的序列標(biāo)注模型,如CRF;舅枷胧菍(duì)每個(gè)漢字賦予一個(gè)標(biāo)記,如,某個(gè)字是一個(gè)詞的開(kāi)始字(標(biāo)B)或者不是一個(gè)詞的開(kāi)始字(標(biāo)N)。已有的研究表明,有指導(dǎo)方法得到的切詞效果有著明顯的優(yōu)勢(shì)。但是,有指導(dǎo)的方法需要大量的有標(biāo)訓(xùn)練數(shù)據(jù),而構(gòu)建有標(biāo)訓(xùn)練數(shù)據(jù)既費(fèi)時(shí)又費(fèi)力。如何充分利用現(xiàn)有數(shù)據(jù)的特點(diǎn)便成為一個(gè)重要的問(wèn)題。通過(guò)觀察,我們發(fā)現(xiàn),與一般的新聞文本相比,微博數(shù)據(jù)有明顯的自然標(biāo)記信息。下表是我們對(duì)一般新聞和微博中各類符號(hào)分布統(tǒng)計(jì)的比較值:
文本類型
漢字
英文字
數(shù)字
標(biāo)點(diǎn)符號(hào)
一般新聞
85.7%
0.6%
0.7%
13%
微博
66.3%
11.8%
2.6%
19.3%
顯然,微博中的非漢字比例大幅上升,比一般新聞的非漢字比例增加一倍以上。對(duì)于漢語(yǔ)分詞而言,英文字母,數(shù)字以及標(biāo)點(diǎn)符號(hào)都是自然的斷詞符號(hào):自然標(biāo)記符后面的漢字是詞的開(kāi)始字(B),同樣,自然標(biāo)記前面的一個(gè)漢字則是詞的末尾字。可以充分利用這些自然標(biāo)注改進(jìn)網(wǎng)絡(luò)短文本的切詞處理。我們基于上述觀察,自動(dòng)獲得了大量的特殊標(biāo)注信息,并利用這些信息設(shè)計(jì)了切詞模塊,實(shí)驗(yàn)表明,我們所提方法與已有的方法相比,F(xiàn)值有顯著提升,達(dá)到了 87.5%。
注:2010年立項(xiàng)的重大項(xiàng)目主要填寫(xiě)2012年6月以來(lái)的研究成果情況。
序號(hào) |
成果名稱 |
作者 |
成果形式 |
刊物名或出版社、刊發(fā)或出版時(shí)間 |
字?jǐn)?shù) |
轉(zhuǎn)載、引用、獲獎(jiǎng)等情況 |
1 |
采用無(wú)標(biāo)注語(yǔ)料的動(dòng)詞和形容詞主觀性評(píng)級(jí) |
徐戈,蒙新泛,王厚峰 |
論文 |
軟件學(xué)報(bào),2013(5) |
1.5萬(wàn)字 |
|
2 |
The Acquisition of Chinese Ergative Verbs and the Verification of Relevant Rules in Semantic Role Labeling |
汪夢(mèng)翔等 |
英文 論文 |
CLSW 2013, LNAI 8229, Springer-Verlag Berlin Heidelberg |
|
|
3 |
Improving ChineseWord Segmentation on Micro-blog Using Rich Punctuations |
張龍凱等 |
英文論文 |
Proceedings of the 51st Annual Meeting of the Association for Computational Linguistics, Sofia, Bulgaria, August 2013 |
|
|
4 |
Learning Entity Representation for Entity Disambiguation |
何正焱等 |
英文論文 |
Proceedings of the 51st Annual Meeting of the Association for Computational Linguistics, Sofia, Bulgaria, August 2013 |
|
|
5 |
“對(duì)不起”話語(yǔ)標(biāo)簽的形成及功能 |
汪夢(mèng)翔等 |
論文 |
湖北社會(huì)科學(xué),2013(8) |
7500 |
|
6 |
Judgment, Extraction and Selective Restriction of Chinese Eventive Verb |
汪夢(mèng)翔等 |
英文 論文 |
Proceedings of 2013 International Conference on Asia Language Processing (IALP 2013) IEEE Computer Society |
|
|
7 |
Exploiting Hierarchical Discourse Structure for Review Sentiment Analysis |
Fei Wang, Yunfang Wu |
英文論文 |
Proceedings of 2013 International Conference on Asia Language Processing (IALP 2013) |
|
|
8 |
基于多步聚類的漢語(yǔ)命名實(shí)體識(shí)別和歧義消解 |
李廣一,王厚峰 |
論文 |
中文信息學(xué)報(bào),2013(5) |
1萬(wàn)字 |
|
9 |
Generalized Abbreviation Prediction with Negative Full Forms and Its Application on Improving Chinese Web Search |
Xu Sun, Wenjie Li, Fanqi Meng, Houfeng Wang |
英文論文 |
International Joint Conference on Natural Language Processing, Oct. 2013 |
|
|
10 |
Exploring Representations from Unlabeled Data with Co-training for Chinese Word Segmentation |
張龍凱等 |
英文論文 |
Proceedings of the EMNLP2013,Oct.2013 |
|
|
11 |
Efficient Collective Entity Linking with Stacking |
何正焱等 |
英文論文 |
Proceedings of the EMNLP2013,Oct.2013 |
|
|
12 |
Chinese Discourse Relation Recognition Using Parallel Corpus |
Yifeng Xu, Yunfang Wu |
英文論文 |
9th International Conference on Computational Intelligence and Security |
|
|
13 |
基于生成詞庫(kù)論和論元結(jié)構(gòu)理論的語(yǔ)義知識(shí)體系研究 |
袁毓林
|
論文 |
中文信息學(xué)報(bào),2013(6) |
1.2萬(wàn) |
|
14 |
基于中文維基百科的詞語(yǔ)語(yǔ)義相關(guān)度計(jì)算 |
萬(wàn)富強(qiáng),吳云芳 |
論文 |
中文信息學(xué)報(bào),2013(6) |
1.0萬(wàn) |
|
15 |
社交網(wǎng)絡(luò)中的社團(tuán)結(jié)構(gòu)挖掘 |
范超,王厚峰 |
論文 |
中文信息學(xué)報(bào),2014(1) |
1.2萬(wàn) |
|
16 |
漢語(yǔ)詞類劃分應(yīng)重視“排他法” |
周韌 |
論文 |
漢語(yǔ)學(xué)習(xí),2014(1) |
1.4萬(wàn) |
|
17 |
也談與“的”字結(jié)構(gòu)有關(guān)的謂詞隱含 |
宋作艷 |
論文 |
漢語(yǔ)學(xué)習(xí),2014(1) |
1.2萬(wàn) |
|
18 |
基于句式結(jié)構(gòu)的漢語(yǔ)圖解析句法設(shè)計(jì) |
彭煒明等 |
論文 |
計(jì)算機(jī)工程與應(yīng)用,2014(3) |
1.2萬(wàn)字 |
|
19 |
現(xiàn)代漢語(yǔ)“對(duì)象格”自動(dòng)識(shí)別研究 |
汪夢(mèng)翔等 |
論文 |
計(jì)算機(jī)工程與應(yīng)用,2014(8) |
1.2萬(wàn)字 |
|
20 |
中文信息處理的詞法問(wèn)題 |
彭煒明等 |
論文 |
中文信息學(xué)報(bào),2014(2) |
1.2萬(wàn)字 |
|
21 |
股市市場(chǎng)情感詞表的自動(dòng)挖掘與構(gòu)建 |
王菲, 吳云芳 |
論文 |
2014漢語(yǔ)詞匯語(yǔ)義學(xué)研討會(huì)議(CLSW2014) |
1.0萬(wàn)字 |
|
22 |
基于序列模式的應(yīng)答需求句識(shí)別 |
徐藝峰, 吳云芳 |
論文 |
2014漢語(yǔ)詞匯語(yǔ)義學(xué)研討會(huì)議(CLSW2014) |
|
|
23 |
The Processing of Dummy Verbs in Semantic Role Labeling |
汪夢(mèng)翔等 |
英文 論文 |
CLSW 2014 將在LNAI Springer-Verlag Berlin Heidelberg出版 |
|
|
24 |
基于依存語(yǔ)法構(gòu)建多視圖漢語(yǔ)樹(shù)庫(kù) |
邱立坤、金澎、王厚峰 |
論文 |
中文信息學(xué)報(bào) |
10000 |
(已錄用) |
25 |
Collaborative Topic Regression with Multiple Graphs Factorization for Recommendation in Social Media |
Qing Zhang, Houfeng Wang |
英文論文 |
Proceedings of the 25th International Conference on Computational Linguistics |
|
(已錄用) |
26 |
Building a Multi-view Chinese Treebank |
Likun Qiu, Yue Zhang, Peng Jin and Houfeng Wang |
英文論文 |
Proceedings of the 25th International Conference on Computational Linguistics |
|
(已錄用) |
27 |
“把”字句的自動(dòng)釋義與句式變換研究 |
王璐璐 孫薇薇 袁毓林 |
論文 |
計(jì)算機(jī)工程與應(yīng)用 |
1.3萬(wàn)字 |
(已錄用) |
28 |
基于規(guī)則的漢語(yǔ)名名組合的自動(dòng)釋義研究 |
魏雪、袁毓林 |
論文 |
中文信息學(xué)報(bào) |
1.3萬(wàn)字 |
(已錄用),擬在2014(3)發(fā)表 |
29 |
共指消解研究方法綜述 |
宋洋,王厚峰 |
論文 |
中文信息學(xué)報(bào) |
1.5萬(wàn)字 |
(已錄用) |
30 |
Feature-Frequency-Adaptive Online Trainingfor Fast and Accurate Natural Language Processing |
Xu Sun, Wenjie Li, Houfeng Wang, Qin Lu |
英文論文 |
Computational Linguistics |
|
(已錄用,在線版已發(fā):http://www. mitpressjournals. org/doi/pdf/10.1162/ COLI_a_00193) |
31 |
一種基于文檔詞匯特征變化的突發(fā)事件檢測(cè)方法 |
王厚峰, 張龍凱 |
專利 |
中華人民共和國(guó)知識(shí)產(chǎn)權(quán)局 |
|
(已申報(bào)) |
課題組供稿