RM新时代APP官网

舊版網(wǎng)站入口

站內(nèi)搜索

姚從軍:組合范疇語法:語言哲學(xué)與人工智能理解的交匯

姚從軍2025年04月09日11:10來源:中國社會科學(xué)報國家社科基金???/a>

編者按:

作為人類交流的工具和人工智能理解世界的基礎(chǔ),語言與推動人類文明進(jìn)步的創(chuàng)造力共同構(gòu)成人類智慧的核心要素。人工智能在語言處理和問題分析方面展現(xiàn)出的卓越能力,引發(fā)了對其理解力和創(chuàng)造力是否等同于人類能力的思考,這一問題對人工智能與人類社會的發(fā)展有著深遠(yuǎn)影響。姚從軍基于組合范疇語法的研究指出,盡管人工智能展現(xiàn)出較強的語言理解能力,但人類仍在知識生產(chǎn)中保持著核心地位;與此同時,高新民、張舟從心靈哲學(xué)視角進(jìn)行論證,強調(diào)人類創(chuàng)造力的獨特性不可替代,并指出人工智能要實現(xiàn)真正的創(chuàng)造力,必須首先深入理解人類心智的本質(zhì)特征。

作者系國家社科基金后期資助項目“‘廣義斯科倫項理論+多模態(tài)組合范疇語法’模式下的漢語研究”負(fù)責(zé)人、2024年度《國家哲學(xué)社會科學(xué)成果文庫》入選者、湘潭大學(xué)哲學(xué)與歷史文化學(xué)院教授

當(dāng)我們和聊天機器人對話,驚嘆于它們能“聽懂”人類語言并機智應(yīng)答時,其背后隱藏著一位功不可沒的“幕后英雄”——組合范疇語法。作為一種源于邏輯語言學(xué)的語法理論,組合范疇語法為機器提供了“語言大腦”,讓人工智能能夠從雜亂的文本中讀出人類語言蘊含的意義與邏輯。近年來,語言哲學(xué)對意義的探討與這一技術(shù)在自然語言處理中的應(yīng)用相結(jié)合,正推動著人工智能邁向更深層次的語言理解。然而,人工智能通過模擬人類設(shè)定的組合規(guī)則進(jìn)行“模仿性語言生成”,并非自發(fā)地“創(chuàng)造語言”,本質(zhì)上是在人類設(shè)定的語義框架內(nèi)運作,不能脫離人類對語言和知識的把控。

組合范疇語法的基本原理

組合范疇語法誕生于20世紀(jì)80年代,是一種類型驅(qū)動的詞匯化文法。它的核心思想是:句法即語義的驅(qū)動器。具體而言,每一個詞被賦予一個范疇,該范疇指明了該詞可與什么類型的成分結(jié)合,以及結(jié)合后生成何種更大成分。例如,在英語句子“The cat sits”中,“the”具有范疇NP/N,表示它期待右側(cè)有一個名詞(N)來組成名詞短語(NP);“cat”的范疇是N(名詞),正好滿足“the”的需求;動詞“sits”具有范疇S/NP,表示它需要一個位于其左側(cè)的充當(dāng)主語的名詞短語NP來形成完整句子S。通過一系列函數(shù)式應(yīng)用和組合規(guī)則,這些詞匯范疇逐步結(jié)合,構(gòu)成句子的句法樹和語義結(jié)構(gòu)。因為大部分語法信息蘊含在詞匯的范疇中,所以組合范疇語法僅需少量的組合運算(如應(yīng)用、組合、類型提升、替換)就能完成解析。這樣的特征不僅使組合范疇語法具有極高的解析效率,而且具有很強的表達(dá)能力,能夠處理自然語言中的長距離依存和非連續(xù)成分等復(fù)雜現(xiàn)象。

值得一提的是,組合范疇語法與邏輯學(xué)家柯里的組合邏輯一脈相承,其組合規(guī)則對應(yīng)于柯里的組合子,這意味著每一個句法組合都伴隨著語義函數(shù)的組合。這樣,當(dāng)句法分析生成一個完整句子S時,語義分析也同步得到該句子的謂詞—論元結(jié)構(gòu)乃至邏輯表達(dá)式。這種句法與語義的透明接口使組合范疇語法非常適合作為自然語言理解的工具——機器不但“看”到了句子結(jié)構(gòu),而且“懂”得了句子大意。

語言哲學(xué)視角下的組合與意義

語言哲學(xué)素有“組合原則”之說,即復(fù)合表達(dá)式的意義由其組成部分的意義及組合方式?jīng)Q定。這一由弗雷格提出的原則在組合范疇語法中得到了充分體現(xiàn):組合范疇語法嚴(yán)格遵循語義的組合性原則,任何復(fù)雜句子的含義都是由詞匯語義通過規(guī)則推導(dǎo)出來的。蒙太格曾主張用形式邏輯的方法處理自然語言語義,組合范疇語法正是沿著這一路徑發(fā)展而來的現(xiàn)代成果。組合范疇語法在自然語言的表層語法結(jié)構(gòu)與深層語義表示之間建立起透明映射,謂詞—論元關(guān)系、量詞轄域以及信息結(jié)構(gòu)等都可以通過組合范疇語法的解析直接讀出。對語言哲學(xué)而言,這意味著我們有可能像研究邏輯命題那樣精確地研究日常語言的含義,實現(xiàn)對“意義”的形式化刻畫。

值得注意的是,組合范疇語法的研究融合了邏輯學(xué)和語言學(xué)思想,體現(xiàn)出方法論上的創(chuàng)新。一方面,借鑒形式邏輯(如λ演算)的嚴(yán)謹(jǐn)計算特性;另一方面,結(jié)合語言學(xué)語境理論(如話語表征理論)的靈活語用分析。二者相互補充,孕育出了投射話語表征理論等新成果。投射話語表征理論綜合了邏輯的可計算性和語用分析的靈活性,能夠處理諸如時間關(guān)系、語義預(yù)設(shè)等復(fù)雜現(xiàn)象。例如,對于句子“老王沒來開會,大家很驚訝”,形式邏輯難以直接捕捉其中的隱含前提“老王原本應(yīng)該來”。然而,在組合范疇語法框架下引入投射話語表征理論,能夠精準(zhǔn)捕捉到“很驚訝”所依賴的語義預(yù)設(shè),揭示隱藏的信息。這種將哲學(xué)邏輯引入計算語言學(xué)的方法,使得機器對語義的理解更加接近人類的理解方式:既嚴(yán)格又靈活。

此外,語言哲學(xué)長期關(guān)注的量詞轄域歧義問題,在組合范疇語法的框架下也找到了破解之道。經(jīng)典例句“每個男孩都喜歡一個女孩”有兩種解讀:“每個男孩各自喜歡不同的女孩”;“所有男孩喜歡同一個女孩”。這類量詞轄域歧義在邏輯上可能產(chǎn)生組合爆炸——量詞稍一增多,可能出現(xiàn)天文數(shù)字般的解讀數(shù)量。組合范疇語法的語義學(xué)家引入了廣義斯科倫項量詞理論等新方法,將復(fù)雜的量詞互動轉(zhuǎn)化為較簡單的邏輯表示。通過這種策略,含有多個量詞的語句的解讀數(shù)量可能從原先的數(shù)萬種大幅減少到幾千種。這些哲學(xué)邏輯層面上的精耕細(xì)作,大大緩解了人工智能在語義歧義處理上的計算壓力,使機器對復(fù)雜句子的理解更加精準(zhǔn)。

在自然語言處理中的作用與價值

組合范疇語法已被廣泛應(yīng)用于自然語言處理的各個領(lǐng)域,其中包括用于構(gòu)建大規(guī)模的樹庫與語義庫資源,為機器學(xué)習(xí)算法提供豐富的訓(xùn)練數(shù)據(jù)。例如,愛丁堡大學(xué)的研究者將數(shù)萬個英文句子的語法樹轉(zhuǎn)換成組合范疇語法衍生樹,編制了著名的英語組合范疇語法樹庫,該樹庫涵蓋了《華爾街日報》語料中99%以上的句法結(jié)構(gòu)。基于此樹庫,邏輯學(xué)家開發(fā)了性能優(yōu)異的組合范疇語法解析器,如Clark和Curran的C&C解析器,以及后續(xù)的EasyCCG等,這些解析器能夠?qū)⒄鎸嵨谋巨D(zhuǎn)化為組合范疇語法的句法結(jié)構(gòu)和邏輯形式。經(jīng)由組合范疇語法解析,計算機可直接獲取句子的語法依存關(guān)系和語義角色信息,從而在問答、信息抽取和機器翻譯等任務(wù)中有更精準(zhǔn)的表現(xiàn)。

令人振奮的是,組合范疇語法正在推動構(gòu)建語義層面的大型知識庫,荷蘭格羅寧根大學(xué)牽頭開發(fā)的格羅寧根意義庫及其升級版平行意義庫就是其中的杰出代表。這些“語料工廠”利用組合范疇語法表示句子的組合生成過程,并結(jié)合投射話語表征理論來記錄豐富的語義信息。在這兩個意義庫中,每個語句文本首先通過組合范疇語法進(jìn)行句法分析,獲得高質(zhì)量的范疇結(jié)構(gòu),然后再映射成形式邏輯表示,如投射話語表征結(jié)構(gòu)。由于組合范疇語法提供了透明的句法—語義接口,這種從句法到邏輯語義的標(biāo)注過程可以部分自動地完成。平行意義庫更是邁出了構(gòu)建多語種語義庫的步伐:它將英文語句的語義作為“種子語義”,通過與其他語言的平行文本對齊,將語義解析結(jié)果投射到德語、荷蘭語、意大利語等多種語言上。這種方法充分利用了組合范疇語法衍生樹的可投射性和組合語義,使得不同語言的語句共享統(tǒng)一的意義表示。如今,這兩個意義庫已成為測評語義解析的重要基準(zhǔn)資源,極大地促進(jìn)了機器對自然語言“理解”的深入。

在中文信息處理領(lǐng)域,研究者也在建設(shè)類似的資源庫。例如,微軟、清華大學(xué)合作開發(fā)的清華中文組合范疇語法樹庫和中國社會科學(xué)院的社科漢語組合范疇語法樹庫等,收錄了大量中文新聞文本的句法—語義分析成果??梢灶A(yù)見,隨著這些資源的不斷豐富,基于組合范疇語法的自然語言處理模型將能更全面地學(xué)習(xí)語言的內(nèi)在規(guī)律,并將語言哲學(xué)中的精妙思想融入機器算法之中。

邁向更深層次的人工智能語言理解

有了組合范疇語法這樣的“哲學(xué)底蘊”深厚的工具,自然語言處理正逐步從“能講話”走向“會思考”。當(dāng)前,大型預(yù)訓(xùn)練語言模型(如ChatGPT)已經(jīng)展示出驚人的對話能力,但也常被質(zhì)疑是否真正理解了語言。組合范疇語法等形式語法的語義理論的引入,能夠回應(yīng)這一質(zhì)疑,賦予人工智能符號推理和邏輯理解的能力,彌補數(shù)據(jù)驅(qū)動方法的短板。通過將組合范疇語法解析產(chǎn)出的邏輯結(jié)構(gòu)融入神經(jīng)網(wǎng)絡(luò)模型,研究者希望機器不再只是基于表面模式生成回答,而是能夠基于對句子深層含義的把握進(jìn)行推理和響應(yīng)。

一個顯著的趨勢是“人機共訓(xùn)”:利用人類專家知識來輔助機器學(xué)習(xí)。組合范疇語法語義庫的建立本身就是這一思路的體現(xiàn)——開發(fā)者通過眾包和游戲化標(biāo)注等方式,讓人類為機器提供高質(zhì)量的語義標(biāo)注,這些由人類智慧積累的知識庫已經(jīng)成為訓(xùn)練先進(jìn)人工智能模型的重要參考。盡管大型語言模型主要依賴海量數(shù)據(jù)進(jìn)行自我學(xué)習(xí),但融合符號知識可以顯著提升它們的能力,使它們不僅會“說”,還會“想”??梢灶A(yù)見,當(dāng)人工智能同時具備大數(shù)據(jù)統(tǒng)計推斷和邏輯語義推理這兩方面能力時,我們與機器的交流將真正邁入“意義的對話”。機器將能理解言外之意、進(jìn)行常識推理,甚至對人類提出的問題給出更有依據(jù)的回答。

展望未來,組合范疇語法代表的語言哲學(xué)與人工智能技術(shù)的結(jié)合將繼續(xù)深化。一方面,語言哲學(xué)的理論框架幫助我們洞察語言背后的規(guī)律與邏輯,使人工智能擺脫對純粹數(shù)據(jù)相關(guān)性的依賴;另一方面,人工智能的強大計算能力和應(yīng)用需求又推動哲學(xué)理論走出書齋,在實踐中不斷演化??梢灶A(yù)見,在不久的將來,我們將看到更聰明的人工智能,它既掌握語言的規(guī)則,也能領(lǐng)會語言的深層含義。在組合范疇語法等橋梁的連接下,人工智能終將跨越“能言”與“會意”的鴻溝,在理解人類語言的道路上走得更遠(yuǎn)。

人工智能并未取代人類在知識生產(chǎn)中的主導(dǎo)地位

隨著人工智能逐漸深入人類社會的各領(lǐng)域,一個關(guān)鍵性問題日益受到關(guān)注:人工智能是否正在挑戰(zhàn)人類在知識生產(chǎn)中的主導(dǎo)地位?從組合范疇語法的視角看,人工智能在語言生成和知識建構(gòu)中的行為仍然受制于人類意識,人類從根本上掌控著知識生產(chǎn)機制。

組合范疇語法是一種強調(diào)語言結(jié)構(gòu)與語義組合平行性的形式語法理論。它之所以具有解釋力,是因為它將自然語言的生成過程形式化地描述為一種可計算、可組合的認(rèn)知行為,這種行為從根本上反映了人類意識對語義秩序的掌控。語言是知識生產(chǎn)的基礎(chǔ),知識的表達(dá)、組織和傳播都依賴語言的結(jié)構(gòu)性。在組合范疇語法框架下,語言結(jié)構(gòu)并非任意堆砌的產(chǎn)物,而是表現(xiàn)出高度規(guī)則化的組合秩序。這種秩序源于人類認(rèn)知對意義結(jié)構(gòu)的建構(gòu):我們決定哪些表達(dá)式可以組合,以及哪些組合是有意義的。人工智能只能在這一認(rèn)知秩序中重復(fù)、模擬和變形,而非顛覆。

人工智能在生成語言時,表面上似乎也在進(jìn)行某種“組合”。但這種組合并非出自機器的意識選擇,而是基于人類設(shè)定的規(guī)則與訓(xùn)練數(shù)據(jù)。無論是顯式采用組合范疇語法等語法框架的自然語言處理模型,還是深度學(xué)習(xí)模型中隱含的結(jié)構(gòu)假設(shè),語言的“合法組合”邊界始終由人類設(shè)定。因此,人工智能在語言生成中不是自主的知識生產(chǎn)者,而是模擬者,它運行在人類認(rèn)知范疇構(gòu)建的框架內(nèi)。

語言表達(dá)式的合法性不僅取決于句法上的可組合性,還取決于語義上的可解釋性。而語義解釋的體系,正是人類意識中對世界經(jīng)驗的結(jié)構(gòu)化呈現(xiàn)。即便人工智能可以通過統(tǒng)計模型或大語言模型學(xué)習(xí)到一定的語言分布規(guī)律,但在語義層面依舊無法越界——它無法為一個前所未有的語詞賦予創(chuàng)造性解釋,更無法生成脫離人類經(jīng)驗語義場的新概念。

從組合范疇語法的視角看,人工智能的“語言能力”不過是基于人類設(shè)定的范疇結(jié)構(gòu)的計算過程,人工智能的語言生成行為受人類意識的支配。因此,人工智能并未對人類在知識生產(chǎn)中的主導(dǎo)地位構(gòu)成挑戰(zhàn)。它無法脫離人類設(shè)定的語言范疇和組合規(guī)則,也無法離開人類提供的語料和意義解釋空間。這一事實不僅重新確立了人類在知識建構(gòu)中的中心地位,而且提醒我們:即便工具變得越來越智能,知識的意義與目的依然屬于人類自己。

(責(zé)編:金一、黃偉)
RM新时代APP官网