作者系國家社科基金重大項目“方志中方言資料的整理、輯錄及數(shù)字化工程”首席專家、西南交通大學特聘教授;西南交通大學博士研究生
中華文明歷經(jīng)數(shù)千年的演進、積淀,流傳至今的文獻浩如煙!,F(xiàn)代社會信息技術飛速發(fā)展,這對文獻的保護和利用來說,既是機遇,也是挑戰(zhàn)!安粩(shù)字無人文”時代的全面到來,意味著數(shù)字化已成為文獻資源保護、利用、轉化、發(fā)展的必要前提。
文獻可檢索化是學術大發(fā)展的助推器。從利用角度而言,數(shù)字化的核心是“可檢索”。檢索是現(xiàn)代人文社科研究必不可少的手段和工具,其基本功能是根據(jù)問題的指向,幫助研究者快速、準確地查找、鑒別和處理相關文獻材料,建立起知識之間的關聯(lián),實現(xiàn)知識的融匯。數(shù)字人文興起之前,人們對文獻進行可檢索化處理的成果是索引,也稱“引得”。中國古代的索引是在字書、韻書、類書、書目等基礎上發(fā)展起來的檢索工具,或稱為通檢、備檢、韻編、串珠等。索引可以實現(xiàn)查檢字、詞、句、篇、文、史、地、事、人、年、制等功能,極大地提高研究效率。
歷史上體例完備、搜羅宏富的索引型工具書的每一次進步,都能有力地推動學術的發(fā)展,并對后世產(chǎn)生深遠影響。清代阮元主持編纂《經(jīng)籍籑詁》(又作《經(jīng)籍纂詁》),匯集了我國唐以前古書中的訓詁資料,分韻編排,對歷代典籍訓詁做了索引式的整理——“展一韻而眾字畢備,檢一字而諸訓皆存,尋一訓而原書可識!惫蚀藭σ粏柺,就受到當時學界盛贊,并在學術研究中加以利用。如郝懿行撰寫《爾雅義疏》就得益于書中提供的豐富材料,他說“適購得《經(jīng)籍纂詁》一書,絕無檢書之勞,而有引書之樂”;20世紀后半葉,日本諸橋轍次新編《大漢和辭典》,中國臺灣出版《中文大辭典》,我國兩部大型語文辭書《漢語大字典》和《漢語大詞典》,都把《經(jīng)籍籑詁》列為最重要的參考書之一;《故訓匯纂》《古音匯纂》則是《經(jīng)籍籑詁》的最新發(fā)展。時至今日,它仍然是學者案頭必備的工具書。又如,民國時期由洪業(yè)主持的哈佛燕京學社引得編纂處編纂的“漢學引得叢刊”,借鑒西方科學的索引技術和方法,首次大規(guī)模成系統(tǒng)地編纂了64種81冊中國古籍引得工具書,深受當時國內(nèi)外學界的贊賞,極大地推動了民國學術的發(fā)展。
大數(shù)據(jù)時代,各類綜合性、專題性電子數(shù)據(jù)庫如雨后春筍般涌現(xiàn)。相較傳統(tǒng)的紙質(zhì)索引而言,能夠處理海量數(shù)據(jù)的數(shù)字化檢索功能豐富且更高效便捷,開啟了人文學科全新的研究路徑,引起了研究范式的大變革?梢姡墨I可檢索化的意義絕不止于為學界提供高效便捷的檢索工具,更重要的是倡導了科學高效的讀書和治學方法。
“精?薄薄翱蓹z索”是文獻數(shù)字化的兩大支點。文獻的保護和利用,這里主要指古文獻的保護和利用,有原生性保護和再生性保護兩種方式。原生性保護更多關注文獻作為文化承載實體的物質(zhì)屬性,把文獻當作“文物”保護起來。再生性保護則有影印、縮微和數(shù)字化三種技術手段。前兩種手段讓文獻以再造紙本或縮微膠片的形式轉印,較好地保存了原貌;但沒有經(jīng)過標點、?、注釋,閱讀不便,無法進行檢索,查找效率低下,使用中證據(jù)力有所欠缺。因此,要提升古文獻的利用率,讓它們“活起來”,就必須將其內(nèi)容轉化為數(shù)字文本。
文獻數(shù)字化包括紙本資源的電子化,以及在電子化文本基礎上的斷句、標點、詞語切分等基礎性加工和深層次的知識提取、聯(lián)結、擴展!熬?薄笔俏墨I數(shù)字化的第一個支點。基于可靠紙本的電子化文本是文獻數(shù)字化的前提和保障,文獻數(shù)字化的實現(xiàn)過程即是大規(guī)模整理文獻的過程!翱蓹z索”則是文獻數(shù)字化的另一個支點。擁有可靠的電子化文本后,在海量的數(shù)據(jù)資料面前,如果不能實現(xiàn)可檢索,則還是不利于讀者對文獻的利用。因此,只有夯實“精?薄焙汀翱蓹z索”兩個支點,才能走穩(wěn)文獻數(shù)字化的建設之路。
文獻數(shù)字化,歸根到底是知識生產(chǎn)資源、學術研究材料的數(shù)字化。“一時代之學術,必有其新材料與新問題”,新材料能出新學問。從語言研究角度說,激活舊材料,挖掘新材料是語言研究持久不懈的重要工作。新材料有兩層含義:狹義的新材料指地下出土的材料,如清末民初的甲骨文、簡帛及敦煌文獻;廣義的新材料則指前人未曾使用過的,或在研究中沒有系統(tǒng)搜集、整理的,學界不曾注意的材料,如域外文獻、大內(nèi)檔案。從方言研究角度看,20世紀的歌謠收集、方言調(diào)查報告、少數(shù)民族語言調(diào)查,近年的方志方言整理,其實質(zhì)上也是新材料,但這些材料的“新”不深究難以覺察。中國地方志是“我國有史以來最大的社會科學成果群”,其中蘊含了豐富的方言材料,他們是中國語言學研究的又一富礦,是具有寶貴價值的新材料。其中不僅有漢語方言,還有少數(shù)民族語、外來語,語音、詞匯、語法、俗語俱全。但分布零散,搜檢不易,前人使用不多。20世紀中葉,日本學者波多野太郎編纂《中國方志所錄方言匯編》(9編),收集、影印了266種中國舊志中的方言資料;21世紀初,日本學者太田齋、加納巧《新編中國地方志所錄方言志目錄》集31個省市含有方言資料的新志,編成目錄。2021年,出現(xiàn)了兩部舊志方言資料整理的集大成之作:華學誠主編,曹小云、曹嫄《歷代方志方言文獻集成》(11冊)整理點校了966種舊志方言文獻;李藍《中國方志中語言資料集成》(42冊)搜集影印了742種含有語言資料的舊志內(nèi)容。這是兩部舊志方言資料整理的力作,得到學界好評。國家社科基金重大項目“方志中方言資料的整理、輯錄及數(shù)字化工程”搜集整理新、舊方志中的方言資料,分省編成《中國方志方言資料匯纂》,印刷紙本296冊;建成了可供檢索利用的“中國方志方言詞匯數(shù)據(jù)庫”。該庫從10余萬種方志中,系統(tǒng)地整理出3677種中國新、舊方志中的方言詞,現(xiàn)已入庫方言詞130萬余條,總字數(shù)約5000萬字。該數(shù)據(jù)庫屬于全息數(shù)據(jù)庫,可一鍵查詢到古今方志方言詞匯的相應信息,這對未來的漢語方言研究或將有重要參考價值。
科學設計檢索字段是提高檢索效率的關鍵。文獻數(shù)字化要兼顧到原貌保護、精確?薄㈦娮踊崛、方便檢索等多方面要求。因此,需要根據(jù)不同的檢索目的,匹配不同專業(yè)的特征項,做好檢索的頂層設計,從而提高檢索效率和查準率。在文獻數(shù)字化的建設過程中,“精?薄钡募堎|(zhì)文本與電子化文本是實現(xiàn)“可檢索”功能的前提,而提高檢索效率的關鍵則是科學的檢索字段設計。
大數(shù)據(jù)時代的文獻數(shù)字化除提供字符串匹配的基礎檢索功能外,還應對內(nèi)容進行深度標引、知識發(fā)掘和文獻信息關聯(lián)。以“中國方志方言詞匯數(shù)據(jù)庫”為例,其檢索字段設計包括:詞形、注音、釋義、文例、詞類、語類、通行地域、方志纂修時間、方志纂修者、方志名稱、方言所在篇(卷)。通過數(shù)據(jù)的結構化處理,可進行批量查詢、計量統(tǒng)計;可實現(xiàn)全文檢索,也可進行方言分時、分地、分詞類、分語類等專門性檢索。方言分區(qū)、分類是方言研究的基礎工作,又是方言研究的歸宿。學界目前多以語音為方言分區(qū)的條件,“中國方志方言詞匯數(shù)據(jù)庫”可以起到重要的輔助和驗證作用。如可從數(shù)據(jù)庫中方便地提取同一方言詞在相鄰的區(qū)、片、小片、點的復現(xiàn)率、同一方言詞在不同方言中的共現(xiàn)率等數(shù)據(jù)。例如,晉語“好面”指白面、精細面,在山西太原、鄉(xiāng)寧等地47種方志中出現(xiàn)過;又如方言詞“蔫”指物不新鮮,在河北雄縣、青縣,江蘇吳縣,浙江蕭山、鄞縣,上海,福建,廣東番禺,重慶云陽、長壽,四川蓬溪、簡陽,貴州遵義、平越等地36種方志中出現(xiàn)過。這樣的數(shù)據(jù),無疑將有益于我們用來研究方言分區(qū)、方言溯源、方言擴散、方言比較、形音義、語言接觸、移民現(xiàn)象等多方面的問題;谠搸鞂h語方言材料進行深度而高效的分析,使?jié)h語方言研究除方言調(diào)查報告、方言著作、方言研究論文、方言地圖、方言詞典外,又多了一個可靠好用的檢索平臺,有助于方言研究進入更宏觀的視野,提高研究結論的精準性、穩(wěn)定性及可驗證性,促生新的研究理念、方法與范式。
依托于現(xiàn)代信息技術發(fā)展起來的文獻數(shù)字化檢索方式,是真正對包括古籍在內(nèi)的文獻實現(xiàn)永續(xù)性保護和利用的好辦法,必將大大推動人文社會科學領域的發(fā)展,推動中華優(yōu)秀傳統(tǒng)文化創(chuàng)造性轉化、創(chuàng)新性發(fā)展。