曾楠：推動人工智能安全可靠可控發(fā)展

曾楠2025年09月12日09:24來源：光明日報

原標(biāo)題：推動人工智能安全可靠可控發(fā)展

作者：曾楠，系廣東省習(xí)近平新時代中國特色社會主義思想研究中心特約研究員，南方醫(yī)科大學(xué)馬克思主義學(xué)院院長、教授

習(xí)近平總書記指出：“要把握人工智能發(fā)展趨勢和規(guī)律，加緊制定完善相關(guān)法律法規(guī)、政策制度、應(yīng)用規(guī)范、倫理準(zhǔn)則，構(gòu)建技術(shù)監(jiān)測、風(fēng)險預(yù)警、應(yīng)急響應(yīng)體系，確保人工智能安全、可靠、可控?！眹鴦?wù)院近日印發(fā)的《關(guān)于深入實施“人工智能+”行動的意見》提出，“共同研判、積極應(yīng)對人工智能應(yīng)用風(fēng)險，確保人工智能發(fā)展安全、可靠、可控”。當(dāng)前，人工智能正以前所未有的深度與廣度重塑著社會運行方式。同時，從大型語言模型的“幻覺”輸出到自動駕駛系統(tǒng)的決策偏差，從深度偽造技術(shù)對社會信任的侵蝕到算法黑箱導(dǎo)致的不透明與偏見……人工智能系統(tǒng)在性能飛躍的同時，其內(nèi)生性安全與可靠性問題成為制約其健康發(fā)展的不容忽視的因素。傳統(tǒng)的事后補救、外掛防護式的治理模式，如同在高速運行的列車外部進(jìn)行修補，不僅效率低下，也難以觸及復(fù)雜系統(tǒng)內(nèi)部深層結(jié)構(gòu)性問題。因此，探索以系統(tǒng)治理推動人工智能安全可靠可控發(fā)展，具有實踐上的緊迫性。

從“外掛補丁”到“免疫系統(tǒng)”的范式更新

“外掛補丁”模式承襲傳統(tǒng)網(wǎng)絡(luò)安全思路，其特征表現(xiàn)為事后補救、外部附加和局部修正，其在人工智能治理初期發(fā)揮了重要作用。例如，當(dāng)發(fā)現(xiàn)人工智能系統(tǒng)學(xué)會了偏見和歧視，我們試圖用“過濾網(wǎng)”去篩查它的回答；當(dāng)發(fā)現(xiàn)它容易被“誤導(dǎo)”或“欺騙”，我們再為其額外增加一道防護程序；當(dāng)人工智能系統(tǒng)的決策過程像一個黑箱難以理解，我們再開發(fā)一個外部工具去試圖解讀它。然而，這種模式存在固有局限性：其預(yù)警響應(yīng)往往滯后于風(fēng)險顯現(xiàn)，難以覆蓋長鏈?zhǔn)?、跨模態(tài)的新型風(fēng)險；附加的安全模塊可能與原生系統(tǒng)存在適配沖突，影響模型性能的同時產(chǎn)生新的脆弱點；規(guī)則化的應(yīng)對方式無法適應(yīng)快速迭代的攻擊手法。正如修補漏洞無法替代建設(shè)堅固的城堡，依賴外部打補丁難以形成系統(tǒng)性的安全韌性。

確保人工智能系統(tǒng)安全可靠可控，需要從系統(tǒng)設(shè)計的底層邏輯出發(fā)，將安全與可靠目標(biāo)內(nèi)化為技術(shù)架構(gòu)、算法模型、數(shù)據(jù)流程乃至開發(fā)范式的核心基因，使其具備類似生物免疫系統(tǒng)的自我識別、動態(tài)適應(yīng)和協(xié)同防御功能，隨系統(tǒng)演化而自適應(yīng)進(jìn)化，進(jìn)而降低安全風(fēng)險發(fā)生的概率與危害。這一范式涵蓋三個核心維度：架構(gòu)安全、過程安全與價值安全。具言之，筑牢架構(gòu)安全防線，將安全屬性嵌入模型底層，使其天生具備更強的抗干擾、抗欺騙能力，不易被“病毒”入侵，并能更好保護數(shù)據(jù)隱私；構(gòu)建過程安全監(jiān)控系統(tǒng)，在模型訓(xùn)練、部署、運行的全流程實施動態(tài)風(fēng)險監(jiān)測與反饋調(diào)節(jié)；設(shè)置價值安全指引，將價值觀、倫理準(zhǔn)則與社會規(guī)范內(nèi)化為人工智能系統(tǒng)的行為指引，通過價值觀對齊，使系統(tǒng)不僅能正確執(zhí)行任務(wù)，更能理解行動的倫理意涵與社會影響。

從“概率正確”到“可知可控”的信任構(gòu)建

當(dāng)前，大多數(shù)人工智能系統(tǒng)基于大數(shù)據(jù)和概率模型運行，通過分析大量數(shù)據(jù)找出重復(fù)出現(xiàn)的模式，進(jìn)而做出判斷，這通常表現(xiàn)為“概率正確”。這種方式雖然高效，但也存在明顯的局限和風(fēng)險。一是結(jié)果的不確定性。模型可能會產(chǎn)生“幻覺”，即編造看似真實實則虛假的信息。在醫(yī)療診斷、司法輔助等嚴(yán)肅場景中，模型“幻覺”的代價是難以估量的。二是決策的不可溯性。當(dāng)系統(tǒng)做出某個決定時，使用者往往無法了解其具體推理過程，這既影響了對結(jié)果的驗證，也阻礙了錯誤發(fā)生后的糾正和改進(jìn)。三是風(fēng)險的不可預(yù)見性。系統(tǒng)在常規(guī)環(huán)境下可能表現(xiàn)良好，但在面對新情況或受到干擾時，可能出現(xiàn)無法預(yù)見的錯誤，給實際應(yīng)用帶來隱患。

人工智能系統(tǒng)的可靠性不能停留在統(tǒng)計意義上的“高概率正確”，而應(yīng)追求在復(fù)雜、開放、動態(tài)環(huán)境下的“高置信可靠”。其核心在于建立可知、可控、可信的技術(shù)閉環(huán)，使人工智能系統(tǒng)不再是神秘莫測的“黑箱”，而是行為可預(yù)期、風(fēng)險可管理、決策可追責(zé)的“透明箱”或“玻璃箱”，具有以下特性：可解釋性，即系統(tǒng)不僅能輸出結(jié)果，更能提供清晰、可理解的決策依據(jù)和推理路徑，使其行為對開發(fā)者與使用者而言是透明、可追溯的；預(yù)期一致性，即系統(tǒng)的行為表現(xiàn)嚴(yán)格處于其聲明的能力邊界和設(shè)計目標(biāo)之內(nèi)，不會產(chǎn)生無法預(yù)知的、超出其功能范圍的行為，確保其行動結(jié)果與人類預(yù)期高度吻合；可驗證性，系統(tǒng)的性能、邏輯和輸出結(jié)果可通過獨立的、系統(tǒng)化的方法進(jìn)行測試、檢驗與審計，確保其行為始終符合預(yù)設(shè)的技術(shù)規(guī)范和倫理標(biāo)準(zhǔn)；可干預(yù)性，即在關(guān)鍵決策點或系統(tǒng)表現(xiàn)異常時，人類能夠進(jìn)行及時干預(yù)、修正或中止，始終將最終控制權(quán)置于人類手中。

推進(jìn)融合技術(shù)、標(biāo)準(zhǔn)、倫理的系統(tǒng)性“治理工程”

推動人工智能安全可靠可控發(fā)展，絕非單純的技術(shù)優(yōu)化，而是一項深度融合技術(shù)創(chuàng)新、標(biāo)準(zhǔn)規(guī)范、倫理準(zhǔn)則的系統(tǒng)性“治理工程”，即將治理要求結(jié)構(gòu)化、自動化地嵌入人工智能系統(tǒng)的設(shè)計、開發(fā)、部署、運行、迭代全過程。

以技術(shù)創(chuàng)新為治理根基，筑牢安全可控的底層支撐。技術(shù)是實現(xiàn)有效治理的根基。應(yīng)重點發(fā)展以可信人工智能為核心的關(guān)鍵技術(shù)，從設(shè)計之初就內(nèi)置安全特性，確保系統(tǒng)行為的可靠性，為治理提供堅實基礎(chǔ)。主要包括以下幾個方向：研發(fā)具有高穩(wěn)定性和抗干擾能力的算法模型，使系統(tǒng)在面對惡意攻擊或異常數(shù)據(jù)時仍能保持正常運行；推進(jìn)可解釋人工智能技術(shù)，讓系統(tǒng)的決策過程變得清晰可見;構(gòu)建測試驗證和持續(xù)監(jiān)測體系，實現(xiàn)對系統(tǒng)風(fēng)險的實時預(yù)警和動態(tài)防護。

以標(biāo)準(zhǔn)規(guī)范為治理準(zhǔn)繩，確立清晰一致的行業(yè)標(biāo)尺。標(biāo)準(zhǔn)是治理體系的尺度，為技術(shù)創(chuàng)新和產(chǎn)業(yè)應(yīng)用提供統(tǒng)一規(guī)范。應(yīng)加快構(gòu)建覆蓋人工智能全生命周期、多維度的標(biāo)準(zhǔn)體系。在基礎(chǔ)共性方面，建立術(shù)語、架構(gòu)、評估基準(zhǔn)標(biāo)準(zhǔn)；在關(guān)鍵技術(shù)領(lǐng)域，制定可解釋性、隱私保護等技術(shù)標(biāo)準(zhǔn)；在行業(yè)應(yīng)用層面，推出面向醫(yī)療、交通、金融等重點領(lǐng)域的應(yīng)用規(guī)范和管理指南。這些標(biāo)準(zhǔn)不僅為產(chǎn)品研發(fā)和質(zhì)量評價提供依據(jù)，也為監(jiān)管執(zhí)法和社會監(jiān)督提供可靠參照，有助于推動產(chǎn)業(yè)形成共識，避免無序發(fā)展，實現(xiàn)在規(guī)范中創(chuàng)新、在標(biāo)準(zhǔn)下落地。

以倫理準(zhǔn)則為治理靈魂，引領(lǐng)負(fù)責(zé)任的創(chuàng)新方向。倫理準(zhǔn)則能夠為技術(shù)發(fā)展提供價值引導(dǎo)。倫理治理的目標(biāo)，是確保人工智能的發(fā)展始終遵循人類價值觀和共同福祉，實現(xiàn)科技向善。為此，應(yīng)當(dāng)將以人為本、公平包容、責(zé)任明確、可控可信等倫理原則深度融入人工智能研發(fā)與應(yīng)用全過程。具體而言，建立倫理審查和風(fēng)險評估機制，對可能產(chǎn)生的倫理影響和社會后果進(jìn)行前瞻性研判；推動算法公平性研究，努力消除數(shù)據(jù)偏見和歧視；明確研發(fā)者、使用者、監(jiān)管者等各方責(zé)任，建立健全問責(zé)機制；鼓勵開展人工智能倫理教育和公眾討論，提升全社會倫理意識。

當(dāng)前，人工智能正以磅礴之力塑造人類文明新圖景。唯有將安全、可靠、可控深植其技術(shù)生命基因，使其生長出強大的內(nèi)在免疫系統(tǒng)，并輔以技術(shù)治理這一系統(tǒng)工程的精心雕琢，才能使人工智能真正成為驅(qū)動高質(zhì)量發(fā)展的引擎而非脫韁野馬。治理邏輯與技術(shù)邏輯實現(xiàn)有機融合之際，一個可知、可控、可信、可持續(xù)的人工智能時代才能真正到來。

(責(zé)編：金一、張雯)

聯(lián)系我們 | 版權(quán)聲明

RM新时代APP官网

曾楠：推動人工智能安全可靠可控發(fā)展

主管主辦：全國哲學(xué)社會科學(xué)工作辦公室承辦：人民網(wǎng)

©1999-2019 全國哲學(xué)社會科學(xué)工作辦公室版權(quán)所有京ICP備12051030號-2

RM新时代APP官网

曾楠：推動人工智能安全可靠可控發(fā)展

主管主辦：全國哲學(xué)社會科學(xué)工作辦公室 承辦：人民網(wǎng)

©1999-2019 全國哲學(xué)社會科學(xué)工作辦公室 版權(quán)所有 京ICP備12051030號-2

主管主辦：全國哲學(xué)社會科學(xué)工作辦公室承辦：人民網(wǎng)

©1999-2019 全國哲學(xué)社會科學(xué)工作辦公室版權(quán)所有京ICP備12051030號-2