【摘要】隨著智能技術(shù)的不斷發(fā)展,大模型日益成為網(wǎng)絡(luò)空間的新型基礎(chǔ)設(shè)施,其生成內(nèi)容借助互聯(lián)網(wǎng)快速傳播,對個人、社會乃至國家治理帶來潛在安全風(fēng)險(xiǎn)。這些安全風(fēng)險(xiǎn)深嵌于大模型“數(shù)據(jù)—訓(xùn)練—評估—應(yīng)用”的全生命周期,無法依賴單一環(huán)節(jié)或技術(shù)的突破完全解決。推動大模型健康發(fā)展,應(yīng)從數(shù)據(jù)源頭安全、模型訓(xùn)練規(guī)范、動態(tài)風(fēng)險(xiǎn)評估、應(yīng)用治理閉環(huán)四個方面著手,健全法規(guī)標(biāo)準(zhǔn)與敏捷治理體系,構(gòu)建貫穿大模型全生命周期的立體化、多層次、自適應(yīng)的綜合治理框架。
【關(guān)鍵詞】大模型 網(wǎng)絡(luò)空間 安全風(fēng)險(xiǎn) 安全治理
【中圖分類號】TP18 【文獻(xiàn)標(biāo)識碼】A
近年來,大模型憑借其卓越的語言理解與生成能力,正在重塑自然語言處理的研究范式,并成為人工智能領(lǐng)域最前沿方向之一。然而,隨著大模型在科研、商業(yè)和公共服務(wù)等場景的廣泛應(yīng)用,其對個人、社會乃至國家治理帶來潛在安全風(fēng)險(xiǎn)。大模型所引發(fā)的安全問題,不是來源于單一維度的技術(shù)挑戰(zhàn),而是深嵌于“數(shù)據(jù)—訓(xùn)練—評估—應(yīng)用”的全鏈路、多層次的系統(tǒng)性風(fēng)險(xiǎn),貫穿于大模型從開發(fā)到落地的全過程。
數(shù)據(jù)污染:偏見、虛假與隱私泄露的系統(tǒng)性源頭
數(shù)據(jù)風(fēng)險(xiǎn)是大模型最根本的安全挑戰(zhàn)。大模型的生成能力,來源于對海量文本數(shù)據(jù)的深度學(xué)習(xí)和模式抽取,其內(nèi)容并非憑空“生成”,而是建立在對既有數(shù)據(jù)的系統(tǒng)性模仿與歸納之上。為提升語言理解與生成效果,模型訓(xùn)練廣泛依賴互聯(lián)網(wǎng)公開語料。然而,由于互聯(lián)網(wǎng)內(nèi)容生產(chǎn)門檻低、規(guī)范性較差,訓(xùn)練數(shù)據(jù)中不可避免地混入偏見、虛假以及敏感信息,埋下諸多風(fēng)險(xiǎn)隱患。首先,由于互聯(lián)網(wǎng)文本生產(chǎn)門檻低、內(nèi)容缺乏統(tǒng)一審核標(biāo)準(zhǔn),訓(xùn)練數(shù)據(jù)中存在較多偏見信息。這些偏見可能在訓(xùn)練過程中被模型捕捉并固化,導(dǎo)致生成內(nèi)容出現(xiàn)有害言論,損害社會公正,甚至激化社會矛盾。其次,訓(xùn)練數(shù)據(jù)中混雜著大量偽科學(xué)觀點(diǎn)、誤導(dǎo)性說法等虛假或未經(jīng)驗(yàn)證的信息,易導(dǎo)致模型生成包含錯誤信息的內(nèi)容,影響用戶判斷,干擾正常的信息傳播環(huán)境。再次,訓(xùn)練數(shù)據(jù)中可能包含未脫敏的個人信息、企業(yè)資料甚至涉密內(nèi)容,若被模型“記憶”并輸出,容易造成隱私泄露或信息外泄等問題①。敏感信息的“記憶”和泄露,不僅嚴(yán)重威脅個人隱私安全,觸及法律和倫理底線,而且可能損害企業(yè)競爭力與國家利益,甚至引發(fā)更廣泛的安全風(fēng)險(xiǎn)。
當(dāng)前,降低大模型的數(shù)據(jù)風(fēng)險(xiǎn),主要通過兩種方式:在數(shù)據(jù)層面,對訓(xùn)練數(shù)據(jù)進(jìn)行清理和篩選;在模型輸出層面,引導(dǎo)其輸出更符合人類價(jià)值觀和社會規(guī)范的內(nèi)容。數(shù)據(jù)清理是大模型訓(xùn)練中最基礎(chǔ)且常用的治理手段,旨在訓(xùn)練前剔除帶有偏見、虛假、敏感或低質(zhì)量的樣本,從源頭上提升模型輸出的安全性與可靠性。常用的方法包括基于規(guī)則的清理手段,如模板匹配和正則表達(dá)式,自動剔除身份證號、家庭住址等隱私信息;基于統(tǒng)計(jì)特征的方法,如利用關(guān)鍵詞共現(xiàn)頻率,識別帶有刻板印象的表達(dá);應(yīng)用訓(xùn)練好的分類模型,過濾謠言、煽動性言論等內(nèi)容。然而,語言是高度復(fù)雜和動態(tài)演化的,不良內(nèi)容和仇恨言論的表達(dá)形式也在持續(xù)演進(jìn),現(xiàn)有的數(shù)據(jù)清洗方法顯得較為“脆弱”。如果采用過于嚴(yán)格的清洗規(guī)則,極易造成過度過濾,可能會剔除部分正常討論、有價(jià)值的異見言論、特定社群的獨(dú)特表達(dá)方式等。這不僅會削弱訓(xùn)練數(shù)據(jù)的多樣性與代表性,損害模型在不同文化與語境下的泛化能力,而且可能引入新的偏見,形成“二次傷害”。基于數(shù)據(jù)清洗的治理策略本質(zhì)上是一種基于“負(fù)面清單”的被動防御,它并不能主動教會模型何為“善”或何為“正當(dāng)表達(dá)”,只能通過排除已知的“惡”來進(jìn)行消極規(guī)避。
數(shù)據(jù)層面固有的安全風(fēng)險(xiǎn),難以完全通過傳統(tǒng)清洗手段消除,需借助對齊技術(shù)(Alignment)進(jìn)一步強(qiáng)化風(fēng)險(xiǎn)緩解能力。其核心在于規(guī)范與約束大模型的輸出行為,確保模型生成內(nèi)容符合人類價(jià)值觀、社會規(guī)范以及實(shí)際應(yīng)用的安全與倫理要求。目前,業(yè)界普遍采用人類反饋強(qiáng)化學(xué)習(xí)(RLHF)作為主流對齊技術(shù)。該方法通過收集并利用人類的偏好反饋,訓(xùn)練模型模仿人類的價(jià)值判斷,從而有效規(guī)范大模型的輸出行為,促使其生成更符合安全與倫理標(biāo)準(zhǔn)的內(nèi)容。這一對齊機(jī)制雖能從行為層面緩解因訓(xùn)練數(shù)據(jù)引發(fā)的安全風(fēng)險(xiǎn),提升模型輸出的整體安全性和可靠性,但其本質(zhì)仍為一種表層引導(dǎo),僅實(shí)現(xiàn)淺層對齊。用戶一旦使用更加隱蔽、迂回或具有欺騙性的方式重新表述同一請求,可能會繞過模型表層的安全防線,使其輸出內(nèi)部尚未清除的有害知識與敏感信息。
訓(xùn)練范式缺陷:統(tǒng)計(jì)預(yù)測范式下的認(rèn)知盲區(qū)
大模型的安全風(fēng)險(xiǎn)不僅來自數(shù)據(jù)本身,而且與其訓(xùn)練方式有關(guān)。它的訓(xùn)練目標(biāo)是學(xué)會根據(jù)已有的前文,預(yù)測下一個最有可能出現(xiàn)的詞或字。換句話說,模型并不能真正理解句子的含義或知識,而是通過統(tǒng)計(jì)大量文本中詞語出現(xiàn)的規(guī)律,選擇最符合上下文的詞語,拼湊出看起來流暢自然的句子。這種缺陷可能導(dǎo)致模型生成看似流暢合理、言之鑿鑿,但實(shí)際上完全錯誤或憑空捏造的信息,也就是所謂的“幻覺”問題②。“幻覺”具有多種表現(xiàn)形式,如捏造不存在的人物、事件、論文,“張冠李戴”等。香港科技大學(xué)的一項(xiàng)研究顯示,無論是開源還是商用大模型,普遍存在幻覺風(fēng)險(xiǎn),平均幻覺率高達(dá)59%③。“幻覺”問題不僅會影響模型輸出的可靠性,而且可能造成一系列安全風(fēng)險(xiǎn),誤導(dǎo)用戶決策、傳播虛假信息,甚至被部署在現(xiàn)實(shí)系統(tǒng)中引發(fā)鏈?zhǔn)斤L(fēng)險(xiǎn)。
檢索增強(qiáng)生成方法(RAG)是當(dāng)前應(yīng)對大模型“幻覺”問題的主要技術(shù)手段。其核心理念是將“純粹基于模型生成”的語言模型,轉(zhuǎn)變?yōu)?ldquo;由外部知識輔助”的生成框架,使模型依賴可溯源的知識來回答問題,而非僅憑訓(xùn)練記憶中的統(tǒng)計(jì)模式。具體做法是利用外部知識檢索器,將大模型的生成過程與事實(shí)性信息源(如知識圖譜、數(shù)據(jù)庫)結(jié)合,從而提升輸出內(nèi)容的真實(shí)性和可驗(yàn)證性,減少虛假信息的產(chǎn)生。集成RAG的模型在生成回答前,會先對用戶問題進(jìn)行檢索,從外部知識庫中提取若干相關(guān)文本片段,作為輔助信息與原始問題一同輸入模型,指導(dǎo)其生成更貼近事實(shí)、可追溯的答案。目前,騰訊、字節(jié)跳動、深度求索等多家大模型廠商已在系統(tǒng)中集成“聯(lián)網(wǎng)搜索”或“實(shí)時檢索”功能,以緩解“幻覺”問題,提高輸出準(zhǔn)確性和可追溯性。盡管檢索增強(qiáng)生成方法在減輕“幻覺”現(xiàn)象上已取得一定成效,但仍存在顯著局限性。其效果高度依賴檢索模塊的質(zhì)量,而現(xiàn)有檢索系統(tǒng)常面臨召回不全、語義偏移、信息冗余等問題,導(dǎo)致模型可能基于無關(guān)或片面信息生成回答。哈爾濱工業(yè)大學(xué)的一項(xiàng)研究發(fā)現(xiàn),當(dāng)檢索模塊返回?zé)o關(guān)文檔時,模型容易偏離問題核心,輸出事實(shí)錯誤的內(nèi)容④。此外,由于大模型生成過程缺乏明確的可解釋機(jī)制,用戶難以判斷回答是否真實(shí)依據(jù)檢索信息。
評估方法失焦:自動化評估不全面與人工評估不高效的雙重困局
科學(xué)、客觀、全面的評估是識別模型風(fēng)險(xiǎn)、指導(dǎo)技術(shù)優(yōu)化、建立社會信任、支撐有效監(jiān)管的基石。傳統(tǒng)生成結(jié)果的評估方法多基于構(gòu)建靜態(tài)評估數(shù)據(jù)集,通過BLEU、ROUGE等傳統(tǒng)的自然語言處理評價(jià)指標(biāo),計(jì)算模型生成結(jié)果與人類撰寫的“黃金標(biāo)準(zhǔn)”參考答案之間的匹配度。這種方式不以降低生成文本中的有害信息為目標(biāo),導(dǎo)致與用戶對模型有用性、安全性的真實(shí)感知之間存在偏差。例如,經(jīng)過指令微調(diào)和“人類反饋強(qiáng)化學(xué)習(xí)”對齊后的聊天模型(如Vicuna),盡管在真實(shí)對話中遠(yuǎn)比其原始基礎(chǔ)模型(如LLaMA)更受用戶青睞,但在傳統(tǒng)基準(zhǔn)測試上的得分卻并未相應(yīng)提高。有時甚至?xí)驗(yàn)榛卮鸶啙?、更注重安全而?dǎo)致匹配度下降,分?jǐn)?shù)反而更低。這種評估與現(xiàn)實(shí)的偏差,導(dǎo)致開發(fā)者可能會過度優(yōu)化模型在這些傳統(tǒng)基準(zhǔn)上的分?jǐn)?shù),而忽視模型在真實(shí)世界中的安全性和實(shí)用性。
目前,學(xué)術(shù)界提出一種名為“LLM-as-a-Judge”的新評估范式,即使用一個強(qiáng)大的語言模型(如GPT-4)作為“代理裁判”,自動化評估其他模型的輸出質(zhì)量。相較于傳統(tǒng)的自動化評估指標(biāo)(如BLEU),大模型能夠更有效地捕捉文本中的隱含語義與價(jià)值傾向,進(jìn)而在模擬人類評估行為、識別生成內(nèi)容中的安全隱患方面,表現(xiàn)出更高的靈活性和一致性。然而,使用一個模型去評判另一個模型,其結(jié)果在很大程度上只是衡量被測模型與“裁判”模型的觀點(diǎn)、風(fēng)格和價(jià)值觀的“相似度”,而非一個絕對的“質(zhì)量”或“安全”分?jǐn)?shù)⑤。這種方式可能促使大語言模型的研究盲目追求與巨頭模型價(jià)值觀的“對齊”,固化為整個行業(yè)的優(yōu)化目標(biāo),最終導(dǎo)致“評估霸權(quán)”,扼殺技術(shù)路線和價(jià)值取向的多樣性,威脅整個領(lǐng)域的健康。
為彌補(bǔ)自動評估方式不足,業(yè)內(nèi)通常采用人工評估,包括眾包評估和紅隊(duì)測試。眾包評估是指開發(fā)者通過眾包平臺招募評估員,從主觀維度評估模型輸出的有用性、無害性與誠實(shí)性。但該方法普遍存在兩類問題:一是評估員專業(yè)能力不足,導(dǎo)致判斷失準(zhǔn);二是不同評估者難以達(dá)成高一致性,評估結(jié)果缺乏可重復(fù)性。紅隊(duì)測試方法是指模型開發(fā)方聯(lián)合語言學(xué)、網(wǎng)絡(luò)安全等領(lǐng)域的外部專家,組建多元背景的紅隊(duì)團(tuán)隊(duì),對模型在提示注入、工具濫用、隱私泄露等高風(fēng)險(xiǎn)場景下的表現(xiàn)進(jìn)行系統(tǒng)化驗(yàn)證。該方法在識別已知風(fēng)險(xiǎn)方面具有一定效果,已成為主流大模型服務(wù)商(如OpenAI)的重要補(bǔ)充機(jī)制。但紅隊(duì)測試本質(zhì)上仍是一種人工主導(dǎo)、非窮盡性的評估方式,僅能驗(yàn)證預(yù)設(shè)漏洞是否存在,難以覆蓋開放環(huán)境中不斷演化的新型風(fēng)險(xiǎn)。在面對快速變化的攻擊方式時,存在響應(yīng)滯后與覆蓋盲區(qū)等問題,難以形成前瞻性、動態(tài)性的風(fēng)險(xiǎn)識別體系。此外,無論是眾包評估還是紅隊(duì)測試,人工評估始終難以規(guī)模化,無法高效地評估大模型在實(shí)際領(lǐng)域大規(guī)模應(yīng)用后持續(xù)動態(tài)暴露的新問題。
應(yīng)用風(fēng)險(xiǎn)升級:從生成模型向智能體的應(yīng)用安全管理
大模型的應(yīng)用風(fēng)險(xiǎn)管理,構(gòu)成了一道關(guān)鍵屏障,用于約束大模型運(yùn)行時的行為,防止其輸出違法、有害或誤導(dǎo)性信息,確保大模型在實(shí)際應(yīng)用中的安全性、合規(guī)性與責(zé)任可追溯性。目前,備案制已成為多國監(jiān)管大模型應(yīng)用安全的主流手段,通過對大模型進(jìn)行合規(guī)審查、備案登記,結(jié)合生成內(nèi)容的數(shù)字水印和溯源技術(shù),實(shí)現(xiàn)對模型及其輸出文本的監(jiān)督和管理。例如,相關(guān)部門要求大模型服務(wù)提供者提交模型信息備案,確保上線模型滿足安全合規(guī)要求,并鼓勵在生成內(nèi)容中嵌入水印或標(biāo)簽,便于追蹤內(nèi)容來源和責(zé)任歸屬。2023年以來,美國、英國、澳大利亞等國家均發(fā)布人工智能內(nèi)容治理相關(guān)規(guī)范。我國也出臺《互聯(lián)網(wǎng)信息服務(wù)深度合成管理規(guī)定》《生成式人工智能服務(wù)管理暫行辦法》《人工智能生成合成內(nèi)容標(biāo)識辦法》等政策文件,建立起以模型備案和內(nèi)容可追溯為核心的“雙重機(jī)制”,為治理生成內(nèi)容風(fēng)險(xiǎn)提供了重要抓手。然而,備案制主要依賴于服務(wù)提供者的主動申報(bào),是一種自我聲明和事后處置技術(shù),存在規(guī)則“空轉(zhuǎn)”與無法落地的風(fēng)險(xiǎn),難以形成治理閉環(huán)。
此外,大模型正在快速轉(zhuǎn)型為具備感知、規(guī)劃和執(zhí)行能力的智能體(Agent),其風(fēng)險(xiǎn)遠(yuǎn)超單純內(nèi)容生成模型。Agent不僅能夠生成文本,而且能調(diào)用外部工具、自動執(zhí)行復(fù)雜任務(wù),如郵件發(fā)送、數(shù)據(jù)庫操作、云服務(wù)調(diào)度,甚至能實(shí)現(xiàn)任務(wù)拆解和自主協(xié)同,深度介入物聯(lián)網(wǎng)等關(guān)鍵系統(tǒng),帶來了越權(quán)執(zhí)行、數(shù)據(jù)泄露、遠(yuǎn)程控制等新型安全威脅,導(dǎo)致關(guān)鍵服務(wù)中斷、隱私泄露乃至物理設(shè)備損害等嚴(yán)重后果。近年來,Agent被非法使用的事件頻發(fā),暴露出審查機(jī)制的滯后問題。不法分子繞過模型內(nèi)置安全機(jī)制,利用未經(jīng)審查的模型(如Ollama)生成釣魚郵件,甚至通過WormGPT、FraudGPT等專用于網(wǎng)絡(luò)犯罪的大模型,編寫惡意軟件、實(shí)施攻擊、竊取數(shù)據(jù)。這類工具已在暗網(wǎng)中流通,形成完整產(chǎn)業(yè)鏈,推動網(wǎng)絡(luò)犯罪向自動化、工業(yè)化加速演進(jìn),嚴(yán)重威脅信息安全和社會秩序。因此,傳統(tǒng)以生成內(nèi)容審查為核心的風(fēng)險(xiǎn)管理模式已難以覆蓋Agent“行為能力”帶來的系統(tǒng)性風(fēng)險(xiǎn)。Agent的自主性、動態(tài)執(zhí)行和鏈?zhǔn)讲僮魈攸c(diǎn),使監(jiān)管對象不再是單條文本,而是復(fù)雜的任務(wù)執(zhí)行鏈及其與外部系統(tǒng)的深度交互。這對安全風(fēng)險(xiǎn)管理提出更高要求。
構(gòu)建貫穿大模型全生命周期的綜合治理框架
推動大模型健康發(fā)展,必須高度警惕貫穿大模型“數(shù)據(jù)—訓(xùn)練—評估—應(yīng)用”全生命周期的安全風(fēng)險(xiǎn),加強(qiáng)技術(shù)發(fā)展與政策構(gòu)建的深度協(xié)同,從數(shù)據(jù)源頭治理、模型訓(xùn)練規(guī)范、動態(tài)風(fēng)險(xiǎn)度量、應(yīng)用治理閉環(huán)四個方面著手,構(gòu)建立體化、多層次、自適應(yīng)的綜合治理框架。
在數(shù)據(jù)環(huán)節(jié),堅(jiān)持從末端管控向源頭治理轉(zhuǎn)型,避免過度依賴訓(xùn)練數(shù)據(jù)清理和表層行為限制等被動式風(fēng)險(xiǎn)遏制手段,將監(jiān)管資源與政策重點(diǎn)前移,貫穿數(shù)據(jù)的采集、加工、流通與管理各環(huán)節(jié),著力構(gòu)建安全、合規(guī)、高質(zhì)量的可信數(shù)據(jù)基礎(chǔ)??紤]到大模型預(yù)訓(xùn)練語料廣泛來源于互聯(lián)網(wǎng),根本之策在于加強(qiáng)網(wǎng)絡(luò)信息內(nèi)容生態(tài)治理。一方面,落實(shí)平臺主體責(zé)任,建立健全覆蓋內(nèi)容審核、應(yīng)急處置、正向引導(dǎo)等方面的監(jiān)管機(jī)制,形成全鏈條、閉環(huán)式管理體系。另一方面,針對數(shù)據(jù)提供商出售的數(shù)據(jù),以及大模型廠商所使用訓(xùn)練數(shù)據(jù),實(shí)施常態(tài)化隨機(jī)抽檢與質(zhì)量評估機(jī)制,由主管部門牽頭,統(tǒng)籌技術(shù)專家、行業(yè)組織和科研機(jī)構(gòu)等多方力量,定期發(fā)布不符合法律法規(guī)及標(biāo)準(zhǔn)要求的數(shù)據(jù)源“黑名單”,并制定明確的指導(dǎo)原則,引導(dǎo)企業(yè)優(yōu)先采用高價(jià)值、強(qiáng)合規(guī)的訓(xùn)練數(shù)據(jù)。推行數(shù)據(jù)血緣追溯體系,協(xié)助大模型廠商構(gòu)建可追溯、可審查的數(shù)據(jù)溯源鏈,滿足法律法規(guī)和行業(yè)標(biāo)準(zhǔn)的審查要求,確保數(shù)據(jù)來源可查、質(zhì)量全程可控、責(zé)任清晰可溯。
在模型訓(xùn)練環(huán)節(jié),正視當(dāng)前生成式人工智能的技術(shù)局限性,從技術(shù)研發(fā)與訓(xùn)練過程規(guī)范化兩方面著手,推動技術(shù)創(chuàng)新與制度保障有機(jī)融合。在技術(shù)研發(fā)方面,應(yīng)加強(qiáng)對前沿訓(xùn)練范式的戰(zhàn)略引導(dǎo)和必要投入,重點(diǎn)突破現(xiàn)有生成式人工智能訓(xùn)練范式可信度低等關(guān)鍵技術(shù)瓶頸,引導(dǎo)模型由“黑箱生成”向“透明決策”轉(zhuǎn)變,為國家重大技術(shù)創(chuàng)新和下一代可信人工智能的構(gòu)建提供支撐。在訓(xùn)練過程規(guī)范化方面,由政府推動標(biāo)準(zhǔn)制定,引導(dǎo)行業(yè)制定覆蓋全流程的訓(xùn)練規(guī)范體系,對關(guān)鍵訓(xùn)練環(huán)節(jié)提出明確要求,使大模型研發(fā)過程安全可控。同步建立訓(xùn)練過程信息披露制度,明確發(fā)布模型前必須公開關(guān)鍵訓(xùn)練指標(biāo)和安全評估結(jié)果,強(qiáng)化外部監(jiān)督與行業(yè)約束,推動大模型訓(xùn)練活動在安全可靠的軌道上規(guī)范運(yùn)行。
在模型評估環(huán)節(jié),為應(yīng)對現(xiàn)有自動化評估覆蓋不全、人工評估效率不高的問題,應(yīng)廣泛聯(lián)合學(xué)術(shù)界以及產(chǎn)業(yè)界力量,建立全方位的自動評估框架,實(shí)現(xiàn)對大規(guī)模新興應(yīng)用風(fēng)險(xiǎn)度量的動態(tài)適應(yīng)性,提升模型安全評估的全面性與有效性。為此,應(yīng)構(gòu)建并維護(hù)“動態(tài)風(fēng)險(xiǎn)評測基準(zhǔn)庫”,建立機(jī)制鼓勵社會各界結(jié)合最新社會動態(tài)持續(xù)更新測試樣本。引入第三方機(jī)構(gòu)開展大模型的獨(dú)立、客觀安全評估與合規(guī)性驗(yàn)證。評估過程要保留可溯源、可復(fù)現(xiàn)、可驗(yàn)證的完整交互記錄,為后續(xù)審查、追責(zé)及模型持續(xù)改進(jìn)提供依據(jù)。建立分級分類評估體系,針對不同風(fēng)險(xiǎn)等級和應(yīng)用領(lǐng)域,設(shè)計(jì)并實(shí)施差異化的評估標(biāo)準(zhǔn)和審查流程,確保評估資源精準(zhǔn)配置,風(fēng)險(xiǎn)管理有效實(shí)施。
在應(yīng)用風(fēng)險(xiǎn)管理環(huán)節(jié),應(yīng)突破現(xiàn)有僅依賴自我聲明的備案技術(shù),建立“模型備案—行為追蹤—風(fēng)險(xiǎn)干預(yù)”的全流程閉環(huán)治理框架。在模型備案方面,鼓勵推廣“監(jiān)管沙盒”,提供一個官方的、隔離的環(huán)境進(jìn)行充分的第三方測試。在行為追蹤方面,推動發(fā)展“風(fēng)險(xiǎn)內(nèi)容識別+生成模型溯源”的行為追蹤技術(shù),精準(zhǔn)檢測網(wǎng)絡(luò)空間中的風(fēng)險(xiǎn)內(nèi)容以及易感人群,通過大模型溯源快速定位風(fēng)險(xiǎn)來源,為后續(xù)干預(yù)提供靶向目標(biāo)。在風(fēng)險(xiǎn)干預(yù)方面,針對網(wǎng)絡(luò)風(fēng)險(xiǎn)的潛在影響,通過大模型生成風(fēng)險(xiǎn)對抗內(nèi)容,主動降低風(fēng)險(xiǎn)危害影響等級。此外,重點(diǎn)關(guān)注智能體在網(wǎng)絡(luò)空間中的行為風(fēng)險(xiǎn),建立統(tǒng)一的模型行為日志與調(diào)用記錄標(biāo)準(zhǔn),確保工具調(diào)用、外部交互及決策鏈條全流程留痕、可溯源、可追責(zé),增強(qiáng)智能體系統(tǒng)的透明度與可監(jiān)管性。
【注釋】
①杜夢瑤、李清明、張淼等:《面向隱私保護(hù)的用戶評論基準(zhǔn)數(shù)據(jù)集構(gòu)建與大模型推理能力評估》,《計(jì)算機(jī)學(xué)報(bào)》,2025年第7期。
②劉澤垣、王鵬江、宋曉斌等:《大語言模型的幻覺問題研究綜述》,《軟件學(xué)報(bào)》,2025年第3期。
③Bang Y, Ji Z, Schelten A, et al. HalluLens: LLM Hallucination Benchmark[C]//Proceedings of the 63rd Annual Meeting of the Association for Computational Linguistics, 2025: 24128-24156.
④Li M, Li X, Chen Y, et al. Unraveling and Mitigating Retriever Inconsistencies in Retrieval-Augmented Large Language Models[C]//Findings of the Association for Computational Linguistics ACL 2024. 2024: 4833-4850.
⑤Xu W, Zhu G, Zhao X, et al. Pride and Prejudice: LLM Amplifies Self-Bias in Self-Refinement[C]//Proceedings of the 62nd Annual Meeting of the Association for Computational Linguistics. 2024: 15474-15492.
責(zé)編/銀冰瑤 美編/王夢雅
聲明:本文為人民論壇雜志社原創(chuàng)內(nèi)容,任何單位或個人轉(zhuǎn)載請回復(fù)本微信號獲得授權(quán),轉(zhuǎn)載時務(wù)必標(biāo)明來源及作者,否則追究法律責(zé)任。
