【摘要】隨著智能技術(shù)的不斷發(fā)展，大模型日益成為網(wǎng)絡(luò)空間的新型基礎(chǔ)設(shè)施，其生成內(nèi)容借助互聯(lián)網(wǎng)快速傳播，對個人、社會乃至國家治理帶來潛在安全風(fēng)險(xiǎn)。這些安全風(fēng)險(xiǎn)深嵌于大模型“數(shù)據(jù)—訓(xùn)練—評估—應(yīng)用”的全生命周期，無法依賴單一環(huán)節(jié)或技術(shù)的突破完全解決。推動大模型健康發(fā)展，應(yīng)從數(shù)據(jù)源頭安全、模型訓(xùn)練規(guī)范、動態(tài)風(fēng)險(xiǎn)評估、應(yīng)用治理閉環(huán)四個方面著手，健全法規(guī)標(biāo)準(zhǔn)與敏捷治理體系，構(gòu)建貫穿大模型全生命周期的立體化、多層次、自適應(yīng)的綜合治理框架。

【關(guān)鍵詞】大模型網(wǎng)絡(luò)空間安全風(fēng)險(xiǎn) 安全治理

【中圖分類號】TP18 【文獻(xiàn)標(biāo)識碼】A

近年來，大模型憑借其卓越的語言理解與生成能力，正在重塑自然語言處理的研究范式，并成為人工智能領(lǐng)域最前沿方向之一。然而，隨著大模型在科研、商業(yè)和公共服務(wù)等場景的廣泛應(yīng)用，其對個人、社會乃至國家治理帶來潛在安全風(fēng)險(xiǎn)。大模型所引發(fā)的安全問題，不是來源于單一維度的技術(shù)挑戰(zhàn)，而是深嵌于“數(shù)據(jù)—訓(xùn)練—評估—應(yīng)用”的全鏈路、多層次的系統(tǒng)性風(fēng)險(xiǎn)，貫穿于大模型從開發(fā)到落地的全過程。

數(shù)據(jù)污染：偏見、虛假與隱私泄露的系統(tǒng)性源頭

數(shù)據(jù)風(fēng)險(xiǎn)是大模型最根本的安全挑戰(zhàn)。大模型的生成能力，來源于對海量文本數(shù)據(jù)的深度學(xué)習(xí)和模式抽取，其內(nèi)容并非憑空“生成”，而是建立在對既有數(shù)據(jù)的系統(tǒng)性模仿與歸納之上。為提升語言理解與生成效果，模型訓(xùn)練廣泛依賴互聯(lián)網(wǎng)公開語料。然而，由于互聯(lián)網(wǎng)內(nèi)容生產(chǎn)門檻低、規(guī)范性較差，訓(xùn)練數(shù)據(jù)中不可避免地混入偏見、虛假以及敏感信息，埋下諸多風(fēng)險(xiǎn)隱患。首先，由于互聯(lián)網(wǎng)文本生產(chǎn)門檻低、內(nèi)容缺乏統(tǒng)一審核標(biāo)準(zhǔn)，訓(xùn)練數(shù)據(jù)中存在較多偏見信息。這些偏見可能在訓(xùn)練過程中被模型捕捉并固化，導(dǎo)致生成內(nèi)容出現(xiàn)有害言論，損害社會公正，甚至激化社會矛盾。其次，訓(xùn)練數(shù)據(jù)中混雜著大量偽科學(xué)觀點(diǎn)、誤導(dǎo)性說法等虛假或未經(jīng)驗(yàn)證的信息，易導(dǎo)致模型生成包含錯誤信息的內(nèi)容，影響用戶判斷，干擾正常的信息傳播環(huán)境。再次，訓(xùn)練數(shù)據(jù)中可能包含未脫敏的個人信息、企業(yè)資料甚至涉密內(nèi)容，若被模型“記憶”并輸出，容易造成隱私泄露或信息外泄等問題①。敏感信息的“記憶”和泄露，不僅嚴(yán)重威脅個人隱私安全，觸及法律和倫理底線，而且可能損害企業(yè)競爭力與國家利益，甚至引發(fā)更廣泛的安全風(fēng)險(xiǎn)。

當(dāng)前，降低大模型的數(shù)據(jù)風(fēng)險(xiǎn)，主要通過兩種方式：在數(shù)據(jù)層面，對訓(xùn)練數(shù)據(jù)進(jìn)行清理和篩選；在模型輸出層面，引導(dǎo)其輸出更符合人類價(jià)值觀和社會規(guī)范的內(nèi)容。數(shù)據(jù)清理是大模型訓(xùn)練中最基礎(chǔ)且常用的治理手段，旨在訓(xùn)練前剔除帶有偏見、虛假、敏感或低質(zhì)量的樣本，從源頭上提升模型輸出的安全性與可靠性。常用的方法包括基于規(guī)則的清理手段，如模板匹配和正則表達(dá)式，自動剔除身份證號、家庭住址等隱私信息；基于統(tǒng)計(jì)特征的方法，如利用關(guān)鍵詞共現(xiàn)頻率，識別帶有刻板印象的表達(dá)；應(yīng)用訓(xùn)練好的分類模型，過濾謠言、煽動性言論等內(nèi)容。然而，語言是高度復(fù)雜和動態(tài)演化的，不良內(nèi)容和仇恨言論的表達(dá)形式也在持續(xù)演進(jìn)，現(xiàn)有的數(shù)據(jù)清洗方法顯得較為“脆弱”。如果采用過于嚴(yán)格的清洗規(guī)則，極易造成過度過濾，可能會剔除部分正常討論、有價(jià)值的異見言論、特定社群的獨(dú)特表達(dá)方式等。這不僅會削弱訓(xùn)練數(shù)據(jù)的多樣性與代表性，損害模型在不同文化與語境下的泛化能力，而且可能引入新的偏見，形成“二次傷害”。基于數(shù)據(jù)清洗的治理策略本質(zhì)上是一種基于“負(fù)面清單”的被動防御，它并不能主動教會模型何為“善”或何為“正當(dāng)表達(dá)”，只能通過排除已知的“惡”來進(jìn)行消極規(guī)避。

數(shù)據(jù)層面固有的安全風(fēng)險(xiǎn)，難以完全通過傳統(tǒng)清洗手段消除，需借助對齊技術(shù)（Alignment）進(jìn)一步強(qiáng)化風(fēng)險(xiǎn)緩解能力。其核心在于規(guī)范與約束大模型的輸出行為，確保模型生成內(nèi)容符合人類價(jià)值觀、社會規(guī)范以及實(shí)際應(yīng)用的安全與倫理要求。目前，業(yè)界普遍采用人類反饋強(qiáng)化學(xué)習(xí)（RLHF）作為主流對齊技術(shù)。該方法通過收集并利用人類的偏好反饋，訓(xùn)練模型模仿人類的價(jià)值判斷，從而有效規(guī)范大模型的輸出行為，促使其生成更符合安全與倫理標(biāo)準(zhǔn)的內(nèi)容。這一對齊機(jī)制雖能從行為層面緩解因訓(xùn)練數(shù)據(jù)引發(fā)的安全風(fēng)險(xiǎn)，提升模型輸出的整體安全性和可靠性，但其本質(zhì)仍為一種表層引導(dǎo)，僅實(shí)現(xiàn)淺層對齊。用戶一旦使用更加隱蔽、迂回或具有欺騙性的方式重新表述同一請求，可能會繞過模型表層的安全防線，使其輸出內(nèi)部尚未清除的有害知識與敏感信息。

訓(xùn)練范式缺陷：統(tǒng)計(jì)預(yù)測范式下的認(rèn)知盲區(qū)

大模型的安全風(fēng)險(xiǎn)不僅來自數(shù)據(jù)本身，而且與其訓(xùn)練方式有關(guān)。它的訓(xùn)練目標(biāo)是學(xué)會根據(jù)已有的前文，預(yù)測下一個最有可能出現(xiàn)的詞或字。換句話說，模型并不能真正理解句子的含義或知識，而是通過統(tǒng)計(jì)大量文本中詞語出現(xiàn)的規(guī)律，選擇最符合上下文的詞語，拼湊出看起來流暢自然的句子。這種缺陷可能導(dǎo)致模型生成看似流暢合理、言之鑿鑿，但實(shí)際上完全錯誤或憑空捏造的信息，也就是所謂的“幻覺”問題②。“幻覺”具有多種表現(xiàn)形式，如捏造不存在的人物、事件、論文，“張冠李戴”等。香港科技大學(xué)的一項(xiàng)研究顯示，無論是開源還是商用大模型，普遍存在幻覺風(fēng)險(xiǎn)，平均幻覺率高達(dá)59%③。“幻覺”問題不僅會影響模型輸出的可靠性，而且可能造成一系列安全風(fēng)險(xiǎn)，誤導(dǎo)用戶決策、傳播虛假信息，甚至被部署在現(xiàn)實(shí)系統(tǒng)中引發(fā)鏈?zhǔn)斤L(fēng)險(xiǎn)。

檢索增強(qiáng)生成方法（RAG）是當(dāng)前應(yīng)對大模型“幻覺”問題的主要技術(shù)手段。其核心理念是將“純粹基于模型生成”的語言模型，轉(zhuǎn)變?yōu)?ldquo;由外部知識輔助”的生成框架，使模型依賴可溯源的知識來回答問題，而非僅憑訓(xùn)練記憶中的統(tǒng)計(jì)模式。具體做法是利用外部知識檢索器，將大模型的生成過程與事實(shí)性信息源（如知識圖譜、數(shù)據(jù)庫）結(jié)合，從而提升輸出內(nèi)容的真實(shí)性和可驗(yàn)證性，減少虛假信息的產(chǎn)生。集成RAG的模型在生成回答前，會先對用戶問題進(jìn)行檢索，從外部知識庫中提取若干相關(guān)文本片段，作為輔助信息與原始問題一同輸入模型，指導(dǎo)其生成更貼近事實(shí)、可追溯的答案。目前，騰訊、字節(jié)跳動、深度求索等多家大模型廠商已在系統(tǒng)中集成“聯(lián)網(wǎng)搜索”或“實(shí)時檢索”功能，以緩解“幻覺”問題，提高輸出準(zhǔn)確性和可追溯性。盡管檢索增強(qiáng)生成方法在減輕“幻覺”現(xiàn)象上已取得一定成效，但仍存在顯著局限性。其效果高度依賴檢索模塊的質(zhì)量，而現(xiàn)有檢索系統(tǒng)常面臨召回不全、語義偏移、信息冗余等問題，導(dǎo)致模型可能基于無關(guān)或片面信息生成回答。哈爾濱工業(yè)大學(xué)的一項(xiàng)研究發(fā)現(xiàn)，當(dāng)檢索模塊返回?zé)o關(guān)文檔時，模型容易偏離問題核心，輸出事實(shí)錯誤的內(nèi)容④。此外，由于大模型生成過程缺乏明確的可解釋機(jī)制，用戶難以判斷回答是否真實(shí)依據(jù)檢索信息。

評估方法失焦：自動化評估不全面與人工評估不高效的雙重困局

科學(xué)、客觀、全面的評估是識別模型風(fēng)險(xiǎn)、指導(dǎo)技術(shù)優(yōu)化、建立社會信任、支撐有效監(jiān)管的基石。傳統(tǒng)生成結(jié)果的評估方法多基于構(gòu)建靜態(tài)評估數(shù)據(jù)集，通過BLEU、ROUGE等傳統(tǒng)的自然語言處理評價(jià)指標(biāo)，計(jì)算模型生成結(jié)果與人類撰寫的“黃金標(biāo)準(zhǔn)”參考答案之間的匹配度。這種方式不以降低生成文本中的有害信息為目標(biāo)，導(dǎo)致與用戶對模型有用性、安全性的真實(shí)感知之間存在偏差。例如，經(jīng)過指令微調(diào)和“人類反饋強(qiáng)化學(xué)習(xí)”對齊后的聊天模型（如Vicuna），盡管在真實(shí)對話中遠(yuǎn)比其原始基礎(chǔ)模型（如LLaMA）更受用戶青睞，但在傳統(tǒng)基準(zhǔn)測試上的得分卻并未相應(yīng)提高。有時甚至?xí)驗(yàn)榛卮鸶啙?、更注重安全而?dǎo)致匹配度下降，分?jǐn)?shù)反而更低。這種評估與現(xiàn)實(shí)的偏差，導(dǎo)致開發(fā)者可能會過度優(yōu)化模型在這些傳統(tǒng)基準(zhǔn)上的分?jǐn)?shù)，而忽視模型在真實(shí)世界中的安全性和實(shí)用性。

目前，學(xué)術(shù)界提出一種名為“LLM-as-a-Judge”的新評估范式，即使用一個強(qiáng)大的語言模型（如GPT-4）作為“代理裁判”，自動化評估其他模型的輸出質(zhì)量。相較于傳統(tǒng)的自動化評估指標(biāo)（如BLEU），大模型能夠更有效地捕捉文本中的隱含語義與價(jià)值傾向，進(jìn)而在模擬人類評估行為、識別生成內(nèi)容中的安全隱患方面，表現(xiàn)出更高的靈活性和一致性。然而，使用一個模型去評判另一個模型，其結(jié)果在很大程度上只是衡量被測模型與“裁判”模型的觀點(diǎn)、風(fēng)格和價(jià)值觀的“相似度”，而非一個絕對的“質(zhì)量”或“安全”分?jǐn)?shù)⑤。這種方式可能促使大語言模型的研究盲目追求與巨頭模型價(jià)值觀的“對齊”，固化為整個行業(yè)的優(yōu)化目標(biāo)，最終導(dǎo)致“評估霸權(quán)”，扼殺技術(shù)路線和價(jià)值取向的多樣性，威脅整個領(lǐng)域的健康。

為彌補(bǔ)自動評估方式不足，業(yè)內(nèi)通常采用人工評估，包括眾包評估和紅隊(duì)測試。眾包評估是指開發(fā)者通過眾包平臺招募評估員，從主觀維度評估模型輸出的有用性、無害性與誠實(shí)性。但該方法普遍存在兩類問題：一是評估員專業(yè)能力不足，導(dǎo)致判斷失準(zhǔn)；二是不同評估者難以達(dá)成高一致性，評估結(jié)果缺乏可重復(fù)性。紅隊(duì)測試方法是指模型開發(fā)方聯(lián)合語言學(xué)、網(wǎng)絡(luò)安全等領(lǐng)域的外部專家，組建多元背景的紅隊(duì)團(tuán)隊(duì)，對模型在提示注入、工具濫用、隱私泄露等高風(fēng)險(xiǎn)場景下的表現(xiàn)進(jìn)行系統(tǒng)化驗(yàn)證。該方法在識別已知風(fēng)險(xiǎn)方面具有一定效果，已成為主流大模型服務(wù)商（如OpenAI）的重要補(bǔ)充機(jī)制。但紅隊(duì)測試本質(zhì)上仍是一種人工主導(dǎo)、非窮盡性的評估方式，僅能驗(yàn)證預(yù)設(shè)漏洞是否存在，難以覆蓋開放環(huán)境中不斷演化的新型風(fēng)險(xiǎn)。在面對快速變化的攻擊方式時，存在響應(yīng)滯后與覆蓋盲區(qū)等問題，難以形成前瞻性、動態(tài)性的風(fēng)險(xiǎn)識別體系。此外，無論是眾包評估還是紅隊(duì)測試，人工評估始終難以規(guī)模化，無法高效地評估大模型在實(shí)際領(lǐng)域大規(guī)模應(yīng)用后持續(xù)動態(tài)暴露的新問題。

應(yīng)用風(fēng)險(xiǎn)升級：從生成模型向智能體的應(yīng)用安全管理

大模型的應(yīng)用風(fēng)險(xiǎn)管理，構(gòu)成了一道關(guān)鍵屏障，用于約束大模型運(yùn)行時的行為，防止其輸出違法、有害或誤導(dǎo)性信息，確保大模型在實(shí)際應(yīng)用中的安全性、合規(guī)性與責(zé)任可追溯性。目前，備案制已成為多國監(jiān)管大模型應(yīng)用安全的主流手段，通過對大模型進(jìn)行合規(guī)審查、備案登記，結(jié)合生成內(nèi)容的數(shù)字水印和溯源技術(shù)，實(shí)現(xiàn)對模型及其輸出文本的監(jiān)督和管理。例如，相關(guān)部門要求大模型服務(wù)提供者提交模型信息備案，確保上線模型滿足安全合規(guī)要求，并鼓勵在生成內(nèi)容中嵌入水印或標(biāo)簽，便于追蹤內(nèi)容來源和責(zé)任歸屬。2023年以來，美國、英國、澳大利亞等國家均發(fā)布人工智能內(nèi)容治理相關(guān)規(guī)范。我國也出臺《互聯(lián)網(wǎng)信息服務(wù)深度合成管理規(guī)定》《生成式人工智能服務(wù)管理暫行辦法》《人工智能生成合成內(nèi)容標(biāo)識辦法》等政策文件，建立起以模型備案和內(nèi)容可追溯為核心的“雙重機(jī)制”，為治理生成內(nèi)容風(fēng)險(xiǎn)提供了重要抓手。然而，備案制主要依賴于服務(wù)提供者的主動申報(bào)，是一種自我聲明和事后處置技術(shù)，存在規(guī)則“空轉(zhuǎn)”與無法落地的風(fēng)險(xiǎn)，難以形成治理閉環(huán)。

此外，大模型正在快速轉(zhuǎn)型為具備感知、規(guī)劃和執(zhí)行能力的智能體（Agent），其風(fēng)險(xiǎn)遠(yuǎn)超單純內(nèi)容生成模型。Agent不僅能夠生成文本，而且能調(diào)用外部工具、自動執(zhí)行復(fù)雜任務(wù)，如郵件發(fā)送、數(shù)據(jù)庫操作、云服務(wù)調(diào)度，甚至能實(shí)現(xiàn)任務(wù)拆解和自主協(xié)同，深度介入物聯(lián)網(wǎng)等關(guān)鍵系統(tǒng)，帶來了越權(quán)執(zhí)行、數(shù)據(jù)泄露、遠(yuǎn)程控制等新型安全威脅，導(dǎo)致關(guān)鍵服務(wù)中斷、隱私泄露乃至物理設(shè)備損害等嚴(yán)重后果。近年來，Agent被非法使用的事件頻發(fā)，暴露出審查機(jī)制的滯后問題。不法分子繞過模型內(nèi)置安全機(jī)制，利用未經(jīng)審查的模型（如Ollama）生成釣魚郵件，甚至通過WormGPT、FraudGPT等專用于網(wǎng)絡(luò)犯罪的大模型，編寫惡意軟件、實(shí)施攻擊、竊取數(shù)據(jù)。這類工具已在暗網(wǎng)中流通，形成完整產(chǎn)業(yè)鏈，推動網(wǎng)絡(luò)犯罪向自動化、工業(yè)化加速演進(jìn)，嚴(yán)重威脅信息安全和社會秩序。因此，傳統(tǒng)以生成內(nèi)容審查為核心的風(fēng)險(xiǎn)管理模式已難以覆蓋Agent“行為能力”帶來的系統(tǒng)性風(fēng)險(xiǎn)。Agent的自主性、動態(tài)執(zhí)行和鏈?zhǔn)讲僮魈攸c(diǎn)，使監(jiān)管對象不再是單條文本，而是復(fù)雜的任務(wù)執(zhí)行鏈及其與外部系統(tǒng)的深度交互。這對安全風(fēng)險(xiǎn)管理提出更高要求。

構(gòu)建貫穿大模型全生命周期的綜合治理框架

推動大模型健康發(fā)展，必須高度警惕貫穿大模型“數(shù)據(jù)—訓(xùn)練—評估—應(yīng)用”全生命周期的安全風(fēng)險(xiǎn)，加強(qiáng)技術(shù)發(fā)展與政策構(gòu)建的深度協(xié)同，從數(shù)據(jù)源頭治理、模型訓(xùn)練規(guī)范、動態(tài)風(fēng)險(xiǎn)度量、應(yīng)用治理閉環(huán)四個方面著手，構(gòu)建立體化、多層次、自適應(yīng)的綜合治理框架。

在數(shù)據(jù)環(huán)節(jié)，堅(jiān)持從末端管控向源頭治理轉(zhuǎn)型，避免過度依賴訓(xùn)練數(shù)據(jù)清理和表層行為限制等被動式風(fēng)險(xiǎn)遏制手段，將監(jiān)管資源與政策重點(diǎn)前移，貫穿數(shù)據(jù)的采集、加工、流通與管理各環(huán)節(jié)，著力構(gòu)建安全、合規(guī)、高質(zhì)量的可信數(shù)據(jù)基礎(chǔ)?？紤]到大模型預(yù)訓(xùn)練語料廣泛來源于互聯(lián)網(wǎng)，根本之策在于加強(qiáng)網(wǎng)絡(luò)信息內(nèi)容生態(tài)治理。一方面，落實(shí)平臺主體責(zé)任，建立健全覆蓋內(nèi)容審核、應(yīng)急處置、正向引導(dǎo)等方面的監(jiān)管機(jī)制，形成全鏈條、閉環(huán)式管理體系。另一方面，針對數(shù)據(jù)提供商出售的數(shù)據(jù)，以及大模型廠商所使用訓(xùn)練數(shù)據(jù)，實(shí)施常態(tài)化隨機(jī)抽檢與質(zhì)量評估機(jī)制，由主管部門牽頭，統(tǒng)籌技術(shù)專家、行業(yè)組織和科研機(jī)構(gòu)等多方力量，定期發(fā)布不符合法律法規(guī)及標(biāo)準(zhǔn)要求的數(shù)據(jù)源“黑名單”，并制定明確的指導(dǎo)原則，引導(dǎo)企業(yè)優(yōu)先采用高價(jià)值、強(qiáng)合規(guī)的訓(xùn)練數(shù)據(jù)。推行數(shù)據(jù)血緣追溯體系，協(xié)助大模型廠商構(gòu)建可追溯、可審查的數(shù)據(jù)溯源鏈，滿足法律法規(guī)和行業(yè)標(biāo)準(zhǔn)的審查要求，確保數(shù)據(jù)來源可查、質(zhì)量全程可控、責(zé)任清晰可溯。

在模型訓(xùn)練環(huán)節(jié)，正視當(dāng)前生成式人工智能的技術(shù)局限性，從技術(shù)研發(fā)與訓(xùn)練過程規(guī)范化兩方面著手，推動技術(shù)創(chuàng)新與制度保障有機(jī)融合。在技術(shù)研發(fā)方面，應(yīng)加強(qiáng)對前沿訓(xùn)練范式的戰(zhàn)略引導(dǎo)和必要投入，重點(diǎn)突破現(xiàn)有生成式人工智能訓(xùn)練范式可信度低等關(guān)鍵技術(shù)瓶頸，引導(dǎo)模型由“黑箱生成”向“透明決策”轉(zhuǎn)變，為國家重大技術(shù)創(chuàng)新和下一代可信人工智能的構(gòu)建提供支撐。在訓(xùn)練過程規(guī)范化方面，由政府推動標(biāo)準(zhǔn)制定，引導(dǎo)行業(yè)制定覆蓋全流程的訓(xùn)練規(guī)范體系，對關(guān)鍵訓(xùn)練環(huán)節(jié)提出明確要求，使大模型研發(fā)過程安全可控。同步建立訓(xùn)練過程信息披露制度，明確發(fā)布模型前必須公開關(guān)鍵訓(xùn)練指標(biāo)和安全評估結(jié)果，強(qiáng)化外部監(jiān)督與行業(yè)約束，推動大模型訓(xùn)練活動在安全可靠的軌道上規(guī)范運(yùn)行。

在模型評估環(huán)節(jié)，為應(yīng)對現(xiàn)有自動化評估覆蓋不全、人工評估效率不高的問題，應(yīng)廣泛聯(lián)合學(xué)術(shù)界以及產(chǎn)業(yè)界力量，建立全方位的自動評估框架，實(shí)現(xiàn)對大規(guī)模新興應(yīng)用風(fēng)險(xiǎn)度量的動態(tài)適應(yīng)性，提升模型安全評估的全面性與有效性。為此，應(yīng)構(gòu)建并維護(hù)“動態(tài)風(fēng)險(xiǎn)評測基準(zhǔn)庫”，建立機(jī)制鼓勵社會各界結(jié)合最新社會動態(tài)持續(xù)更新測試樣本。引入第三方機(jī)構(gòu)開展大模型的獨(dú)立、客觀安全評估與合規(guī)性驗(yàn)證。評估過程要保留可溯源、可復(fù)現(xiàn)、可驗(yàn)證的完整交互記錄，為后續(xù)審查、追責(zé)及模型持續(xù)改進(jìn)提供依據(jù)。建立分級分類評估體系，針對不同風(fēng)險(xiǎn)等級和應(yīng)用領(lǐng)域，設(shè)計(jì)并實(shí)施差異化的評估標(biāo)準(zhǔn)和審查流程，確保評估資源精準(zhǔn)配置，風(fēng)險(xiǎn)管理有效實(shí)施。

在應(yīng)用風(fēng)險(xiǎn)管理環(huán)節(jié)，應(yīng)突破現(xiàn)有僅依賴自我聲明的備案技術(shù)，建立“模型備案—行為追蹤—風(fēng)險(xiǎn)干預(yù)”的全流程閉環(huán)治理框架。在模型備案方面，鼓勵推廣“監(jiān)管沙盒”，提供一個官方的、隔離的環(huán)境進(jìn)行充分的第三方測試。在行為追蹤方面，推動發(fā)展“風(fēng)險(xiǎn)內(nèi)容識別+生成模型溯源”的行為追蹤技術(shù)，精準(zhǔn)檢測網(wǎng)絡(luò)空間中的風(fēng)險(xiǎn)內(nèi)容以及易感人群，通過大模型溯源快速定位風(fēng)險(xiǎn)來源，為后續(xù)干預(yù)提供靶向目標(biāo)。在風(fēng)險(xiǎn)干預(yù)方面，針對網(wǎng)絡(luò)風(fēng)險(xiǎn)的潛在影響，通過大模型生成風(fēng)險(xiǎn)對抗內(nèi)容，主動降低風(fēng)險(xiǎn)危害影響等級。此外，重點(diǎn)關(guān)注智能體在網(wǎng)絡(luò)空間中的行為風(fēng)險(xiǎn)，建立統(tǒng)一的模型行為日志與調(diào)用記錄標(biāo)準(zhǔn)，確保工具調(diào)用、外部交互及決策鏈條全流程留痕、可溯源、可追責(zé)，增強(qiáng)智能體系統(tǒng)的透明度與可監(jiān)管性。

【注釋】

①杜夢瑤、李清明、張淼等：《面向隱私保護(hù)的用戶評論基準(zhǔn)數(shù)據(jù)集構(gòu)建與大模型推理能力評估》，《計(jì)算機(jī)學(xué)報(bào)》，2025年第7期。

②劉澤垣、王鵬江、宋曉斌等：《大語言模型的幻覺問題研究綜述》，《軟件學(xué)報(bào)》，2025年第3期。

③Bang Y, Ji Z, Schelten A, et al. HalluLens: LLM Hallucination Benchmark[C]//Proceedings of the 63rd Annual Meeting of the Association for Computational Linguistics, 2025: 24128-24156.

④Li M, Li X, Chen Y, et al. Unraveling and Mitigating Retriever Inconsistencies in Retrieval-Augmented Large Language Models[C]//Findings of the Association for Computational Linguistics ACL 2024. 2024: 4833-4850.

⑤Xu W, Zhu G, Zhao X, et al. Pride and Prejudice: LLM Amplifies Self-Bias in Self-Refinement[C]//Proceedings of the 62nd Annual Meeting of the Association for Computational Linguistics. 2024: 15474-15492.

責(zé)編/銀冰瑤美編/王夢雅

聲明：本文為人民論壇雜志社原創(chuàng)內(nèi)容，任何單位或個人轉(zhuǎn)載請回復(fù)本微信號獲得授權(quán)，轉(zhuǎn)載時務(wù)必標(biāo)明來源及作者，否則追究法律責(zé)任。

黄色网页在线观看,开放性按摩在线观看,探花国产精品福利,三级特黄60分钟在线播放,一本久道久久综合中文字幕,五月婷婷激情网,久久精品国产精品国产精品污

大模型在網(wǎng)絡(luò)空間中的安全風(fēng)險(xiǎn)與治理對策