【
智慧城市網(wǎng) 企業(yè)關(guān)注】在數(shù)字化轉(zhuǎn)型加速的背景下,公共服務(wù)型單位(如政務(wù)、醫(yī)療、教育、金融等)廣泛應(yīng)用大模型技術(shù)以提升服務(wù)效率與質(zhì)量。然而,大模型在社會(huì)意識(shí)形態(tài)、個(gè)人隱私、模型幻覺(jué)、倫理等方面存在潛在威脅,如生成內(nèi)容違反社會(huì)主義核心價(jià)值觀、泄露用戶隱私、輸出錯(cuò)誤信息或歧視性內(nèi)容等。
為響應(yīng)《生成式人工智能服務(wù)管理暫行辦法》等法規(guī)要求,保障公共服務(wù)的安全性、合規(guī)性與可靠性,特制定本解決方案,基于安恒信息在網(wǎng)絡(luò)安全的核心能力積累,提供覆蓋 “定期檢測(cè)評(píng)估、風(fēng)險(xiǎn)會(huì)話實(shí)時(shí)攔截、審計(jì)分析” 的全鏈路
安全防護(hù)體系。
一、大模型在公共服務(wù)中的四大核心威脅
(一)社會(huì)意識(shí)形態(tài)風(fēng)險(xiǎn)
違規(guī)內(nèi)容生成:大模型可能輸出涉及歷史虛無(wú)主義、政治敏感話題、虛假信息等內(nèi)容,違反社會(huì)主義核心價(jià)值觀,損害公共利益與政府公信力。
價(jià)值觀引導(dǎo)偏差:在教育、政務(wù)咨詢等場(chǎng)景中,模型可能因訓(xùn)練數(shù)據(jù)偏差或算法缺陷,傳遞錯(cuò)誤價(jià)值觀或誤導(dǎo)性信息。
(二)個(gè)人隱私風(fēng)險(xiǎn)
敏感數(shù)據(jù)泄露:訓(xùn)練語(yǔ)料或推理過(guò)程中可能包含用戶隱私(如醫(yī)療記錄、身份信息、金融數(shù)據(jù)),存在數(shù)據(jù)泄露或?yàn)E用風(fēng)險(xiǎn)。
隱私信息生成:用戶交互中,模型可能不當(dāng)輸出或推斷用戶隱私,違反《個(gè)人信息保護(hù)法》等法規(guī)。
(三)模型幻覺(jué)風(fēng)險(xiǎn)
知識(shí)錯(cuò)誤與信息失真:模型在回答專業(yè)領(lǐng)域問(wèn)題(如醫(yī)療診斷、政策解讀)時(shí),可能因 “幻覺(jué)” 生成無(wú)依據(jù)或錯(cuò)誤內(nèi)容,導(dǎo)致決策失誤或服務(wù)質(zhì)量下降。
邏輯漏洞與異常應(yīng)答:面對(duì)復(fù)雜場(chǎng)景或?qū)剐暂斎霑r(shí),模型可能出現(xiàn)邏輯混亂,輸出不合理或有害內(nèi)容。
(四)倫理風(fēng)險(xiǎn)
歧視性內(nèi)容:訓(xùn)練數(shù)據(jù)中的偏見(jiàn)可能導(dǎo)致模型生成歧視性言論(如性別、種族、地域歧視),違反公平原則。
惡意誘導(dǎo)與濫用:攻擊者通過(guò)提示詞注入、角色扮演等手段,誘導(dǎo)模型生成惡意代碼、欺詐信息或違反倫理的內(nèi)容。
二、三位一體防護(hù)體系
采用“模型上線前/周期檢測(cè) - 服務(wù)運(yùn)營(yíng)階段的事中攔截 - 安全風(fēng)險(xiǎn)事后審計(jì)”三位一體的安全防護(hù)體系,覆蓋大模型全生命周期(開(kāi)發(fā)、訓(xùn)練、部署、運(yùn)行),重點(diǎn)強(qiáng)化內(nèi)容安全、數(shù)據(jù)安全、模型魯棒性與合規(guī)性管理。
(一)定期檢測(cè)評(píng)估
1. 內(nèi)容安全合規(guī)檢測(cè)
首先要完成意識(shí)形態(tài)與倫理檢測(cè),要依據(jù)《生成式人工智能服務(wù)安全基本要求》《社會(huì)主義核心價(jià)值觀關(guān)鍵詞庫(kù)》要求,按照 31 項(xiàng)細(xì)分風(fēng)險(xiǎn)(如政治敏感、歧視性內(nèi)容、商業(yè)違規(guī)等)結(jié)合提示詞工程與 RAG 知識(shí)庫(kù)技術(shù),模擬真實(shí)場(chǎng)景提問(wèn),檢測(cè)模型輸出是否符合法規(guī)與倫理要求。
2. 語(yǔ)料安全與隱私保護(hù)
敏感數(shù)據(jù)識(shí)別:對(duì)結(jié)構(gòu)/非結(jié)構(gòu)化文檔檢測(cè)(如病歷、合同、政務(wù)文件),通過(guò) OCR、NLP 技術(shù)提取文本,結(jié)合正則表達(dá)式與實(shí)體識(shí)別,發(fā)現(xiàn)個(gè)人信息(身份證號(hào)、手機(jī)號(hào))、商業(yè)機(jī)密或隱私數(shù)據(jù),防止訓(xùn)練數(shù)據(jù)違規(guī)采集與泄露。
數(shù)據(jù)合規(guī)性評(píng)估:檢測(cè)語(yǔ)料來(lái)源合法性、去標(biāo)識(shí)化處理是否合規(guī),確保符合《數(shù)據(jù)安全法》《個(gè)人信息保護(hù)法》要求。
3. 模型自身安全檢測(cè)
魯棒性與對(duì)抗攻擊測(cè)試:模擬豐富對(duì)抗性攻擊(如指令忽略、token 混淆、角色偽裝),驗(yàn)證模型抗干擾能力,檢測(cè)是否存在提示詞注入漏洞或異常應(yīng)答;通過(guò)參數(shù)擾動(dòng)測(cè)試,評(píng)估模型在輸入噪聲下的穩(wěn)定性。
漏洞掃描與資產(chǎn)測(cè)繪:對(duì)大模型基礎(chǔ)設(shè)施(
服務(wù)器、API 接口、數(shù)據(jù)庫(kù))進(jìn)行資產(chǎn)探測(cè),識(shí)別弱口令、Web 漏洞(SQL 注入、XSS)、數(shù)據(jù)庫(kù)安全配置風(fēng)險(xiǎn),生成《安全評(píng)估報(bào)告》,明確風(fēng)險(xiǎn)等級(jí)與修復(fù)建議。
4. 檢測(cè)周期與流程
周期性檢測(cè):根據(jù)企業(yè)風(fēng)險(xiǎn)等級(jí),制定季度 / 半年度檢測(cè)計(jì)劃,覆蓋全量模型與核心業(yè)務(wù)場(chǎng)景;支持自定義檢測(cè)策略,適配不同行業(yè)需求(如醫(yī)療行業(yè)強(qiáng)化隱私檢測(cè),政務(wù)行業(yè)側(cè)重意識(shí)形態(tài)合規(guī))。
自動(dòng)化報(bào)告生成:檢測(cè)完成后自動(dòng)輸出多維度報(bào)告,包含內(nèi)容合規(guī)性評(píng)分、隱私風(fēng)險(xiǎn)點(diǎn)、模型漏洞列表、整改方案,滿足監(jiān)管備案與內(nèi)部審計(jì)要求。

(二)風(fēng)險(xiǎn)會(huì)話實(shí)時(shí)攔截系統(tǒng)
1. 實(shí)時(shí)監(jiān)控與動(dòng)態(tài)過(guò)濾
在線流量監(jiān)測(cè):
通過(guò) API 接入大模型服務(wù),實(shí)時(shí)捕獲用戶輸入與模型輸出,基于內(nèi)置詞庫(kù)與 AI 判定引擎(如安恒 “恒腦” 大模型),識(shí)別違規(guī)內(nèi)容(如涉政敏感、隱私泄露、歧視性言論)。
三階語(yǔ)義防火墻:
通過(guò)自研的 Embedding 模型識(shí)別隱蔽指令,能夠有效攔截大模型推理過(guò)程中的潛在違規(guī)內(nèi)容,對(duì)輸入和輸出的語(yǔ)義進(jìn)行深度分析和檢測(cè),防止模型被利用進(jìn)行惡意攻擊或生成有害內(nèi)容,強(qiáng)化了模型推理過(guò)程中的安全保障。
自定義內(nèi)容檢測(cè)知識(shí)庫(kù):支持對(duì)知識(shí)庫(kù)自定義錄入,對(duì)垂直領(lǐng)域違規(guī)內(nèi)容通過(guò)錄入自定義知識(shí)庫(kù)提高檢測(cè)率。
消息撤回:支持在部分web聊天頁(yè)面中發(fā)現(xiàn)違規(guī)內(nèi)容后進(jìn)行消息撤回。
隱私信息檢測(cè)脫敏:支持在開(kāi)啟模型推理的情況下檢測(cè)聊天內(nèi)容中的隱私信息并脫敏。
URL檢測(cè):支持檢測(cè)聊天內(nèi)容中的URL是否是惡意域名、黃色網(wǎng)站、暴恐網(wǎng)站。
強(qiáng)制認(rèn)證:對(duì)被代理模型開(kāi)啟強(qiáng)制認(rèn)證,開(kāi)啟后必須通過(guò)AI防火墻訪問(wèn)模型且密鑰為必傳字段。
模型代答:對(duì)違規(guī)內(nèi)容設(shè)定模型答復(fù)機(jī)制,自定義回復(fù)內(nèi)容。
2. 對(duì)抗性攻擊防御
動(dòng)態(tài)提示詞過(guò)濾:基于智能化測(cè)試用例變形技術(shù),實(shí)時(shí)識(shí)別變異攻擊指令(如通過(guò)諧音、語(yǔ)義混淆繞過(guò)檢測(cè)),結(jié)合上下文分析判斷意圖,防止模型被誘導(dǎo)生成違規(guī)內(nèi)容。
抗DDoS :支持對(duì)后端模型進(jìn)行頻率控制,有效降低模型負(fù)載,保證模型運(yùn)行穩(wěn)定性。
(三)審計(jì)分析與溯源體系
1. 全鏈路日志記錄
記錄模型調(diào)用、檢測(cè)任務(wù)、策略配置、攔截事件等操作,包含時(shí)間、用戶、IP、風(fēng)險(xiǎn)等級(jí)等信息,支持日志檢索與導(dǎo)出。
內(nèi)容日志:加密存儲(chǔ)違規(guī)會(huì)話的輸入輸出內(nèi)容,用于事后審計(jì)與責(zé)任追溯,滿足《生成式人工智能服務(wù)管理暫行辦法》對(duì) “服務(wù)日志保存期限” 的要求。
2.異步掃描與追溯
支持在空閑時(shí)段利用硬件資源對(duì)歷史記錄進(jìn)行推理掃描。這不僅降低了資源占用,還能夠?qū)崿F(xiàn)事后追溯審計(jì),及時(shí)發(fā)現(xiàn)并告警違規(guī)行為。
例如,可以在夜間等空閑時(shí)段對(duì)當(dāng)天的輸入輸出內(nèi)容進(jìn)行掃描,發(fā)現(xiàn)違規(guī)行為后及時(shí)記錄并告警,確保安全事件能夠得到及時(shí)處理。這種異步掃描機(jī)制能夠在不影響正常業(yè)務(wù)運(yùn)行的情況下,充分利用系統(tǒng)資源,提高安全檢測(cè)的效率和覆蓋率。
三、典型場(chǎng)景
政務(wù)智能客服:實(shí)時(shí)攔截“政策曲解”類提問(wèn),月度掃描修復(fù)API越權(quán)漏洞。
醫(yī)療咨詢平臺(tái):脫敏患者病歷信息,防止生成誤導(dǎo)性診斷建議。
教育知識(shí)庫(kù):過(guò)濾歷史類問(wèn)答中的錯(cuò)誤表述,確保內(nèi)容符合主流價(jià)值觀。
四、案例實(shí)證
某市政務(wù)AI從風(fēng)險(xiǎn)暴露到安全閉環(huán)的升級(jí)路徑
(一)背景
某市政數(shù)局上線智能客服系統(tǒng),用于解答市民關(guān)于全區(qū)各類政策、服務(wù)事項(xiàng)、政務(wù)動(dòng)態(tài)等信息。系統(tǒng)上線初期,出現(xiàn)以下問(wèn)題:
政策解讀偏差:模型誤將“異地醫(yī)保報(bào)銷比例”錯(cuò)誤關(guān)聯(lián)至過(guò)時(shí)政策文件。
敏感信息泄露:用戶提問(wèn)中含身份證時(shí),回復(fù)中未脫敏顯示完整號(hào)碼。
違規(guī)內(nèi)容風(fēng)險(xiǎn):惡意用戶通過(guò)“如何偽造居住證明”等誘導(dǎo)性問(wèn)題,試圖觸發(fā)模型生成違規(guī)操作。
(二)解決方案實(shí)施
1.上線前全面風(fēng)險(xiǎn)評(píng)估
底層系統(tǒng)及中間件漏洞檢測(cè):25年初對(duì)接Deepseek版本后,對(duì)底層算力平臺(tái)、服務(wù)平臺(tái)等操作系統(tǒng)完成漏洞檢測(cè),并對(duì)Olama組件新爆發(fā)漏洞完成全面排查,同時(shí)提供風(fēng)險(xiǎn)修復(fù)建議。
輸出內(nèi)容合規(guī)性全面評(píng)估:圍繞TC260 5大類31項(xiàng)分類通過(guò)主動(dòng)探測(cè)方式完成全面輸出內(nèi)容評(píng)估,發(fā)現(xiàn)風(fēng)險(xiǎn)問(wèn)題30余項(xiàng),輔助完成多輪專項(xiàng)提升后,保障應(yīng)用順利上線。
周期性安全檢測(cè):執(zhí)行每周一次安全排查,主要針對(duì)智能客服API“未授權(quán)訪問(wèn)”漏洞、最新大模型組件漏洞、新輿情內(nèi)容風(fēng)險(xiǎn)進(jìn)行檢測(cè)。
2.運(yùn)行階段實(shí)時(shí)防護(hù)
輸出、輸出安全防護(hù):
敏感詞攔截:內(nèi)置“偽造”“虛假”等關(guān)鍵詞,實(shí)時(shí)攔截誘導(dǎo)性提問(wèn)(如“如何偽造居住證明”)。
語(yǔ)義分析:檢測(cè)政策類問(wèn)題時(shí),自動(dòng)關(guān)聯(lián)最新政策庫(kù)(如2024年醫(yī)保新規(guī)),避免過(guò)時(shí)信息輸出。
語(yǔ)料安全防護(hù):
輸入脫敏:識(shí)別用戶提問(wèn)中的身份證號(hào)(如“440***5678”),輸出時(shí)僅顯示部分字段。
輸出校驗(yàn):對(duì)模型回復(fù)進(jìn)行二次合規(guī)檢查,確保不包含未脫敏隱私信息。
3.日常運(yùn)維審計(jì)與優(yōu)化
通過(guò)異步掃描發(fā)現(xiàn)某IP高頻提交“醫(yī)保套現(xiàn)”類敏感問(wèn)題,定位為惡意爬蟲(chóng)攻擊。聯(lián)動(dòng)處置手段是將該IP加入黑名單,并啟用防暴力破解策略。
(三)實(shí)施成效
服務(wù)準(zhǔn)確性增強(qiáng):政策類問(wèn)題回復(fù)準(zhǔn)確率從72%提升至95%以上。
風(fēng)險(xiǎn)攔截率提升:實(shí)時(shí)攔截惡意提問(wèn)與違規(guī)回復(fù),內(nèi)容安全事故減少90%。
合規(guī)成本降低:自動(dòng)化報(bào)告生成節(jié)省日常運(yùn)維80%人工審核時(shí)間。
(四)案例總結(jié)
通過(guò)安恒信息大模型安全整體解決方案,該政務(wù)智能客服系統(tǒng)實(shí)現(xiàn)了“智能,更安全”理念,在保障內(nèi)容安全與隱私合規(guī)的同時(shí),顯著提升了公共服務(wù)質(zhì)量,為其他公共服務(wù)型企業(yè)的大模型安全建設(shè)提供了標(biāo)桿參考。