一 概述
自2017年Transformer架构诞生,,,,,大模型便踏上了迅猛发展的征程。。。。。从数量来看,,,,,全球大模型创新节拍持续加快。。。。。2023年,,,,,全球基础模型数量较2022年实现翻倍增长。。。。。2024年,,,,,创新活力持续开释,,,,,新增或迭代的基础模型近百个。。。。。据2025年7月世界人为智能大会最新数据显示,,,,,全球已颁布大模型总数达3755个,,,,,其中中国颁布1509个,,,,,位居首位;;;;;;;;7月31日召开的国务院常务会议审议通过《关于深刻施杏装人为智能+”行动的定见》,,,,,提出要深刻施杏装人为智能+”行动,,,,,推动人为智能在经济社会发展各领域加快遍及、深度融合,,,,,形成以创新带利用、以利用促创新的良性循环。。。。。
从技术能力来看,,,,,大模型的技术能力天堑不休拓展。。。。。从最初单一的文本处置,,,,,逐步向多模态领域延长,,,,,如今已能实现文本、图像、音频等跨模态内容的理解和涌现。。。。。目前,,,,,已经出现了一批以大模型为基础、多智能体合作的技术解决规划,,,,,在向通用人为智能急剧演进。。。。。
从产业利用来看,,,,,大模型与传统产业融合速度显著加快。。。。。自2025岁首DeepSeek在全球领域引发热潮以来,,,,,大模型在政务、医疗、互联网、教育等垂直领域落地生根,,,,,不仅沉塑了传统产业的出产模式与服务状态,,,,,更成为数字经济高质量发展的沉要动力。。。。。
然而,,,,,大模型的迅速发展也带来了一系列严格的安全问题,,,,,贯通模型的全性命周期。。。。。在国务院常务会议中,,,,,出格强调要提升安全能力水平,,,,,加快形成动态火速、多元协同的人为智能治理格局。。。。。
二 大模型安全风险分析
随着大模型技术与产业场景的深度融合,,,,,其安全风险已从技术层面延长至业务全链条,,,,,既蕴含内生隐患,,,,,也衍生出对物理世界的直接威胁。。。。。全面梳理这些风险,,,,,并构建系统性防护规划,,,,,成为大模型健全发展的关键。。。。。
从技术层面看,,,,,大模型安全风险首先体此刻技术自身的“先天不及”,,,,,即内生安全问题,,,,,蕴含模型鲁棒性差、算法黑箱个性显著,,,,,加之大模型特有的“幻觉”问题。。。。。在利用过程中,,,,,这些内生安全问题会得以显露,,,,,即衍生安全问题,,,,,蕴含模型误用、滥用导致的虚伪信息泛滥、决策误差等。。。。。这些问题已起头对金融、工业等主题领域的业务陆续性组成威胁——例如工业造作中,,,,,模型决策误差可能沿出产链路放大,,,,,引发连锁反映甚至业务中断。。。。。
从全性命周期看,,,,,安全风险贯通始终。。。。。在模型选型与测试评估阶段,,,,,开源模型易遭投毒、符合场景需要的系统性安全测试评估步骤、测试数据、工具缺失的问题严沉,,,,,传统的基于规定的判断模式难精准衡量大模型的安全问题。。。。。在模型训练/微调阶段,,,,,训练或微调语料若含违法不良信息等敏感数据会传染模型,,,,,不足模型安全对齐机造可能导致模型输出易失控,,,,,这也成为了模型在利用过程中风险的最直接本原。。。。。在上线服务阶段,,,,,模型部署依赖的推理框架等软件环境普遍存在缝隙缺点,,,,,模型鲁棒性差、智能体等上层利用防护不美满,,,,,可能导致数据泄露等严沉风险。。。。。在更新、下线销毁阶段,,,,,缓存数据、一时文件可能滋扰新模型运行,,,,,模型文件、权沉、缓存等信息则需妥善销毁。。。。。只管更新下线阶段风险临时没齐全显露,,,,,但随着技术利用的不休深刻,,,,,会在将来出现涌现实风险。。。。。
与传统信息系统安全相比,,,,,大模型安全的攻防焦点一连了传统安全的主题身分——硬件、数据。。。。。防火墙、数据泄露防护(DLP)等工具经刷新后仍可阐扬作用,,,,,传统的“鉴别-评估-治理-持续改进”的风险治理框架依然合用。。。。。但大模型也带来了新的威胁:如攻击伎俩已实现智能化迭代,,,,,攻击者可通过大模型自动演化攻击模式,,,,,突破传统天堑防护;;;;;;;;业务系统的复杂度提升,,,,,“云边端”一体化架构下,,,,,一次攻击可能导致多个业务系统中断;;;;;;;;防护和应对成本大幅攀升,,,,,据统计,,,,,2023年全球AI网络安全支出为240亿美元,,,,,预计2030年增至1330亿美元。。。。。
此表,,,,,大模型安全风险还出现出多维复杂交错的新态势。。。。。风险载体从传统硬件、数据扩大至模型、智能体等新对象,,,,,数据层面的投毒、匹敌样本有可能造成模型后门植入,,,,,或以至推理决策的沉大谬误。。。。。模型黑箱、幻觉个性导致内容天生过程中的风险不成预感。。。。。智能体因状态多样、和谈不统一、权限节造能力不及,,,,,难以用尺度化伎俩防护。。。。。同时,,,,,在风险检测评估方面,,,,,不足统一的尺度、工具和动态监控步骤。。。。。这些都必要新的治理思路和技术伎俩进行应对。。。。。
三 大模型安全“工具箱”
大模型安全“工具箱”作为一套集玉成流程安全技术产品和工具的综合解决规划,,,,,以“攻-检-防”全流程为主题思路,,,,,覆盖大模型性命周期的重要环节,,,,,形成了涵盖“智鉴”大模型安全检测平台、“智钺”大模型安全自动化仿真验证平台和“智盾”大模型安全加固防护规划的产品服务矩阵,,,,,实现风险“发现-评估-加固-验证”关环机造,,,,,确保大模型在全性命周期的安全性。。。。。
“智鉴”大模型安全检测平台聚焦于大模型基础环境和模型利用过程中输入输出内容的安全检测。。。。。大模型基础环境检测针对大模型研发和部署环节安全问题,,,,,通过代码扫描、缝隙和软件成分,,,,,发现模型环境的安全风险。。。。。模型输入输出内容安全检测沉点针对模型接管和产生的内容,,,,,蕴含有害、贸易或技术敏感信息。。。。。
“智钺”大模型安全自动化仿真验证平台重要用于对大模型提供自动化的安全评估支持。。。。。在测试能力方面,,,,,支持自动化挪用模型接口,,,,,无需人为过问即可实现攻击测试,,,,,测试实现后,,,,,可自动天生蕴含测试过程、了局、安全问题及改进建议的评估汇报,,,,,为利用方提供清澈直观的结论。。。。。在测试数据方面,,,,,平台集成了百万量级测试数据和近百种攻击步骤模板。。。。。同时,,,,,还可结合用户需要,,,,,定造化发展数据造作和评估模型建设工作,,,,,满足场景化安全测试需要。。。。。
“智盾”大模型安全加固防护规划依附堆集的海量大模型安全数据,,,,,选取模型微调对齐和安全知识库加强等伎俩进行模型对齐防护,,,,,提升大模型自身安全能力,,,,,同时两全大模型正本的通用能力,,,,,预防安全加固对模型职能造成负面影响。。。。。经实际验证,,,,,“智盾”规划能显著提升大模型的安全机能,,,,,多个开源大模型被攻击成功概率降落超过30个百分点,,,,,最高明过70个百分点。。。。。此表,,,,,还支持对大模型进行语意层面的权限节造,,,,,预防分歧权限人员使用统一套模型的过程中造成的数据未授权接见问题。。。。。
目前,,,,,工具箱中的产品已经服务于能源行业多个用户单元发展大模型安全检测、防护等工作,,,,,出格支持了煤炭科学钻研院太阳石矿山大模型,,,,,实现了天生式人为智能服务上线登记工作。。。。。
四 结语
将来,,,,,大模型、智能体必将与业务出产环节实现越发深度的融合。。。。。因而,,,,,为推动新技术的深度融合,,,,,可通过对场景进行风险分级分类评估的方式,,,,,全面梳理并最终形成技术落地的路线图,,,,,再共同技术伎俩进行检测、监测、防护,,,,,实现大模型、智能体与传统行业的深度融合。。。。。
起源:中国冶金报-中国钢铁新闻网