能力越大,责任越大。随着LLMs日益强大,它们被赋予更多自主权。这意味着人工监督减少、个人数据接触增多,以及在处理现实任务中扮演的角色不断扩大。
从管理每周杂货订单到监督复杂的投资组合,LLMs对渴望利用它们的黑客和恶意行为者构成了诱人目标。忽视这些风险可能带来严重的伦理、法律及财务后果。作为该技术的先驱,我们有责任优先考虑并维护LLM安全。
尽管这片领域大多未经探索,但并非完全是个黑箱。全球各国政府正加紧出台新的人工智能法规,大量研究正在进行以制定风险缓解策略和框架。今天,我们将深入探讨以下主题:
- LLM 安全涵盖的内容
- 政府 AI 法规及其对LLMs的影响
- 需警惕的LLM关键漏洞
- 当前LLM安全研究,包括关键风险缓解策略与框架
- LLM安全面临的挑战及LLM Guardrails 如何解决这些问题
什么是LLM安全?
LLM安全结合了实践、原则和工具,旨在确保人工智能系统按预期运行,重点是将 AI 行为与道德标准对齐,以防止意外后果并最小化伤害。
LLM安全作为 AI 安全中的一个专门领域,专注于保护大型语言模型,确保其负责任且安全地运作。这包括解决数据保护、内容审核等漏洞,并在实际应用中减少有害或带有偏见的输出。
政府 AI 法规
就在几个月前,欧盟《人工智能法案》(AI Act)正式生效,成为全球首个针对人工智能的法律框架。该法案通过制定统一的规则与监管标准,确保欧盟境内的人工智能应用安全、透明、无歧视且环境可持续。
根据欧盟人工智能法案的高风险人工智能系统
除欧盟的《人工智能法案》外,其他国家也在积极推进提高安全标准并为人工智能及LLMs建立监管框架的工作。这些举措包括:
- 美国:NIST(国家标准与技术研究院)的人工智能风险管理框架及第 14110 号行政令
- 英国:DSIT(科学、创新与技术部)提出的支持创新的 AI 监管政策
- 中国:国家网信办(CAC)关于生成式人工智能的措施
- 加拿大:创新、科学与经济发展部(ISED)提出的《人工智能与数据法案》(AIDA)
- 日本:经济产业省(METI)起草的《人工智能法案》草案
欧盟人工智能法案(EU)
欧盟人工智能法案于 2024 年 8 月生效,为医疗、公共安全、教育和消费者保护等关键领域安全负责任地使用人工智能系统提供了结构化框架。
根据欧盟人工智能法案的 AI 系统风险等级(来源:欧盟人工智能法案)
欧盟人工智能法案将 AI 应用划分为五个风险等级,要求组织采取针对性措施以确保合法合规,措施范围从全面禁止高风险系统到透明度与监督要求不等:
- 不可接受风险:被认为会带来严重伦理或社会风险的 AI 应用,如操纵行为或使用实时生物识别监控的技术,将被禁止。
- 高风险:人工智能在医疗、执法和教育等敏感领域的应用需要严格的合规措施。这些措施包括广泛的透明度、安全协议和监督机制,以及进行基本权利影响评估以衡量对社会和基本权利的潜在风险,确保这些人工智能系统不会无意中造成伤害。
- 通用人工智能:2023 年新增类别,旨在应对如 ChatGPT 等基础模型,要求透明度和定期评估。这些措施对通用模型尤为重要,因其多功能性及在众多高影响力领域的广泛影响,可能产生深远效应。
- 有限风险:对于具有中等风险的 AI 应用,如深度伪造生成器,该法案要求采取透明度措施,告知用户他们正在与 AI 互动。这保护了用户的知情权,并减轻了潜在滥用带来的风险。
- 最低风险:低风险应用(如垃圾邮件过滤器)不受严格法规约束,但可遵循自愿性指导原则。这一做法为低影响人工智能应用的创新提供了空间,同时避免了不必要的监管负担。
通过根据 AI 应用的具体风险等级量身定制法规,欧盟 AI 法案旨在促进创新的同时,保护各领域的基本权利、公共安全和伦理标准。
NIST AI 风险管理框架(美国)
美国国家标准与技术研究院(NIST)于 2023 年 1 月发布的《人工智能风险管理框架》是一套自愿性指南,旨在帮助组织管理 AI 风险。该框架围绕四大核心功能构建:
- 地图:识别 AI 系统的背景、目标和潜在影响,以理解风险领域。
- 测量:量化风险以评估 AI 模型的可靠性、隐私性、公平性和韧性。
- 管理:实施策略以处理和降低风险,包括持续监控。
- 治理:建立监督机制以确保合规性和持续改进。
该框架涵盖了数据隐私、鲁棒性和公平性等关键漏洞,为 AI 开发者和利益相关者提供了一种结构化、适应性强的方案,以确保 AI 部署的道德性和可靠性。欲获取更详细见解,完整文档可在此查阅。
促进创新的 AI 监管(英国)
与其他监管框架不同,英国的促进创新 AI 监管优先考虑在管理风险的同时培育创新。英国的促进创新 AI 监管于 2023 年 3 月提出,其关键要素包括:
- 基于原则的指导:灵活的标准,如安全性和透明度,允许监管机构根据不同行业调整规则。
- 中央协调:一个中央机构负责协调各方努力、监控风险,并支持跨行业监管机构间的协作。
- 监管沙盒:安全的测试环境,创新者可在真实条件下开发 AI 解决方案,并获得监管支持。
与更为规定性的方法不同,此框架通过允许针对具体应用场景的灵活性,支持 AI 行业的增长。
生成式人工智能措施(中国)
中国于 2023 年 8 月 15 日颁布的《生成式人工智能管理办法》针对面向公众的生成式 AI 服务提出了具体要求,主要内容包括:
- 内容审核:生成式 AI 输出必须符合政府标准,提供商需负责监控并移除有害内容。
- 数据治理:提供商需使用安全、合法且高质量的训练数据。
- 用户权利与隐私:AI 服务必须保护用户数据和权利,标注内容并确保透明度。
这些法规旨在促进安全的 AI 创新及公众对生成技术的信任。
LLM前几大漏洞
LLM 漏洞指的是大型语言模型中存在的特定风险,可能导致伦理、安全或操作上的失败。这些漏洞若不加以解决,可能会产生有害、偏见或非预期的输出。
LLM 漏洞可分为五大核心风险类别:
- 负责任的人工智能风险
- 非法活动风险
- 品牌形象风险
- 数据隐私风险
- 未经授权访问风险
负责任的人工智能风险涉及偏见和毒性等漏洞,包括种族歧视或冒犯性语言。虽然这些风险不一定违法,但可能与道德标准不符,并可能冒犯、误导甚至激化用户。非法活动风险涵盖有害漏洞,可能导致LLM讨论暴力犯罪、网络犯罪、性犯罪或其他非法活动。此类别确保人工智能输出符合法律标准。
品牌形象风险保护组织的声誉,解决诸如错误信息或未经授权提及竞争对手等问题。此类别防止 AI 生成误导性或不符合品牌形象的内容,有助于维护可信度。
数据隐私风险侧重于防止意外泄露机密信息,如个人身份信息(PII)、数据库凭证或 API 密钥。相比之下,未经授权访问风险涉及允许未经授权系统访问的漏洞,如 SQL 注入或 shell 命令生成,这些漏洞不一定会导致数据泄露,但可能促成有害行为。这些风险通过确保访问安全和防止 AI 输出被恶意利用来保护系统。
为了有效应对这些风险和漏洞,对您的LLM进行红队评估至关重要。此过程包括生成基线攻击,然后通过越狱、提示注入或 ROT13 编码等专业技术加以强化。
LLM 安全研究与缓解框架
基准测试
基准测试作为标准化评估手段,用于检测LLMs在偏见、毒性和鲁棒性等方面的漏洞,为开发者提供衡量和追踪模型安全性改进的方法。
RealToxicityPrompts(来源:Gehman 等人)
例如,像 RealToxicityPrompts 这样的数据集有助于识别模型可能产生有害内容的领域,而偏见基准测试则允许模型在不同人口统计类别中进行测试,以确保公平的响应。
通过定期测试和比较,基准测试揭示了需要改进的领域,使开发者能够不断优化模型以实现伦理对齐。
负责任的人工智能扩展(Anthropic)
Anthropic 负责任的人工智能扩展方法遵循 AI 安全等级(ASL)框架,类似于生物研究中的生物安全等级。每个 ASL 定义了能力阈值,随着 AI 能力的提升,需要执行日益严格的安全协议。
根据 Anthropic 的 AI 安全等级(来源:Anthropic)
等级与阈值:当前,ASL 框架为现有 AI 设定了 ASL-2 级别,对高风险未来模型则采用 ASL-3 级别,并执行更严格的安全标准。
关键风险类型:
- 部署风险:关于强大 AI 在实际应用中的活跃使用所引发的担忧。
- 控制风险:仅因拥有先进 AI 模型而产生的相关风险。
评估协议:Anthropic 定期进行评估,若安全阈值被突破则暂停模型训练。这种逐步扩展与全面评估的体系在保持安全为首要任务的同时提供了灵活性。
前沿安全框架(Google DeepMind)
为了解决高影响力 AI 的潜在风险,Google DeepMind 的前沿安全框架确定了关键阈值,称为关键能力水平(CCLs),在这些水平上模型可能带来更高的风险。
Google DeepMind 的前沿安全框架(来源:Google DeepMind)
风险领域:
- 自主性:考察与独立决策相关的风险。
- 生物安全:降低健康相关应用中的潜在滥用风险。
- 网络安全:确保模型抵御数字攻击的韧性。
- 机器学习研发:注重研究诚信。
双管齐下的缓解措施:
- 安全缓解措施:防止对模型数据和功能的未授权访问。
- 部署缓解措施:在现实应用中限制并监控模型交互。
定期评估:为了在人工智能发展过程中保持安全性,DeepMind 每三个月或在计算能力显著提升时进行一次微调评估,确保防护措施与技术进步同步。
Llama Guard(Meta)
由Meta 研发的 Llama Guard 是一款专为LLM内容审核定制的 AI 安全模型,尤其适用于用户交互安全至关重要的应用场景。Llama Guard 提供以下功能:
响应与提示分类(来源:Meta LLama Guard)
- 双重分类:该模型同时评估提示(用户输入)和响应,从两端识别并管理风险内容。
- 安全风险分类法:一个全面的分类系统识别出从仇恨言论到错误信息等不同风险类别。
- 灵活适应性:具备零样本和小样本学习能力,Llama Guard 无需大量重新训练即可适应新政策或使用场景。
- 多层次分类:包含二元“安全”或“不安全”标签,以及标记特定问题的多类别分类,使其适用于客户服务、内容审核和法律咨询等多种应用场景。
OpenAI 的 Moderation API 旨在为应用程序提供实时内容过滤功能,分析输出中是否存在不当或有害语言。对于希望将安全检查集成到其 AI 应用中的开发者而言,它是一款即插即用的解决方案。
- 关键过滤类别:筛查涉及仇恨言论、自残、性内容等内容,使开发者能够遵守安全政策。
- 可针对上下文定制:该 API 提供二元的“标记”指示器,以及特定类别的标记和置信度分数,可根据应用需求适应不同的上下文环境。
- 支持更安全的 AI 部署:通过提供这些细致的洞察,OpenAI 让开发者能够在调节 AI 输出时采取明智行动,促进跨应用中的道德和安全 AI 使用。
维护LLM安全性的挑战
在生产规模较大的环境中维护LLM安全性存在若干挑战,包括:
- 透明度和终端用户信任工具的局限性:虽然可解释的可视化工具和决策追踪工具有助于通过解释模型输出来建立用户信任,但这些工具稀缺,限制了LLM决策过程的透明度。终端用户需要更清晰地理解 AI 生成内容,以便安全且自信地与LLMs互动。
- 人在回路(HITL)系统的限制:HITL 系统提供实时监督,对于医疗或金融等敏感应用至关重要。然而,当前大多数解决方案缺乏可扩展性且劳动密集,阻碍了在高风险环境中更广泛的采用。
- 持续反馈与适应差距:基于用户互动调整模型的反馈系统有助于LLMs避免重复错误并保持与不断发展的标准一致。然而,此类系统存在局限性,尤其是在多样化的用户环境中。
- 环境特定解决方案:当前如 Meta 的 Llama Guard 等工具虽有效,但通常仅限于特定生产环境,缺乏跨多样化部署的广泛适用性。这些工具也仅针对部分漏洞,限制了全面安全评估的能力。
- 独家审核生态系统:OpenAI 的审核 API 仅在其生态系统内运作,导致其他LLM提供商缺乏强大的内容过滤选项。这限制了依赖外部工具进行审核的开发者。
- 缺乏集中式风险管理:市场上缺少一个统一平台来应对多项LLM安全问题——包括负责任的人工智能、非法活动、品牌诚信、数据隐私及未经授权的访问。
使用LLM防护栏确保LLM安全
为解决这些问题,Confident AI 提供全面的漏洞和生产监控,覆盖包括但不限于LLM聊天机器人、RAG 和 Text-to-SQL 应用在内的多种使用场景。它提供实时安全护栏以检测生产环境中的安全问题,并支持针对任何使用场景或指标进行定制。此外,Confident AI 还集成了人工参与流程和追踪功能,以增强实时部署中的安全性和监管能力。
结论
今日,我们深入探讨了LLM安全的基础要素,涵盖了数据、模型、基础设施及伦理考量等关键领域。我们讨论了包括错误信息、偏见以及 SQL 注入、个人身份信息泄露等技术风险在内的多种漏洞。
我们还通过基准测试和红队方法(包括基于对话的越狱和合成数据生成等先进技术)探讨了检测这些漏洞的重要性,以及 DeepTeam 如何将这一过程简化为几行代码。此外,我们强调了在生产环境中使用如 Confident AI 这样的平台进行有效监控,如何提供实时漏洞评估以保护您的系统免受新兴威胁。这种全面的方法不仅确保了模型的稳健性,还保障了其安全且符合伦理的部署。