
墨尔本大学和伦敦帝国理工学院的运用语言抑制研究人员开发了一种利用大语言模型(LLM)改进事件响应规划的方法,重点在于降低产生幻觉的轻量风险,该方法采用经过微调的化大幻觉小型大语言模型 ,并结合检索增强生成技术和决策理论规划 。模型
他们所针对的实现事件双重问题十分常见 :目前事件响应在很大程度上仍依赖人工操作 ,速度缓慢,加速且依赖专家配置的突破应急预案 。许多企业需要数周甚至数月才能从事件中完全恢复 。运用语言抑制虽然一些企业已尝试使用前沿大语言模型生成响应措施 ,轻量但这些模型成本高昂,化大幻觉依赖第三方应用程序接口(API) ,云计算模型且容易生成看似合理但实际错误的实现事件双重指令 。
论文作者之一Kim Hammar表示 ,加速该系统的突破设计避免了繁重的集成障碍 。他解释道 :“从技术角度来看,运用语言抑制我们的方法经过精心设计 ,可直接集成到现有工作流程中,无需额外软件或对现有系统进行改造。特别是,我们的方法以原始文本形式接收日志数据和威胁信息作为输入,这些文本无需遵循特定的源码下载语法或格式。”
三步走方法该方法主要通过三个步骤实现 :
指令微调 :研究团队在一个包含6.8万起历史事件的数据集上,对一个拥有140亿参数的大语言模型进行了微调,每起事件均配有响应计划和推理步骤 ,这使模型与事件响应的阶段和目标保持一致,而不局限于单一场景 。信息检索 :在生成计划之前,系统会根据系统日志中发现的指标 ,提取相关的威胁情报和漏洞数据 ,这使其能够适应新出现的威胁 ,模板下载例如在训练截止日期后发现的漏洞,并使模型的输出基于最新信息。带幻觉过滤的规划 :系统不会直接执行第一个建议的操作 ,而是生成多个候选操作,并利用大语言模型模拟潜在结果,然后,它会选择预计能最快恢复的操作 ,利用这种前瞻性来过滤掉无法取得进展的响应。Hammar表示 ,源码库从用户的角度来看 ,该方法可以像更具适应性的应急预案一样发挥作用 。他指出 :“它应该能够集成到依赖响应预案的现有工作流程中 。安全操作人员应将建议的操作视为需根据现有证据进行验证的指导 ,而非绝对真理 。”
理论与实际成果论文提供了概率分析 ,表明幻觉发生的可能性是可以被限制的,如果规划过程有更多时间和候选操作,服务器租用该概率可以任意降低,这为该方法比仅依赖提示的前沿大语言模型更可靠的主张提供了形式基础 。
在实际应用中,该方法足够轻量 ,可在普通硬件上运行,无需昂贵的API调用或专用基础设施。作者使用公开的事件数据集,将他们的系统与几种前沿大语言模型和强化学习基准进行了对比评估。在所有测试中 ,该系统的平均恢复时间更短,香港云服务器比测试中表现最佳的前沿模型快22% ,同时还减少了无效操作和恢复失败的情况 。
Hammar表示,该系统的本地化、自包含特性还解决了保密性和合规性问题 。他说:“我们轻量级方法的一个关键优势是,它可在本地运行 ,无需依赖外部大语言模型提供商 ,这种灵活性降低了成本 ,并避免了将可能敏感的日志数据上传到第三方大语言模型提供商的需求 。”
一项消融研究证实 ,这三个步骤均有助于提升性能 ,其中微调和规划带来的改进最大,检索增强生成技术也有所帮助,尽管效果较小 。
权衡与考量尽管该方法避免了针对特定事件的重新训练并提高了可靠性,但也存在一定开销。规划步骤增加了推理时间,因为需要生成和评估多个操作。作者指出 ,这可通过并行处理来缓解 。
该方法在需要快速反应且日志数据复杂的情况下尤为有用。Hammar描述了一个这样的用例:“现在是凌晨2点,你的安全信息和事件管理系统(SIEM)检测到了一起潜在事件 。你的值班安全操作人员被呼叫 ,以确定具体问题、找出原因并尽快解决 。我们的基于大语言模型的方法无需在仪表板之间跳转 ,也无需手动追踪跨多个应用和基础设施层的事件 ,而是帮助解释日志并建议有针对性的响应操作。”
另一方面,他也承认,某些场景下的收益可能较小。他说 :“对于不需要立即采取行动的事件,我们的方法可能收益较小。对于需要深入专家分析的高度新颖或复杂的攻击,我们的方法可能仅在响应的早期阶段有所帮助。”
另一个关键点是 ,该系统并非旨在取代人类判断 。Hammar认为 ,未来几年人类监督仍将至关重要。他说:“未来几年内完全自主的事件响应是不现实的 ,因为每个人的网络、攻击、安全环境和法规都有所不同。决策支持工具正逐步接管以往手动完成的任务 ,使操作人员的角色转向指导和验证系统,而非筛选大量日志和安全警报 。”
该团队已将其微调后的模型、训练数据 、代码和演示视频作为开源资源发布,这有助于进一步开展实验和操作试验。他们认为,未来的工作包括在实际安全运营中心(SOC)工作流程中测试该方法 、完善理论上的幻觉限制,以及扩展规划过程以使用更先进的搜索技术。
如果该方法在实际操作中得到验证 ,将为安全团队提供一种更敏捷、更具成本效益的事件分类和遏制方式 ,而无需依赖昂贵的前沿大语言模型或僵化的应急预案。
(责任编辑:数据库)