网站快速排名案例中国建设网上银行官网

张小明 2026/3/12 3:50:37
网站快速排名案例,中国建设网上银行官网,域名查询网ip,常熟市建设局网站随着多模态大语言模型#xff08;MLLMs#xff09;能力不断增强#xff0c;其生成结果偏离预期、产生不真实甚至有害内容的风险也同步上升。尽管已有较完善的安全评测体系#xff0c;但可靠评估仍面临三大挑战#xff1a; 数据泄漏#xff1a;许多安全基准整合自开源数据…随着多模态大语言模型MLLMs能力不断增强其生成结果偏离预期、产生不真实甚至有害内容的风险也同步上升。尽管已有较完善的安全评测体系但可靠评估仍面临三大挑战数据泄漏许多安全基准整合自开源数据集极可能与模型训练数据重叠从而削弱评测可信度并误导研究社区。数据静态、复杂度固定现有基准多为人工构建、缺乏更新难以匹配 MLLMs 的快速迭代无法有效刻画模型的真实能力上限迫切需要能动态调整复杂度的自动化框架。攻击手法不断演进新的攻击方式层出不穷安全基准也应及时更新以持续检验模型的安全防护能力。为应对上述挑战上海人工智能实验室联合团队发布了最新研究成果 SDEval已被 AAAI 2026 接收。核心贡献提出了 SDEval首个 MLLMs 安全动态评估框架具备通用性可应用于多类基准并在能力评测中展现出抗饱和特性。设计了多样化的文本、图像与图文交互动态策略并对其效果进行了系统性分析。进行了大量实验与消融研究验证所提出策略。实验表明动态策略能够有效提升数据集复杂度并降低安全评估得分。论文链接https://arxiv.org/pdf/2508.06142该工作目前已在司南 Daily Benchmark 专区上线https://hub.opencompass.org.cn/daily-benchmark-detail/2508.06142关于司南 Daily Benchmark 专区AI 评测论文“追更神器”每日更新最新 AI 评测方向论文每篇论文都支持 AI 智能解读查看更多最新 AI 评测论文欢迎访问https://hub.opencompass.org.cn/daily-benchmark-listSDEval 介绍SDEval 利用多模态动态策略对原始评测基准进行修改并使用修改后的样本来评估 MLLMs 的安全性整体框架示意图如下SDEval 基于三类动态机制生成新的图文样本包括文本动态Text Dynamics评估模型是否能稳健理解不同语言表达中的安全风险。图像动态Image Dynamics评估模型是否能识别图像中的风险因素。文本-图像动态Text-Image Dynamics评估模型在跨模态内容组合下是否会受到有害信息的干扰。文本动态基于人类规避安全审核的策略设计了六类文本动态策略词语替换将文本中最多五个词替换为近义词或语境相似词。句子改写通过不同句式表达相同语义测试模型对问题本质的理解能力。添加描述使用 GPT-4o 添加相关或无关描述干扰模型注意力削弱安全控制。拼写错误随机添加拼写错误、重复或特定错字符模拟人类规避审核方式。多语言混写将原始句子改写为多语言混合表达包括中、英、俄、法、日、韩。思维链指令在问题后添加 “answer step by step”强制模型采用链式思维回答。图像动态为缓解评测数据与训练集重叠引发的数据泄漏问题设计了两类图像动态策略基础增强空间变换对图像进行随机 padding、随机翻转以测试模型在不同空间变换下是否仍能识别风险目标。颜色变换包括色彩反转、添加随机密度的椒盐噪声以测试模型对色彩变化和视觉干扰的鲁棒性。生成与编辑生成通过 GPT-4o 生成图像描述使用 Stable Diffusion 生成新图并验证语义一致性。编辑使用 ICEdit 对原图进行物体/文本插入、风格转换如水彩、素描、漫画。文本-图像动态为提升动态样本多样性设计跨模态动态策略生成新图文对评估对模型安全的影响文生图将文本扰动注入图像以增强跨模态影响。图生文反向操作将图像扰动注入文本。跨模态越狱Figstep 字图提示越狱将文本提示转为图像排版形式使视觉输入引发越狱。HADES 图像中植入风险词将关键安全相关词汇从文本“转移”到图像中使模型受到图像中的风险内容影响同时保持原语义不变。实验介绍为验证 SDEval 的有效性研究团队选取了两个综合性的多模态大模型安全基准作为动态评测对象MLLMGuard 构建了一系列对抗样本用于测试 MLLMs 识别与应对“红队”攻击的能力。主要报告两项指标ASD攻击成功度衡量模型输出的“无害程度”PAR完美回答率所有输出中被视为安全、负责的回答占比。VLSBench 旨在解决现有多模态安全基准中普遍存在的视觉安全信息泄漏问题。遵循其设定计算 SRSafety Rate安全率综合考虑安全拒答和安全警告的数量。实验覆盖4 个闭源模型GPT-4o、o3、Claude-4-Sonnet、Gemini 2.5-Pro多组开源模型Qwen-VL系列、Yi-VL系列、InternVL系列、LLaVA 系列评测结果MLLMGuard 结果如表 1 所示所有模型的安全率均显著下降模型的安全控制能力极易被动态策略扰动。与 ASD 相比PAR 的下降幅度更大说明动态策略显著提升了任务难度分散了模型注意力削弱其安全判断能力。VLSBench 结果如表 2 所示闭源模型整体显著优于开源模型。其中 Claude-4-Sonnet 的安全率最高也是最“安全”的模型。但即便如此在应用动态策略后所有模型安全性能均下降。包含安全警告的输出比例下降更明显。说明动态策略导致更多安全风险出现从而降低模型整体安全率 MLLMs 在动态环境下仍面临巨大安全隐患。MLLMs 能否应对安全动态评测实验结果显示应用动态策略后所有模型安全性能大幅下降表明现有模型可能是在“记住”哪些回答是安全/不安全而不是理解其背后的“安全要素”说明动态策略有效缓解了“数据污染”当前 MLLMs 对安全本质并未真正理解。Scaling Law 在安全动态评测中是否仍成立从实验看参数量更大的模型 不一定更鲁棒且没有明显规模律趋势某些情况下大型模型甚至更脆弱。原因推测参数规模提升增强了模型遵循人类指令的能力无论指令是否有害。结论当前 MLLMs 尚不能良好应对动态安全评测如何在 AI 45° 法则下兼顾性能与安全仍是巨大挑战。安全——能力平衡研究团队进一步将 SDEval 应用于能力评测基准探究动态策略是否同样影响模型的智能能力。MLLMs 能力评测结果如表 4 所示在 MMVet 和 MMBench 应用所提出的动态策略后所有模型的各项能力指标均出现下降。这表明SDEval 不仅适用于安全评测也适用于更一般性的模型能力评测基准。安全与能力的平衡AI 45° 理论指出 AGI 的发展应同时考虑性能与安全其安全与能力应沿着 45° 的平衡路线推进。短期内安全能力可能有偏转但长期来看不应长期低于 45°即安全不足也不应高于 45°即过度保守而阻碍发展为此研究团队根据数据集规模对各模型在安全和能力两方面的动态评测得分进行加权并绘制其能力–安全散点图。如图 5(a) 所示Claude-4-Sonnet 在安全性上表现最佳同时其能力也处于较高水平Gemini-2.5-Pro 在安全与能力上实现了较优的平衡整体表现非常稳健如图 5(b) 所示大多数 MLLMs 在安全性上的鲁棒性较差在动态策略下安全性能损失更为显著这进一步强调未来 MLLMs 的发展亟需强化其安全能力与智能能力协同提升。总结本文提出 SDEval一个面向 MLLMs 的安全动态评估框架用于缓解数据泄漏及静态基准复杂度不足的问题。SDEval 引入了一个跨模态的综合动态评测框架结合多种文本、图像以及文本–图像动态策略从原始基准中生成变化样本对模型安全性进行更真实与多样化的检验。实验表明该方法有效缓解了数据泄漏问题显著提升了静态基准的复杂度使评测能够随模型的发展共同演进得益于其通用性SDEval 可应用于各种现有的 MLLMs 安全基准。通过大规模实验研究进一步揭示了当前 MLLMs 仍存在的安全风险并指出未来可改进的方向。
版权声明:本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!

可信网站查询官网无锡高端网站设计

你是否曾经为重复的CAD建模操作感到疲惫?是否希望将宝贵的时间从繁琐的手动操作中解放出来,专注于更有创造性的设计工作?本文将为你揭示如何通过FreeCAD Python API实现建模流程的全面自动化,让你成为真正的高效设计师。 【免费下…

张小明 2026/3/5 3:10:26 网站建设

济南行业网站开发湖南省建设厅电话号码是多少

3步搞定yuzu模拟器中文字体:告别乱码的实用方法 【免费下载链接】yuzu-downloads 项目地址: https://gitcode.com/GitHub_Trending/yu/yuzu-downloads 还在为yuzu模拟器里的方块字抓狂吗?🤯 游戏对话变成神秘代码,菜单文字…

张小明 2026/3/5 3:10:27 网站建设

网站建设要做什么会计科目中企动力企业邮箱手机登录

3步完成QQ空间数据备份:GetQzonehistory终极使用指南 【免费下载链接】GetQzonehistory 获取QQ空间发布的历史说说 项目地址: https://gitcode.com/GitHub_Trending/ge/GetQzonehistory 你是否担心QQ空间里的青春回忆会随着时间消失?那些记录成长…

张小明 2026/3/5 3:10:31 网站建设

潍坊网站建设公司装修效果图软件

Kotaemon支持知识新鲜度加权,优先返回最新内容在企业级智能问答系统中,一个常被忽视却影响深远的问题正在浮现:用户得到的答案虽然语义相关,但内容早已过时。想象一下,员工查询最新的差旅报销标准,系统却引…

张小明 2026/3/5 3:10:32 网站建设

温州网站制作多少钱开发网站年度工作总结及明年工作计划

第一章:多任务并行不等于互相干扰——Open-AutoGLM冲突规避设计总览在现代自动化推理系统中,多任务并行执行是提升效率的核心手段。然而,并行并不意味着资源争抢与状态混乱。Open-AutoGLM 通过精心设计的隔离机制与调度策略,确保多…

张小明 2026/3/5 3:10:34 网站建设

西安网址开发 网站制作石家庄网站建设咨询薇

Winlator作为一款出色的Android平台Windows模拟器,其双指触控操作功能为用户带来了前所未有的移动端Windows应用体验。通过巧妙的多点触控映射技术,Winlator让用户能够在触屏设备上流畅操作Windows程序,实现真正的移动办公和娱乐。 【免费下载…

张小明 2026/3/5 3:10:33 网站建设