潍坊网站设计好处网站推广营销的意义

张小明 2026/3/12 15:43:40
潍坊网站设计好处,网站推广营销的意义,手机端网站的区别,如何做手机网站点击下方卡片#xff0c;关注“CVer”公众号AI/CV重磅干货#xff0c;第一时间送达点击进入—【顶会/顶刊】投稿交流群添加微信号#xff1a;CVer2233#xff0c;小助手拉你进群#xff01;扫描下方二维码#xff0c;加入CVer学术星球#xff01;可以获得最新顶会/顶…点击下方卡片关注“CVer”公众号AI/CV重磅干货第一时间送达点击进入—【顶会/顶刊】投稿交流群添加微信号CVer2233小助手拉你进群扫描下方二维码加入CVer学术星球可以获得最新顶会/顶刊上的论文idea和CV从入门到精通资料及应用发论文/搞科研/涨薪强烈推荐Visual Autoregressive Modeling via Next Focus Prediction作者团队 | Baidu Inc.论文https://arxiv.org/abs/2511.18838研究背景近日百度研究团队在视觉自回归生成领域取得重要突破提出了一种全新的自回归图像生成框架 FVARFocus Visual AutoRegressive。该工作将传统的「下一尺度预测」范式重新定义为「下一焦点预测」模拟相机从模糊到清晰的自然对焦过程。核心贡献1. 下一焦点预测范式突破性地将多尺度自回归从简单下采样转变为渐进式光学重新聚焦从根本上消除混叠伪影锯齿、摩尔纹等。2. 渐进式重新聚焦金字塔使用物理一致的散焦核PSF构建无混叠的多尺度表示实现从模糊到清晰的平滑过渡。3. 高频残差教师网络通过专门的教师-学生蒸馏框架在训练时利用高频信息增强细节生成部署时零额外开销。实验表明FVAR 在 ImageNet 多个分辨率上显著超越 VAR 和 M-VAR同时保持与现有 VAR 框架的完全兼容性。图1. FVAR 生成的图像质量显著优于标准 VAR有效减少锯齿和摩尔纹等混叠伪影同时保留精细细节和文字可读性。1. 简介视觉自回归模型VAR通过多尺度 token 金字塔上的下一尺度预测已经展现出卓越的图像生成质量和可扩展性。然而传统方法使用均匀下采样来构建这些金字塔不可避免地引入混叠伪影——锯齿边缘、阶梯效应和摩尔纹等问题。这些伪影的产生源于高频内容超过奈奎斯特极限后被折叠到基带中迫使自回归 Transformer 同时承担去混叠和生成细节的双重任务。本文从物理光学的角度出发受相机对焦过程的启发提出将视觉自回归从「下一尺度预测」重新定义为「下一焦点预测」。核心洞见在于图像形成过程本质上是从模糊到清晰的渐进聚焦而非通过有损分辨率降低的下采样。2. 相关工作2.1 视觉自回归生成自回归模型将图像离散化为 codebook 索引以 GPT 风格预测 token 序列。最近的 VAR 模型将自回归重新定义为多尺度 token 金字塔上的下一尺度预测展现出优于扩散模型的可扩展性。后续工作如 M-VAR 通过解耦尺度内/尺度间依赖进一步提升效率。然而这些方法都依赖均匀下采样构建多尺度表示忽视了光学成像的物理原理。2.2 抗混叠与去摩尔纹混叠伪影源于高频图像内容超出采样能力违反奈奎斯特准则导致信号折叠到低频。在图形渲染和图像处理中经典抗混叠技术超采样、形态学抗混叠通过在下采样前进行预滤波来缓解锯齿边缘。然而较少工作在生成流程中明确处理混叠问题尤其是视觉自回归模型。这正是 FVAR 的创新点所在。3. 方法FVAR 包含三个核心创新(1) 下一焦点预测范式、(2) 渐进式重新聚焦金字塔构建、(3) 高频残差学习。图2. 渐进式重新聚焦 vs 均匀下采样。左标准 VAR 使用均匀下采样引入混叠伪影。右FVAR 采用 PSF 半径递减的渐进式重新聚焦模拟相机从模糊到清晰的对焦过程。3.1 下一焦点预测范式我们提出从基于尺度到基于焦点的自回归范式转变。这种形式具有以下理论优势1.频谱保持每个焦点状态受 PSF 频率响应限制防止混叠伪影2.连续性焦点序列在模糊核空间形成连续流形实现状态间平滑插值3.信息单调性信息内容随 ρ_k → 0 单调增加与自回归生成过程一致3.2 渐进式重新聚焦金字塔圆形光圈的散焦 PSF 近似为归一化圆盘核 k_ρ半径遵循单调递减调度确保从 ρ_1 ρ_2 ... ρ_K 0 的平滑模糊到清晰过渡。为捕获整体结构和高频残差信息我们构建互补视图的双路径策略L_k 表示物理一致的聚焦视图D_k 为传统下采样视图A_k 为高频残差信息。3.3 高频残差教师网络图3. 高频残差教师训练架构。训练时采用双网络高频残差教师上通过 Alias-Gate 交叉注意力处理结构 token 和混叠 token部署网络下仅使用结构 token 以保持与原生 VAR 的兼容性。我们引入高频残差教师网络将训练时的混叠感知学习与推理解耦• 使用双路径策略对聚焦视图和高频残差进行分词• 混叠 codebook 远小于结构 codebook反映高频模式的稀疏特性• 教师网络通过 Alias-Gate Cross-Attention (AG-XAttn) 融合两路信息• 部署网络仅在结构 token 上操作标准自注意力保持与 VAR 完全兼容推理时仅使用部署网络无任何额外开销。4. 实验结果4.1 主要结果在 ImageNet 256×256 上FVAR 在所有模型规模上均一致优于 VAR 和 M-VAR模型FID↓IS↑Precision↑Recall↑参数量VAR-d163.55280.40.840.51310MM-VAR-d163.07294.60.840.53464MFVAR-d162.89298.10.850.54310MVAR-d242.33312.90.820.591.0BM-VAR-d241.93320.70.830.591.5BFVAR-d241.75325.80.840.611.0B4.2 可视化比较图4. VAR 与 FVAR 的视觉质量对比。第一行为图像生成第二行为 inpainting 和 outpainting。每组中左侧为 VAR右侧为 FVAR。红色虚框标注关键区域。FVAR 显著减少了混叠伪影同时保留精细细节• 高亮区域处理更自然无高频纹理伪影• 消除明显的网格状锯齿• inpainting 结果无混叠伪影• outpainting 展现更好的空间层次4.3 消融研究变体FID↓ (256)FID↓ (1024)VAR-d16 (Baseline)3.558.25FVAR-d16 (Full)2.896.85w/o Progressive Refocusing3.518.15w/ Gaussian blur3.327.50w/o High-Freq Teacher3.067.20w/o Dual tokenizers3.147.40关键发现1. 渐进式重新聚焦在 1024×1024 分辨率下至关重要移除后性能严重退化2. 高频残差教师有效增强细节生成质量高分辨率贡献更显著3. 双 Tokenizer验证了不同信号类型需要专门的量化策略5. 结论FVAR 将传统的下一尺度预测范式转变为受物理启发的下一焦点预测从根本上消除混叠伪影。结合双路径 tokenization 和高频残差教师网络该模型在训练时学习利用干净结构线索和信息性混叠残差最终蒸馏到完全兼容 VAR 的部署网络。局限性• PSF 形状或半径不匹配可能降低高频残差的统计质量• 双 codebook 训练可能需要仔细校准• 极高频文字模式小于 2 像素仍具挑战6. 论文与资源论文 | Xiaofan Li*, Chenming Wu*, et al. FVAR: Visual Autoregressive Modeling via Next Focus Prediction. Arxiv 2025.本文系学术转载如有侵权请联系CVer小助手删文何恺明在MIT授课的课件PPT下载在CVer公众号后台回复何恺明即可下载本课程的所有566页课件PPT赶紧学起来ICCV 2025 论文和代码下载在CVer公众号后台回复ICCV2025即可下载ICCV 2025论文和代码开源的论文合CVPR 2025 论文和代码下载在CVer公众号后台回复CVPR2025即可下载CVPR 2025论文和代码开源的论文合集CV垂直方向和论文投稿交流群成立扫描下方二维码或者添加微信号CVer2233即可添加CVer小助手微信便可申请加入CVer-垂直方向和论文投稿微信交流群。另外其他垂直方向已涵盖目标检测、图像分割、目标跟踪、人脸检测识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿交流、PyTorch、TensorFlow和Transformer、NeRF、3DGS、Mamba等。 一定要备注研究方向地点学校/公司昵称如Mamba、多模态学习或者论文投稿上海上交卡卡根据格式备注可更快被通过且邀请进群▲扫码或加微信号: CVer2233进交流群 CVer计算机视觉知识星球人数破万如果你想要了解最新最快最好的CV/DL/AI论文、实战项目、行业前沿、从入门到精通学习教程等资料一定要扫描下方二维码加入CVer知识星球最强助力你的科研和工作 ▲扫码加入星球学习▲点击上方卡片关注CVer公众号 整理不易请点赞和在看
版权声明:本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!

南通企业网站有哪些天津工程建设信息网官网

刚接触云服务那会儿,看到“新用户专享”几个字就心动,结果一注册,实名认证、对公账户、不支持信用卡…直接给我整不会了。腾讯云这些折扣是真的香,但门槛也是真的多,你是不是也卡在这些环节里头疼过? 别急&…

张小明 2026/3/5 2:55:58 网站建设

网上学学网站开发工程师广西网站建设建议

第一章:Open-AutoGLM高效运维概览Open-AutoGLM 是一款面向大模型自动化运维的开源工具平台,专为简化模型部署、监控与生命周期管理而设计。其核心架构融合了任务调度、资源感知与智能告警机制,支持多环境适配与弹性扩展,适用于企业…

张小明 2026/3/5 2:55:58 网站建设

上海做网站设计有保障的无锡网站制作

我们继续接着上一章的内容,完成文件内容的显示。显示文件内容1. 调整侧边栏内容上一章,我们侧边栏只显示了根目录下的文件和文件夹。这一张我们要将其显示成一个可折叠和展开的文件树。目的是为了可以让用户在侧边栏中切换想要查看的文件。GitCodeCodeRe…

张小明 2026/3/5 2:56:00 网站建设

做网站做网站三亚高端服务网站

在Linux环境中实现高效的文件和打印机共享配置是系统管理员面临的重要挑战。传统的命令行配置方式不仅复杂耗时,而且容易出错。Stacer作为一款专业的Linux系统优化工具,通过其集成的服务管理模块和图形化界面,为网络共享配置提供了标准化的技…

张小明 2026/3/5 2:56:00 网站建设

做的网站错位怎么办温州如何进行网站推广

5分钟掌握LOL游戏形象定制:LeaguePrank合规美化工具使用指南 【免费下载链接】LeaguePrank 项目地址: https://gitcode.com/gh_mirrors/le/LeaguePrank 在英雄联盟的游戏体验中,你是否曾希望展现更独特的个人形象?LeaguePrank正是为此…

张小明 2026/3/5 2:56:03 网站建设

空间站建造阶段微信公众平台个人注册入口

你是否曾经遇到过这样的困境:在Google Drive上发现了一份重要的学术论文或商业文档,却因为"仅查看"权限而无法下载到本地?这种限制让许多用户感到束手无策。今天,我将为你介绍一款功能强大的PDF下载工具,帮助…

张小明 2026/3/5 2:56:04 网站建设