苏州公司建设网站制作做网站内容图片多大-Seo优化-合肥市网站建设公司

苏州公司建设网站制作,做网站内容图片多大,wordpress 后门检测,漫画风格网站那些为了“理解”世界而训练好的 VLM#xff0c;是否体内沉睡着“创造”世界的能力#xff1f; 答案是肯定的。快手可图团队与华中科技大学联合提出全新技术 VGT#xff08;Visual Generation Tuning#xff09;#xff0c;用一个颠覆性思路改写多模态生成规则#xff1…那些为了“理解”世界而训练好的 VLM是否体内沉睡着“创造”世界的能力答案是肯定的。快手可图团队与华中科技大学联合提出全新技术 VGTVisual Generation Tuning用一个颠覆性思路改写多模态生成规则无需从头训练庞大的生成模型只要给现成的 VLM视觉语言模型如 Qwen2.5-VL、InternVL3做 “专项微调”就能激活其沉睡的 “生图天赋”让 “理解世界” 的 AI 直接进化为 “创造世界” 的顶尖生图模型[论文标题] Visual Generation Tuning[项目主页] https://github.com/hustvl/VGT[ArXiv链接] https://arxiv.org/abs/2511.23469目前VGT代码已开源并提供了基于 Qwen2.5-VL 和 InternVL3 的预训练及 SFT 权重供未来研究。欢迎 Star ⭐ GitHub 仓库一起探索 VLM 的生成潜力一、AI的“理解”能力将直接有潜力“创造1.1 VGT 的颠覆性要理解 VGT 的颠覆性我们得先看清当前自回归生成模型是怎么做的目前的自回归Autoregressive, AR图像生成模型通常依赖Diffusion系列中的VAE其作为视觉表征与自回归的语言模型LLM)Gap非常大。通俗来讲就是语言模型不认识VAE这就导致 AR 模型需要海量数据和计算资源去“硬啃”这些新视觉训练不仅慢而且难以收敛。(a)中展示了当前自回归生图模型的粗暴做法通常他们探索了一系列正则化方法使得语言模型(LLM)去更容易学习但是事实上没有解决本质问题VAE的空间与语言模型LLM存在天然的差距。于是我们提出了VGT(b)直接利用VLM原生的图像表征去生成仅微调好后展现了强大的生成能力比之前用VAE的效率和上限都提高了(c)1.2 VGT 的关键突破要明白VGT做了什么我们要先回到现在视觉语言模型VLM可以看成是“理解派”这类模型经过海量数据预训练早已具备 “看懂图听懂话” 的能力比如精准回答 “图里的猫在左边还是右边”但它只会 “解读” 世界不会 “创造” 世界经过VGT微调VLM便能具有强大的生图能力这直接证明了“理解”模型VLM内部存在着非常好的创造潜力。而 LLaVA 当年用 “视觉指令微调”打破了语言模型LLM“看不懂图” 的壁垒。如今 VGT 致敬这一思路用 “视觉生成微调”(VGT) 让 VLM 学会了 “画图”—— 这不仅是技术传承更实现了关键突破已经拥有强大理解能力的VLM仅需少量微调即可涌现强大的生图能力。二、VGT 技术拆解既然核心痛点VGT 又是如何打破这层壁垒的答案藏在它对 “表征Representation” 与 “生成Generation” 关系的重新定义里不同于盲目堆砌算力VGT 通过精细的语义对齐Semantic Alignment和流形正则化Manifold Regularization在连续潜在空间中实现了高效的自回归建模。2.1 动机打破“语义-像素”的二元对立我们先通过聚类分析找到了当前视觉生成的“根本性矛盾”像素级编码器如 DC-AE 眼里只有纹理Texture比如会把相似的皮毛、布料纹理聚在一起但在高层语义上是混乱的导致 AR 模型难以捕捉全局结构就像拿着一堆打乱的拼图碎片根本拼不出全局结构。语义级编码器如 InternViT眼里只有类别Category比如能精准区分猫、狗、汽车但直接用它生图会丢光细节 —— 画出来的猫只剩轮廓没有毛发纹理更谈不上真实感。其实自回归模型的收敛速度与生成质量本质上取决于 Latent Space 的语义结构。VGT的目标是构建一个既具备 VLM 判别性语义又兼容像素级重构的混合表征空间——让生图模型既能 “听懂指令”又能 “画好细节”。(图注不同视觉编码器的特征聚类可视化。VGT-AE中间成功实现了语义结构与纹理细节的统一这种结构化的 Latent 分布是高效 AR 建模的关键。)2.2 VGT-AE面向生成的语义对齐 Tokenizer传统的 VAE 只懂像素不懂语义翻译出的 “图像密码” 逻辑混乱。为了解决这个问题VGT 提出了 VGT-AE它复用了 VLM 的视觉编码器Vision Encoder通过两阶段训练策略自蒸馏噪声正则化将高维语义特征压缩为紧凑的结构化 Latent。训练方法Stage 1语义自蒸馏 (Semantic Self-Distillation)怕微调时 VLM 忘了 “怎么理解语义”我们设计了复合损失函数除了常规的重构损失MSELPIPSGAN引入了关键的自蒸馏项这迫使 Encoder 在学习像素重构的同时必须保持与原始 VLM Teacher 的语义一致性。简单说就是逼着编码器在学 “还原像素” 的同时必须牢牢记住 VLM 原本的语义知识 —— 不能练着练着就 “听不懂话” 了。Stage 2流形正则化 (Manifold Regularization)之前的研究表明无约束的 Latent 分布会导致 Flow Matching 训练不稳定。为此我们冻结 Encoder仅优化 Decoder 和投影层引入通道归一化与噪声注入这一步将 Latent 强行拉回标准高斯先验附近极大地平滑了后续生成任务的优化景观。这就像给特征分布 “定规矩”让后续生图时的优化过程更平稳不容易画崩。结果哪怕把图像压缩 28 倍VGT-AE依然能实现了 26.67 PSNR 和 0.50 rFID 的重建质量远超专门设计的 VAE比如 DC-AE。2.3 QueryAR基于位置查询的并行因果建模解决了 “特征表征” 的问题又遇到了自回归生成的老毛病“一笔一笔按顺序画”不仅慢还容易搞混空间关系。VGT 摒弃了传统的离散 Token 预测分类任务转而在连续空间中进行回归预测。过去多个研究(MAR, Fuild)发现自回归生成时随机序列建模优于光栅顺序因此我们提出了 QueryAR一种解耦了“位置”与“内容”的生成机制, 能够不改变下一个 token 生成范式的情况下实现随机序列建模和并行生成。因果建模输入序列由位置查询Position Query, 与图像 Latent () 交错构成模型学习的是条件概率分布该设计使得模型能够显式地感知“我在画哪里”从而更好地捕捉全局空间关系。续流匹配区别于 VQ-VAE 的离散分类使用轻量级的 Flow Matching Head 直接预测连续向量场这种连续建模彻底消除了量化误差是 VGT 能够生成高质量细节的关键。并行推理 (Parallel Inference) 得益于 QueryAR 的设计VGT 支持部分并行解码。在推理时模型可以一次性接收多个位置查询并并行预测对应的 Latent实验证明在 16× 加速下VGT 仍保持极高的生成一致性打破了自回归模型“生成慢”的固有印象且生成质量损失极少。三、实验结果巧思能否落地数据是最好的证明。VGT 的 “数据效率” 堪称惊艳——相比于其他动辄使用 20亿2B甚至更多数据训练的Diffusion和自回归生成模型VGT 仅使用了不到 2500万\25M的数据就在多项基准测试中取得了 SOTA 成绩。在 Text-to-Image Generation 任务上GenEval 评分0.83 —— 不仅超越了 SDXL (0.55)、DALLE3 (0.67)甚至击败了 SD3-Medium (0.74)。DPG-Bench 评分81.28 —— 在自回归模型赛道中遥遥领先超越了 LlamaGen, VAR, Janus-Pro 等强力对手。四、Deep DiveVGT 背后的细节探索与架构灵活性VGT 不仅仅是一个新的范式更带来了对多模态生成的新思考。我们在研究中发现了两个超出预期的关键现象或许能为领域发展提供新视角4.1 重建越好生成越强吗在传统 VAE 训练中我们往往追求极致的像素级重建更高的 PSNR更低的 rFID。然而VGT 的实验揭示了一个有趣的 “重建-生成权衡” 现象。这和文献 VAVAE 中在 Diffusion 模型发现的规律类似在VGT 的自回归架构中那些在像素重建上做到极致的模型如标准的 InternVL3 VGT-AE其 Latent Space 往往高度纠缠、过于紧凑导致自回归模型难以进行语义预测。反之适度放松重建约束Low Rec 变体反而能让 Latent Space 呈现出更清晰的语义聚类结构从而大幅提升 GenEval 生成得分。结论很明确对于生成任务而言一个语义解耦的 Latent Space 远比一个像素级精确但语义混乱的空间更有价值。4.2 跨模型“混搭”VGT-AE 的通用语义魔力我们曾有个核心疑问VGT 的自编码器(AE) 和语言模型 (LLM) 必须来自同一个 VLM 家族吗为了验证这一点我们做了个大胆的“移花接木”实验将 Qwen2.5-VL 的 AE 与 InternVL3 的 LLM 强行组合。结果令人惊讶同源最佳毫无疑问AE 和 LLM 来自同一家族如全套 Qwen2.5-VL时效果最好得益于预训练阶段的深度对齐。混搭依然 SOTA 即使是“Qwen AE InternVL LLM”这种完全未对齐的组合其生成表现依然显著优于传统的 VAE 基线DC-AE。这证明了 VGT-AE 习得的不仅仅是某种模型特有的参数而是一种通用的、结构化的视觉语义表征。只要 VLM 经过了充分的多模态预训练VGT 就能激活其潜在的生成能力甚至跨越架构的藩篱。五、未来展望当然VGT 并非完美无缺。尽管它在 Geneval 和 DPG-Bench 等指令理解类基准上分数超过了大部分 Diffusion 模型但实际生图细节效果并未远超那些经大量高质量数据和多阶段技术训练的模型仍存在少量伪影问题。探究背后的原因我们发现那些生图质量顶尖的 Diffusion 模型比如 SANA 在 Geneval 或者 DPG-Bench 的指令遵循能力尤其是位置关系、主体关联等单项上弱于 VGT—— 这正是 VGT 的核心优势源于 VLM 微调天生就比 Diffusion 模型更懂语言能精准捕捉指令中的语义细节。因此未来的优化方向很清晰将继续发挥自回归生图的优势同时进一步借鉴 Diffusion 模型的先进训练技术进一步提升生图质量让 VGT 既 “懂你说的话”又 “画得更逼真”真正实现 “理解与生成一体化” 的终极目标。

苏州公司建设网站制作做网站内容图片多大

电影片头在线制作网站mvc6电商网站开发实战

绍兴本地网站建设企业展示型网站怎么建

怎么获取网站的图片我爱南宁地铁app下载

可以做游戏的网站有哪些内容企业网站常见问题

seo 网站树做网站软件排名

鹤岗哈尔滨网站建设企业快速建站免费模板