vip网站怎么做seo网站排名优化公司

张小明 2026/3/13 4:25:45
vip网站怎么做,seo网站排名优化公司,网站建设支付安全,注册一个网站要多少钱文章目录EAGLE 系列模型的演进与核心机制关键参数与训练逻辑思考参考来源#xff1a;https://docs.sglang.com.cn/backend/speculative_decoding.html https://github.com/SafeAILab/EAGLE EAGLE3 https://arxiv.org/pdf/2503.01840 EAGLE 系列模型的演进与核心机制 EAGLE 基…文章目录EAGLE 系列模型的演进与核心机制关键参数与训练逻辑思考参考来源https://docs.sglang.com.cn/backend/speculative_decoding.htmlhttps://github.com/SafeAILab/EAGLEEAGLE3 https://arxiv.org/pdf/2503.01840EAGLE 系列模型的演进与核心机制EAGLE 基础架构草稿模型通过特征序列和 token 序列预测下一个特征向量基于原始 LLM 的最后一个隐藏状态生成候选。采样后的 token 与原始序列以树状结构扩展分支因子由speculative_eagle_topk控制确保上下文连贯性。扩展后的树结构重新作为输入迭代生成。EAGLE-2 的优化引入动态分支评估机制草稿模型主动评估扩展分支的可能性提前终止低概率分支的扩展。扩展阶段结束后通过重排序筛选前speculative_num_draft_tokens个节点作为最终草稿 token减少冗余计算。将--speculative-token-map参数设置为true以启用高频 token 优化功能。该参数通常在模型推理或训练配置文件中进行设置。EAGLE-3 的改进移除特征预测目标整合低层与中间层特征提升表示能力。采用 on-policy 训练方式使模型在推理阶段的行为与训练目标更一致进一步优化生成质量与效率。关键参数与训练逻辑speculative_eagle_topk控制每步扩展的分支数量影响生成多样性与计算开销。speculative_num_draft_tokens决定保留的候选 token 数量平衡生成速度与准确性。On-policy 训练通过对齐训练与推理阶段的策略减少分布偏移问题。https://github.com/SafeAILab/EAGLE/blob/main/eagle/traineagle3/cnets.py核心代码部分def_prepare_decoder_attention_mask(self,attention_mask,input_shape,inputs_embeds,past_key_values_length):# create causal mask# [bsz, seq_len] - [bsz, 1, tgt_seq_len, src_seq_len]combined_attention_maskNoneifinput_shape[-1]1:combined_attention_mask_make_causal_mask(input_shape,inputs_embeds.dtype,deviceinputs_embeds.device,past_key_values_lengthpast_key_values_length,)ifattention_maskisnotNone:# [bsz, seq_len] - [bsz, 1, tgt_seq_len, src_seq_len]expanded_attn_mask_expand_mask(attention_mask,inputs_embeds.dtype,tgt_leninput_shape[-1]).to(inputs_embeds.device)combined_attention_mask(expanded_attn_maskifcombined_attention_maskisNoneelseexpanded_attn_maskcombined_attention_mask)returncombined_attention_masktorch.no_grad()defdataprepare(self,input_ids,attention_mask,loss_mask):deviceinput_ids.device outsself.target_model(input_idsinput_ids,attention_maskattention_mask)hidden_states0outs.hidden_states[0]hidden_states1outs.hidden_states[1]hidden_states2outs.hidden_states[2]hidden_statestorch.cat((hidden_states0,hidden_states1,hidden_states2),dim-1)# hidden_statestorch.cat((hidden_states0,hidden_states1),dim-1)targetouts.logits targetpadding(target,leftFalse)input_idspadding(input_ids,leftFalse)iftargetisnotNone:targettarget.to(device)loss_maskloss_mask[...,None]loss_maskloss_mask.to(device)returnhidden_states,target,loss_mask,input_idsdefforward(self,# hidden_states,input_ids,attention_mask:Optional[torch.Tensor]None,position_ids:Optional[torch.LongTensor]None,past_key_values:Optional[List[torch.FloatTensor]]None,use_cache:Optional[bool]None,output_attentions:Optional[bool]None,output_hidden_states:Optional[bool]None,loss_mask:Optional[torch.Tensor]None,):hidden_states,target,loss_mask,input_idsself.dataprepare(input_ids,attention_mask,loss_mask)batch_size,seq_length,_hidden_states.shape seq_length_with_pastseq_length past_key_values_length0# with torch.no_grad():# inputs_embeds self.embed_tokens(input_ids)# inputs_embeds inputs_embeds.detach()ifself.trainingandself.gradient_checkpointingandnothidden_states.requires_grad:hidden_states.requires_gradTruehidden_statesself.fc(hidden_states)ifpast_key_valuesisnotNone:past_key_values_lengthpast_key_values[0][0].shape[2]seq_length_with_pastseq_length_with_pastpast_key_values_lengthifposition_idsisNone:devicehidden_states.device position_idstorch.arange(past_key_values_length,seq_lengthpast_key_values_length,dtypetorch.long,devicedevice)position_idsposition_ids.unsqueeze(0).view(-1,seq_length)else:position_idsposition_ids.view(-1,seq_length).long()ifattention_maskisNone:attention_masktorch.ones((batch_size,seq_length_with_past),dtypetorch.bool,devicehidden_states.device)attention_maskself._prepare_decoder_attention_mask(attention_mask,(batch_size,seq_length),hidden_states,past_key_values_length)ifself.gradient_checkpointingandself.training:ifuse_cache:use_cacheFalseplosses[]vlosses[]acces[]cache_hidden[[],[]]foridxinrange(self.length):lastidxself.length-1inputs_embedsself.embed_tokens(input_ids)ifself.trainingandself.gradient_checkpointingandnotinputs_embeds.requires_grad:inputs_embeds.requires_gradTrueinputs_embedsinputs_embeds.to(hidden_states.dtype)ifself.gradient_checkpointingandself.training:defcreate_custom_forward(module):defcustom_forward(*inputs):# None for past_key_valuereturnmodule(*inputs,None,output_attentions)returncustom_forward layer_outputs,cache_hiddentorch.utils.checkpoint.checkpoint(create_custom_forward(self.midlayer),inputs_embeds,hidden_states,cache_hidden,attention_mask,position_ids,)else:layer_outputs,cache_hiddenself.midlayer(input_embinputs_embeds,hidden_stateshidden_states,cache_hiddencache_hidden,attention_maskattention_mask,position_idsposition_ids,past_key_valueNone,output_attentionsoutput_attentions,use_cacheTrue,)hidden_states_outlayer_outputs[0]# cache_hidden.append(layer_outputs[1])# kv_cahce layer_outputs[-1]withtorch.no_grad():# hidden_states_target padding(hidden_states, leftFalse)target_headtarget target_max_tokentarget_head.argmax(-1)# Move d2t to the same device as target_max_tokenself.t2dself.t2d.to(target_max_token.device)target_maskself.t2d[target_max_token]target_masktarget_mask[...,None].int()position_masktarget_mask*loss_mask target_headtarget_head[...,self.t2d]target_headtarget_head.float()target_pnn.Softmax(dim2)(target_head)target_ptarget_p.detach()hidden_stateshidden_states_out hidden_states_outself.norm(hidden_states_out)logitsself.lm_head(hidden_states_out)logitslogits.float()out_logpnn.LogSoftmax(dim2)(logits)plogptarget_p*out_logp loss-torch.sum(position_mask*plogp,2).mean()plosses.append(loss)withtorch.no_grad():acces.append(((logits.argmax(-1)target_p.argmax(-1))*position_mask.squeeze(-1)).sum().item()/(loss_mask.sum().item()1e-6))ifnotlast:input_idspadding(input_ids,leftFalse)targetpadding(target,leftFalse)loss_maskpadding(loss_mask,leftFalse)returnplosses,vlosses,acces思考》 FASTMTP与EAGLE3相比谁更快一些
版权声明:本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!

遵义网站建设公司电话多少汕头网站优化哪家好

快速体验 打开 InsCode(快马)平台 https://www.inscode.net输入框内输入如下内容: 创建一个效率对比工具,展示AI自动修复数组错误的优势。要求:1. 生成10个典型的数组维度错误案例 2. 分别记录手动调试耗时 3. 使用AI自动修复耗时 4. 生成对…

张小明 2026/3/5 4:25:21 网站建设

合肥网站建设企业百度广告怎么推广

AMD GPU大模型推理性能优化:从4倍加速到20倍内存效率提升的技术探索 【免费下载链接】flash-attention Fast and memory-efficient exact attention 项目地址: https://gitcode.com/GitHub_Trending/fl/flash-attention 在AMD GPU上部署大语言模型时&#xf…

张小明 2026/3/5 4:25:22 网站建设

网站session云南疾控最新消息今天

Kotaemon的缓存策略有多聪明?减少重复计算省30%资源 在构建现代智能对话系统时,一个看似简单却极为关键的问题浮出水面:为什么用户每次换种说法问同一个问题,系统都要重新“思考”一遍?尤其是在基于检索增强生成&#…

张小明 2026/3/5 4:25:22 网站建设

去哪里找做网站 的客户陈木胜个人资料

WekiXanSaryi数据集是一个专注于历史文化建筑识别的数据集,特别针对Xan-Sarayi(汗宫)这一具有历史文化价值的建筑进行标注。该数据集共包含46张图像,所有图像均采用YOLOv8格式进行标注,标注对象为Xan-Sarayi。在数据预…

张小明 2026/3/5 4:25:23 网站建设

如何自学网站制作怎么做买东西的网站

在企业数字化转型进入深水区的当下,单一的项目管理模式已难以支撑复杂的业务战略落地。项目集管理(Program Management) 与 企业级项目组合管理(PPM) 正逐渐成为组织效能提升的核心抓手。本文基于深度的语义分析与行业…

张小明 2026/3/5 4:25:27 网站建设