原网站开发新功能如何把地图放到自己做的网站上

张小明 2026/1/11 4:54:07
原网站开发新功能,如何把地图放到自己做的网站上,做网站 需要什么营业执照,医院网站建设的要求前言 大语言模型#xff08;LLM#xff09;的推理过程#xff0c;本质上是一个在离散 token 空间中进行条件概率建模与自回归采样的计算流程。从系统角度看#xff0c;这一过程可以被严格拆解为#xff1a;文本离散化、全量上下文建模#xff08;Prefill#xff09;、概…前言大语言模型LLM的推理过程本质上是一个在离散 token 空间中进行条件概率建模与自回归采样的计算流程。从系统角度看这一过程可以被严格拆解为文本离散化、全量上下文建模Prefill、概率分布构造、候选空间裁剪、随机采样、状态递推直至满足终止条件。以下按照真实执行顺序对每一阶段进行完整解析。一、文本输入与 Tokenisation离散化的起点模型无法直接处理字符串。所有文本输入首先通过 tokenizer 映射为 token ID 序列。Tokenisation 是一个确定性函数其输出完全由 tokenizer 和词表定义与模型参数无关。tokenization分为字词级、子词级、字节级词元化各有优劣。现代 LLM 普遍采用子词级subwordtokenisation如 BPE、Unigram LM。其核心目标不是“语言学合理”而是相对于其他词元化的规则子词级有以下优势控制词表规模覆盖长尾词与未登录词压缩 token 数以降低 Attention 计算成本。Tokenisation 的结果直接决定输入 token 数影响 Attention 的O(n2)O(n^2)O(n2)复杂度可用上下文长度context window 是 token 数上限而非字符数推理成本与延迟的下限。模型后续所有计算均发生在 token 空间中任何字符串级操作在此之后都不再存在。二、Embedding 与 Transformer进入连续空间每个 token ID 通过 embedding lookup 映射为一个定长向量其维度为模型的 hidden size与词表大小无关。Embedding 层的本质是一个形状为 (∣V∣×d|V| \times d∣V∣×d) 的查表矩阵其中单个 token 对应的向量长度为 (d)。Embedding 向量叠加位置编码后输入 Transformer Decoder 堆栈。每一层 Transformer 由多头自注意力Self-Attention前馈网络FFN残差连接与 LayerNorm组成。Self-Attention 的计算复杂度随 token 数平方增长这是长上下文推理的根本瓶颈。三、Prefill全量上下文的 Attention 展开Prefill 是指模型对全部输入 token进行一次前向传播的阶段其核心目的不是生成输出而是构建 Attention 所需的 Key / Value Cache。在 Prefill 阶段每一层 Transformer 都会为每个 token 计算对应的 Key 和 ValueAttention 在完整序列上展开复杂度为O(n2)O(n^2)O(n2)Prefill 只执行一次但计算量巨大。工程上长 prompt 导致的首 token 延迟几乎完全由 Prefill 决定。RAG、长对话、系统 prompt 叠加本质上都是在放大这一阶段的成本。四、KV Cache自回归生成的状态基础Prefill 结束后模型已为当前上下文中所有 token 构建好 KV Cache。KV Cache 存储的是各层 Attention 的 Key / Value 张量其维度属于 hidden space而非词表空间。KV Cache 的存在使得后续生成阶段无需重新计算历史 token 的 Attention从而将自回归生成的复杂度从O(n2)O(n^2)O(n2)降为O(n)O(n)O(n)。代价是显存占用随上下文长度线性增长。五、Logits 与 Softmax从连续表示到词表空间在 Prefill 的最后一个 token或 Decode 阶段的每一步模型都会输出一个 logits 向量其维度等于词表大小 (∣V∣|V|∣V∣)。这是模型唯一一次显式进入“词表空间”。Logits 是未归一化的对数得分不具备概率意义。通过 softmax将 logits 映射为一个在词表上的概率分布piezi/T∑jezj/T p_i \frac{e^{z_i / T}}{\sum_j e^{z_j / T}}pi​∑j​ezj​/Tezi​/T​Temperature本质上是对 logits 的线性缩放用于调节概率分布的陡峭程度。Temperature 不改变 token 排序仅影响概率差距与分布熵因此只在 sampling 场景中生效。设模型在某一步输出的 logits 为z(z1,z2,…,z∣V∣),zi∈R \mathbf{z} (z_1, z_2, \dots, z_{|V|}), \quad z_i \in \mathbb{R}z(z1​,z2​,…,z∣V∣​),zi​∈R带 Temperature 的 softmax 定义为pi(T)exp⁡(zi/T)∑j1∣V∣exp⁡(zj/T) p_i(T) \frac{\exp(z_i / T)}{\sum_{j1}^{|V|} \exp(z_j / T)}pi​(T)∑j1∣V∣​exp(zj​/T)exp(zi​/T)​其中(T0T 0T0) 为 temperaturepi(T)p_i(T)pi​(T)是 token (iii) 的生成概率Temperature 数学性质排序不变性对任意T0T0T0若zazbz_a z_bza​zb​则pa(T)pb(T)p_a(T) p_b(T)pa​(T)pb​(T)Temperature 不改变 token 排序只改变概率差距。对数概率差缩放log⁡papbza−zbT\log \frac{p_a}{p_b} \frac{z_a - z_b}{T}logpb​pa​​Tza​−zb​​Temperature 实际是在缩放 logits 差值从而控制概率分布的熵。极限行为T→0T \to 0T→0分布收敛为 one-hot近似 argmax(T \to \infty)分布收敛为均匀分布六、候选空间裁剪Top-k 与 Top-p直接在完整词表上采样在工程上不可控因此需要对概率分布进行裁剪。设经过 softmax已包含 temperature后得到的概率分布为p(p1,p2,…,p∣V∣),∑ipi1p (p_1, p_2, \dots, p_{|V|}), \quad \sum_i p_i 1p(p1​,p2​,…,p∣V∣​),i∑​pi​1将所有 token 按概率从大到小排序p(1)≥p(2)≥⋯≥p(∣V∣) p_{(1)} \ge p_{(2)} \ge \dots \ge p_{(|V|)}p(1)​≥p(2)​≥⋯≥p(∣V∣)​Top-k仅保留概率最高的 (k) 个 token形成硬截断的候选集。Top-pNucleus Sampling保留累计概率达到阈值 § 的最小 token 集合属于分布感知型裁剪若同时启用最终候选集为二者的交集。实践中通常以 Top-p 为主、Top-k 为安全阀用于限制极端平坦分布。裁剪并不等于选择它只是定义“哪些 token 仍有资格被选中”。实际执行顺序为logits;→/T;softmax;→Top-p;Vp;→re-normalize;sampling \text{logits} ;\xrightarrow{/T}; \text{softmax} ;\xrightarrow{\text{Top-p}}; V_p ;\xrightarrow{\text{re-normalize}}; \text{sampling}logits;/T​;softmax;Top-p​;Vp​;re-normalize​;samplingTemperature 决定概率如何分布Top-p 决定哪些概率仍然存在。七、重归一化与随机采样离散决策的发生点候选集确定后系统会将候选集外 token 的概率置零并在候选集内重新归一化形成新的合法概率分布。随后进行一次分类分布采样选出下一个 token ID。这是整个推理过程中唯一引入随机性的步骤。所有生成多样性、漂移、重复、幻觉风险最终都可以追溯到这一采样操作及其参数设置。当候选集退化为单一 token 时采样等价于 greedy decoding。八、Decode 循环自回归推进采样得到的 token 会立即转换为 embedding输入 Transformer使用已有 KV Cache仅计算新 token 的 Attention输出新的 logits。同时新 token 对应的 Key / Value 会被追加进 KV Cache。随后再次进入“logits → 裁剪 → 采样”的循环。这一 Decode 过程持续进行直到满足停止条件EOS、最大 token 数或自定义规则。Streaming 输出只是 Decode 阶段逐 token 暴露中间结果的表现形式不改变计算本质。九、整体视角下的因果链从系统角度看整个推理过程可以压缩为一条因果链Tokenisation 决定 token 数与计算下限Prefill 决定首 token 延迟与 Attention 成本KV Cache 决定 Decode 阶段是否可扩展Sampling 决定输出行为的稳定性与熵。
版权声明:本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!

哪里有免费建站平台商品推广

ITK-SNAP医学图像分割:5步掌握专业级影像分析技能 【免费下载链接】itksnap ITK-SNAP medical image segmentation tool 项目地址: https://gitcode.com/gh_mirrors/it/itksnap 还在为复杂的医学图像分析而头疼吗?ITK-SNAP作为一款功能强大的开源…

张小明 2025/12/29 13:25:41 网站建设

私活网站开发多少钱网站seo在线诊断分析

mBART-50多对多多语言机器翻译模型作为先进的多语言翻译技术,支持50种语言间的直接互译。通过精准的参数配置,用户可以显著提升翻译准确性和流畅度。 【免费下载链接】mbart-large-50-many-to-many-mmt 项目地址: https://ai.gitcode.com/hf_mirrors/…

张小明 2026/1/9 17:18:27 网站建设

房地产门户网站建设网站开发需求图

快速体验 打开 InsCode(快马)平台 https://www.inscode.net输入框内输入如下内容: 开发一个基于STM32F407的智能家居网关项目,功能要求:1.集成Zigbee(CC2530)和ESP8266 WiFi模块 2.实现Modbus RTU转MQTT协议桥接 3.包含OLED状态显示驱动 4.支…

张小明 2025/12/29 19:17:46 网站建设

网站优化如何做官方网站怎么建设的

在现代流体管道运输行业中,随着工业数字化与智能化建设的加速推进,高效的压力监测与运维方案已成为保障管道安全与提升系统运行效率的关键环节;精准、实时的压力监测不仅能够及时发现潜在风险、降低故障率,还能通过数据化管理实现…

张小明 2025/12/31 7:12:23 网站建设

自建站工具贵州二建报名入口官网

直接调用工具时,每次工具定义和执行结果都会占用上下文资源。而让智能体通过编写代码来调用工具,能实现更好的扩展性,以下是借助 MCP 实现这一方案的具体原理。 模型上下文协议(Model Context Protocol,简称 MCP&#…

张小明 2025/12/26 2:30:01 网站建设

网站增加点击率 怎样做福州贸易公司网站制作

你是否曾经想过,为什么别人的Minecraft世界总是那么精彩?为什么他们的装备属性完美无缺?答案就藏在NBTExplorer这个数据编辑神器之中。今天,让我们一起来揭开它的神秘面纱,让你的游戏体验从此与众不同。 【免费下载链接…

张小明 2025/12/26 2:29:59 网站建设