营销型网站建设实战感想,中山企业网站推广公司,网页制作基础教程试卷,广告做图网站纯手打#xff0c;代码整理中#xff0c;持续更新中^-^
目录
纯手打#xff0c;代码整理中#xff0c;持续更新中^-^
一、Scaling Laws
1、主要概括#xff1a;
2、论文主要内容图解
左图#xff09;当目标性能#xff08;如测试准确率、损失值#xff09;固定时…纯手打代码整理中持续更新中^-^目录纯手打代码整理中持续更新中^-^一、Scaling Laws1、主要概括2、论文主要内容图解左图当目标性能如测试准确率、损失值固定时更大的神经网络模型可以用更少的训练数据达到与小模型相同的性能水平。右图揭示了模型规模size、计算预算compute和性能目标loss之间的动态关系1. 损失目标Loss Target驱动模型增长2. 计算预算Compute Budget支撑模型扩展3. Smoothly的数学本质代码模拟3、相关论文扩展4、面试题为什么Scaling Laws对模型架构选择有指导意义二、涌现能力1 、什么是涌现现象2、为什么会出现涌现现象三、CLM vs MLM建模1、核心目标2、两者对比3、代码实战4、思考和面试1、CLM vs MLM核心区别2、为什么CLM不适合直接用于文本分类3、MLM的掩码策略如15%掩码率对模型性能的影响一、Scaling Laws论文地址https://arxiv.org/pdf/2001.08361本地文件Scaling Laws.pdf参考博客https://zhuanlan.zhihu.com/p/6849553731、主要概括主要提出了Scaling Laws这个概念指出了大模型的发展瓶颈和研究方向大模型时代的摩尔定律。模型的训练的计算量C主要受到以下2个因素的影响模型参数的数量 N数据集的大小 D模型的计算量C一定后模型的性能即精度就基本确定。它的决策变量只有模型参数的数量N和数据集的大小D(也就是token的数量)跟模型的具体结构诸如层数、 深度、 attention头个数宽度基本无关。相关性非常小性能即test loss在2%的区间内。2、论文主要内容图解下面这张图来自Scaling Laws论文Figure 2左图当目标性能如测试准确率、损失值固定时更大的神经网络模型可以用更少的训练数据达到与小模型相同的性能水平。表现在1. 表征学习能力增强大模型拥有更大的参数空间能学习更精细的数据特征。例如小模型1B参数可能需要100万张图片才能学会猫的概念大模型10B参数可能只需20万张就能达到相同识别率2. 隐式正则化效应大模型的过拟合风险反而更低与经典统计学的认知相反。原因包括梯度噪声的隐式正则化作用 添加噪声有鲁棒性能帮助跳出局部陷阱大模型的参数空间存在更多等效最优解路径3.训练动态优化大模型在训练早期阶段fewer steps就能捕捉关键模式训练阶段小模型行为大模型行为初期学习局部特征快速捕获全局特征中期开始拟合细节已进入微调阶段4. 如果目标是最低训练成本应该如何权衡使用大模型少数据但高显存消耗使用小模型多数据但长训练时间右图揭示了模型规模size、计算预算compute和性能目标loss之间的动态关系1. 损失目标Loss Target驱动模型增长目标越严格Loss值要求越低即性能越高→ 模型需更大原因复杂任务需要更多参数建模高阶模式如语言模型中的长程依赖示例将语言模型的困惑度Perplexity从20降到15参数量需从1B增至10B2. 计算预算Compute Budget支撑模型扩展计算资源越充足 → 可训练更大模型计算分配公式()示例计算预算从1e19 FLOPs增至1e21 FLOPs最优模型规模从300M增至7B参数3. Smoothly的数学本质增长遵循幂律关系而非线性或阶梯式突变其中 (), ()具体系数因任务而异代码模拟def optimal_model_size(L_target, C_budget, alpha0.42, beta0.12): 计算给定损失目标和计算预算时的最优模型规模 :param L_target: 目标损失值越低性能越好 :param C_budget: 计算预算FLOPs :return: 最优参数量单位B N_base 0.3 # 基准模型300M参数 L_base 3.5 # 基准损失 C_base 1e19 # 基准计算量 # 计算缩放因子 scale_C (C_budget / C_base) ** alpha scale_L (L_base / L_target) ** beta return N_base * scale_C * scale_L # 示例计算当C1e21 FLOPs且L_target2.0时的最优模型 print(optimal_model_size(2.0, 1e21)) # 输出约6.7B3、相关论文扩展参考视频【8篇scaling laws 论文泛读哪篇是你的心头好Scaling Law】 https://www.bilibili.com/video/BV1gisteJEWx/?share_sourcecopy_webvd_source9fe9e3d550891e4a38f66eead88c8b403.1 arxiv.org Scaling Data-Constrained Language Models在数据受限的情况下 scaling law怎么分配计算资源和最大化模型效果。主要考虑在使用重复数据时数据价值的衰减是怎么样的。实验发现对大语言模型进行多轮训练并重复使用训练数据是有益的在多轮训练的情况下这个scaling-law的定律依然是成立的。4、面试题为什么Scaling Laws对模型架构选择有指导意义Scaling Laws揭示了模型性能与规模参数量、数据量、计算量的幂律关系对架构选择的指导意义有3点资源分配依据通过小规模实验预测最优架构尺寸如层数、宽度避免盲目试错。效率验证若架构不符合计算-性能的缩放规律如Transformer优于RNN表明其扩展潜力不足。组件平衡指导不同模块如注意力头、FFN层的规模分配使扩展收益最大化。二、涌现能力Emergent Abilities of Large Language Models https://arxiv.org/abs/2206.076821 、什么是涌现现象量变引起质变当规模达到一定程度的时候产生了一种群体的现象这种群体的现象再也不能从原来的个体现象推知可能需要一个新的学科或者一些新的定律来研究整体的系统。说人话就是一开始模型学习翻译的训练完之后模型也学会了做完型填空……总结大模型出现涌现现象Emergent Abilities的本质是复杂系统在规模效应和高维表征能力的共同作用下产生的非线性相变。小模型不具备但是大模型拥有的但是大模型达到哪一个规模7B70B会出现涌现能力这个是不能确定的。实验增强语言模型能力的emerge现象2、为什么会出现涌现现象1、多步能力模型在每个子能力达到90%处理任务有缺陷。但是每个子能力达到95%时就可以胜任这个任务了。思维链Chain-of-Thought的自组织2、跨模态知识融合等原因三、CLM vs MLM建模1、核心目标理解CLMCausal Language Model和MLMMasked Language Model的建模差异、适用场景及模型结构。必读论文MLM: BERT论文BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding重点阅读3.1节https://arxiv.org/abs/1810.04805CLM: GPT-2论文Language Models are Unsupervised Multitask Learners重点阅读2-3节https://jalammar.github.io/illustrated-bert/通俗解读The Illustrated GPT-2可视化CLM自回归生成 https://jalammar.github.io/illustrated-gpt2/中文翻译图解GPT-2 | The Illustrated GPT-2 (Visualizing Transformer Language Models)-CSDN博客 强烈推荐看中文版The IllustratedBERT可视化MLM双向编码https://jalammar.github.io/illustrated-bert/ 参考中文博客https://zhuanlan.zhihu.com/p/76714382思考问题1、MLM只看左边的词因此需要mask-self-attentionmask的策略和CLM不一样2、AR任务的取词策略topk参数的含义3、decoder-only的架构任务的应用摘要生成、机器翻译等(bert相关问题)1、EMLo在语境问题下是怎么对Word2vec做出改变的?2、两者对比建模目标CLM自回归预测下一个token单向仅左侧上下文MLM随机掩码部分token利用双向上下文预测# CLMGPT输入处理示例遮盖未来token input_ids [token_1, token_2, token_3, ...] labels [token_2, token_3, ..., eos] # 预测下一个词 # MLMBERT输入处理示例随机掩码 input_ids [token_1, [MASK], token_3, [MASK], ...] labels [-100, token_2, -100, token_4, ...] # 仅计算被掩码位置的loss模型结构CLMDecoder-only架构带掩码的注意力防止看到未来信息MLMEncoder-only架构全注意力可看到双向上下文任务类型CLMGPT类MLMBERT类文本生成✔️ 优❌ 劣文本分类❌ 劣✔️ 优完形填空❌ 劣✔️ 优3、代码实战# Hugging Face快速体验CLM和MLM from transformers import GPT2LMHeadModel, BertForMaskedLM # CLM生成文本GPT-2 gpt GPT2LMHeadModel.from_pretrained(gpt2) input_ids tokenizer.encode(Once upon a time,, return_tensorspt) output gpt.generate(input_ids, max_length50) # MLM填空BERT bert BertForMaskedLM.from_pretrained(bert-base-uncased) input_ids tokenizer.encode(The capital of France is [MASK]., return_tensorspt) outputs bert(input_ids).logits predicted_token tokenizer.decode(outputs[0].argmax(dim1)4、思考和面试1、CLMvsMLM核心区别CLM如GPT自回归生成Auto-regressionDecoder-only适合生成任务训练时只能看到左侧上下文。MLM如BERT双向编码Encoder-only适合理解任务训练时利用双向上下文预测掩码词。选择依据任务类型生成→CLM理解→MLM和数据规模小数据→MLM更高效。2、为什么CLM不适合直接用于文本分类结论单向建模导致全局语义缺失生成目标与分类任务不匹配需额外调整结构或训练目标。上下文局限性CLM仅利用左侧上下文预测下一个词无法像MLM如BERT一样捕捉双向语义。分类任务需要全局语义理解如情感极性、主题分类而单向建模会忽略右侧关键信息。例句子“这部电影虽然特效好但剧情糟糕”中CLM无法用“剧情糟糕”修正对“特效好”的初步判断。表示能力不足CLM的最终隐藏状态偏向解码生成而非分类所需的判别式特征。MLM通过预训练学习更均衡的上下文表征尤其适合分类任务。训练目标不匹配CLM的生成目标预测下一个词与分类的判别目标差异较大需额外微调或添加分类头。MLM的掩码预测任务更接近分类需推断全局信息。3、MLM的掩码策略如15%掩码率对模型性能的影响15%掩码率平衡学习难度替换策略防止过拟合[MASK]动态掩码提升鲁棒性。过高或过低的掩码率均损害模型性能需根据任务调整。平衡学习难度15%掩码率是BERT论文通过实验验证的平衡点过高如30%上下文信息不足模型难以预测掩码词。过低如5%训练效率低模型未充分学习语义。掩码替换策略80%替换为[MASK]、10%随机替换、10%保留原词防止模型过度依赖[MASK]标记因下游任务无[MASK]。随机替换引入噪声增强鲁棒性保留原词迫使模型学习真实分布。例输入“The [MASK] of France is Paris”模型需综合“France”和“Paris”推断掩码词为“capital”。对模型性能的影响掩码率过高模型偏向局部模式记忆泛化能力下降。掩码率过低模型未充分学习深层语义关系。动态掩码如RoBERTa随机掩码位置提升训练多样性效果更优。