小白node怎么做网站营销推广信息-Seo优化-合肥市网站建设公司

小白node怎么做网站,营销推广信息,微网站建设费用,wordpress 网页登录目录1 AI智能体2 多智能体系统2.1 系统架构2.2 通信机制3 终身、自进化智能体系统的愿景4 MASE概念框架5 单智能体优化#xff08;Single-Agent Optimisation#xff09;5.1 LLM行为优化5.1.1 基于训练的行为优化5.1.2 测试时行为优化5.2 提示优化5.2.1 基于编辑的提示优化5.…目录1 AI智能体2 多智能体系统2.1 系统架构2.2 通信机制3 终身、自进化智能体系统的愿景4 MASE概念框架5 单智能体优化Single-Agent Optimisation5.1 LLM行为优化5.1.1 基于训练的行为优化5.1.2 测试时行为优化5.2 提示优化5.2.1 基于编辑的提示优化5.2.2 基于生成的提示优化5.2.3 基于文本梯度的提示优化5.2.4 进化提示优化5.3 记忆优化5.3.1 短期记忆优化5.3.2 长期记忆优化5.4 工具优化5.4.1 基于训练的工具优化5.4.2 推理时工具优化5.4.3 工具功能优化1 AI智能体AI智能体指的是能够感知输入信息、对目标进行推理、并与环境交互以完成任务的自主系统。一个AI智能体通常由多个协同工作以实现自主决策与执行的组件构成。智能体的核心组件是基座模型最常用的是大语言模型其作为核心推理引擎负责解析指令、生成计划并产生可执行的响应。此外还有一些支持性模块来增强智能体在复杂动态环境中的能力(1) 感知模块。感知模块负责从环境中获取并解读信息。这包括处理文本输入、音频信号、视频帧或其他类感官数据以构建适用于推理的表征。(2) 规划模块。规划模块使智能体能够将复杂任务分解为可执行的子任务或操作序列并指导其在多个步骤中的执行。这一过程促进了分层推理并确保任务连贯地完成。最简单的规划形式之一是线性任务分解即将问题分解为多个中间步骤LLM遵循这些步骤来解决问题。思维链提示等方法即是例证。除了静态规划更多动态方法在迭代循环中交织进行规划与执行。例如ReAct框架将推理与行动相结合允许智能体根据实时反馈修正其计划。除线性规划外一些方法采用分支策略即每一步都可能产生多个可能的后续路径。代表性例子是思维树和图思维它们使智能体能够探索多种推理路径。(3) 记忆模块。记忆模块使智能体能够保留和回忆过去的经验从而实现情境感知推理和长期一致性。广义上记忆可分为短期记忆和长期记忆。短期记忆通常存储当前任务执行过程中产生的上下文和交互信息一旦任务完成短期记忆将被清除。相比之下长期记忆持久存在可以存储跨任务积累的知识、过去经验或可重用信息。为了访问相关的长期记忆许多智能体系统采用检索增强生成模块智能体从记忆中检索相关信息并将其整合到LLM的输入上下文中。设计一个有效的记忆模块涉及若干挑战包括如何构建记忆表征、何时存储什么信息、如何高效检索相关信息以及如何将其整合到推理过程中。关于AI智能体记忆机制更全面的综述读者可参阅相关文献。(4) 工具使用。使用外部工具的能力是AI智能体在现实场景中有效运行的关键因素。虽然LLM在语言理解和生成方面能力强大但其能力本质上受限于其静态知识和推理能力。通过使用外部工具智能体可以扩展其功能范围从而更好地与现实世界环境互动。典型工具包括网络搜索引擎、代码解释器或执行环境以及浏览器自动化框架。工具使用组件的设计通常涉及选择工具、构建特定于工具的输入、调用API以及将工具输出整合回推理过程。2 多智能体系统尽管单智能体系统已在多种任务中展现出强大能力但许多现实世界的任务需要超出单个智能体能力的专业化与协作。这一局限性推动了多智能体系统的的发展其灵感来源于生物与社会系统中存在的分布式智能。多智能体系统被正式定义为在一个共享环境中互动、以实现单个智能体无法达成之目标的一组自主智能体集合。与单纯依赖个体推理和能力的单智能体系统不同多智能体系统侧重于通过不同智能体之间的结构化协调与协作来实现集体智能。实现这种协调的一个基本机制是智能体拓扑结构的概念即定义智能体在系统中如何连接与通信的结构配置。拓扑结构决定了智能体间的信息流和协作策略直接影响任务的分配与执行方式。因此多智能体系统通常被实现为一种多智能体工作流其中系统的拓扑结构协调智能体间的互动以完成复杂的共享目标。关键洞见在于当多个智能体通过此类工作流协作时系统的整体性能可以超越系统中所有智能体个体能力的总和。相较于单智能体系统多智能体系统带来了若干显著优势任务分解与专业化可将复杂任务分解为可管理的子任务并分配给专门的智能体有助于提升整体性能。这种方法模仿了人类的组织协作使多智能体系统能够处理超出单个智能体能力的任务。并行执行支持多个智能体同时工作以完成任务。这一特性对时间敏感型应用尤为有利能极大加速问题解决过程。鲁棒性增强其去中心化特性增强了鲁棒性当一个智能体失效时其他智能体可以动态地重新分配任务并弥补失效确保系统优雅降级而非完全崩溃。内在可扩展性新的智能体可以无缝集成而无需重新设计整个系统。促进创新解决方案通过辩论、迭代优化等协作机制利用不同视角和智能体间的批判性评估能够产生更具创新性和可靠性的解决方案。诸如CAMEL和AutoGen等框架通过提供模块化架构、角色扮演模式和自动化编排能力进一步简化了多智能体系统的开发降低了工程开销。2.1 系统架构多智能体系统的架构设计从根本上决定了智能体如何组织、协调和执行任务。这些结构从严格的层级到灵活的对等网络不等各自体现了关于控制、自主性和协作的不同理念。层级结构这类系统采用静态的层级组织通常为线性或树状任务被明确分解并按顺序分配给特定智能体。例如MetaGPT引入了标准操作规程来优化软件开发流程而HALO则结合了蒙特卡洛树搜索来提升推理性能。这种高度定制化的方法提供了模块化、易于开发和针对特定领域的优化使其在软件开发、医学、科学研究和社会科学等领域非常普遍。集中式结构此架构遵循管理者-追随者范式由一个中心智能体或高层协调器处理规划、任务分解和委派而下属智能体则执行分配的子任务。这种设计有效地平衡了全局规划和具体任务执行。然而中心节点会造成性能瓶颈并引入单点故障隐患从而影响系统鲁棒性。去中心化结构在此架构中智能体以对等方式在分布式网络中协作广泛应用于世界模拟应用。由于没有中心控制避免了单点故障——任何节点的损坏都不会导致整个系统瘫痪从而消除了瓶颈并增强了鲁棒性。然而这带来了信息同步、数据安全和协作成本增加等方面的挑战。近期研究探索使用区块链技术来解决这些协调难题。2.2 通信机制多智能体系统的有效性在很大程度上取决于智能体如何交换信息和协调行动。其中的通信方法已从简单的消息传递演变为能够平衡表现力、效率和互操作性的复杂协议。结构化输出这种方法使用如JSON、XML和可执行代码等格式进行智能体间通信。其明确的结构和定义良好的参数确保了高度的机器可读性和可解释性同时标准化格式促进了跨平台协作。这些特性使得结构化通信非常适合需要精确性和效率的应用例如问题解决和推理任务。紧凑的信息表示形式进一步提升了计算效率。自然语言自然语言通信保留了丰富的上下文和语义细节使其特别适用于创造性任务、世界模拟和创意写作场景。这种表现力使得能够进行捕捉细微含义和意图的复杂互动。然而与结构化格式相比它也带来了包括歧义、潜在误解和执行效率降低等挑战。标准化协议最近的进展引入了专门设计的协议来标准化多智能体系统通信以创建更具包容性和互操作性的智能体生态系统A2A通过结构化的对等任务委派模型标准化水平通信使智能体能够在保持执行不透明性的同时就复杂、长期运行的任务进行协作。ANP通过内置去中心化身份和动态协议协商的层级架构为去中心化的“智能体互联网”实现安全、开放的水平通信。MCP通过统一的客户端-服务器接口标准化单个智能体与外部工具或数据资源之间的垂直通信。Agora作为水平通信的元协议使智能体能够动态协商和发展其通信方法在灵活的自然语言和高效的结构化例程之间无缝切换。3 终身、自进化智能体系统的愿景从模型离线预训练经由模型在线适应再到多智能体编排的发展轨迹已经稳步降低了基于大语言模型的系统对手动配置的依赖程度。然而即便是当今最先进的多智能体框架也常常依赖于人工设计的工作流、固定的通信协议和人工管理的工具链。这些静态元素限制了适应性使得智能体难以在需求、资源和目标随时间演化的动态、开放式环境中维持性能。新兴的多智能体自进化范式通过在部署与持续改进之间形成闭环来应对这些局限。在一个MASE系统中一组智能体被赋予能力能够在环境反馈和更高层元奖励的指导下自主优化其提示、记忆、工具使用策略甚至交互拓扑结构。这种持续的优化过程使得智能体不仅仅能够适应一次而是能够在整个生命周期中针对变化的任务、领域和操作约束不断进化。终身、自进化的智能体系统旨在通过将一个持续改进的循环嵌入架构核心来克服这些限制。遵循自进化AI智能体三大法则——持久安全适应、卓越性能保持、进化自主优化这些系统被设计用于在运行期间监控自身的性能和安全性通过受控的、渐进的更新来保持或增强能力自主地调整提示、记忆结构、工具使用策略甚至智能体间的拓扑结构以应对变化的任务、环境和资源。终身自进化系统无需人类设计者手工设计每一种交互模式而是能够生成、评估并优化自身的智能体配置从而在环境反馈、元级推理和结构适应之间形成闭环。这将智能体从静态执行者转变为其运行生态系统中持续学习、协同进化的参与者。这一愿景具有深远的影响。在科学发现领域自进化的智能体生态系统可以自主生成假设、设计实验并迭代研究流程。在软件工程领域它们可以协同进化开发流水线随时集成新出现的工具。在人机协作领域它们可以学习个体偏好并持续个性化交互风格。超越数字领域此类系统可以通过机器人技术、物联网设备和信息物理基础设施与现实世界交互感知环境变化、采取行动并将现实世界的反馈纳入其进化循环。通过将智能体视为可重构的、能够自我进化、协调和长期适应的计算实体MASE为实现可扩展、可持续和可信赖的人工智能指明了一条道路——这种人工智能不仅仅是被训练一次而是能够生存、学习并持久运行。4 MASE概念框架为全面概述自进化智能体系统我们提出一个高层概念框架用以抽象和概括智能体进化与优化方法设计与实现背后的关键要素。该框架为大多数现有优化方法提供了一个抽象但可泛化的视图从而能够全面理解该领域并促进不同方法之间的比较分析。4.1 自进化过程概述我们首先概述智能体系统中的自进化过程该过程在实践中通常通过迭代优化来实现。在此过程中智能体系统基于从性能评估和环境交互中获得的反馈信号进行迭代更新。图智能体系统中自进化过程的概念框架。该过程形成一个包含四个组成部分的迭代优化循环系统输入、智能体系统、环境和优化器。系统输入定义任务场景例如任务级或实例级。智能体系统以单智能体或多智能体形式执行指定任务。环境根据不同场景通过代理指标提供反馈。优化器通过定义的搜索空间和优化算法更新智能体系统直至达成性能目标。如图所示该过程始于任务规约其中可能包括高级描述、输入数据、上下文信息或具体示例。这些要素构成了系统输入它们定义了智能体系统要解决的问题场景。随后采用单智能体或多智能体架构的智能体系统被部署到环境中执行任务。环境提供了操作上下文并根据预定义的评估指标生成反馈信号这些信号用于衡量系统有效性并指导后续优化。根据来自环境的反馈优化器应用特定的算法和策略来更新智能体系统例如调整大语言模型参数、修改提示或优化系统结构。在某些情况下优化器也可能通过合成训练样本来增强现有数据集从而精炼系统输入为后续优化周期扩充可用数据。更新后的智能体系统随后被重新部署到环境中开始下一次迭代。这一过程形成了一个迭代的、闭合的反馈循环智能体系统在其中经过多次迭代逐步被精炼和优化。一旦达到预定的性能阈值或满足收敛标准循环即终止。基于上述MASE概念框架EvoAgentX是首个应用这种自进化智能体过程并实现开源的框架旨在自动化智能体系统的生成、执行、评估与优化。基于以上概述智能体优化过程包含四个关键组成部分系统输入、智能体系统、环境和优化器。接下来我们将逐一介绍每个组成部分重点说明它们在优化框架中的各自角色、特性及相互作用。4.2 系统输入系统输入指的是提供给优化过程的上下文信息和数据。形式上我们将系统输入集合记为I它可能包含一个或多个用于规定任务要求、约束和可用数据的要素。这些输入定义了智能体系统要解决的问题场景并确定了优化的范围。根据具体场景I可以采取不同的形式任务级优化现有研究中最常见的设置侧重于提升智能体系统在特定任务上的整体性能。在这种情况下系统输入I可能包括一个任务描述T和一个用于训练或验证的训练数据集D_train即I {T, D_train}。也可以引入一个独立的测试数据集D_test来评估优化后智能体的性能。在某些场景中特定任务的标注数据即D_train可能无法获得。为了在此类设置下实现优化近期研究提出通过基于大语言模型的数据生成等方式动态合成训练样本以创建一个用于迭代改进的替代数据集。实例级优化近期研究也探索了一种更细粒度的设置其目标在于提升智能体系统在特定示例上的性能。在这种情况下系统输入可能由一个输入-输出对(x, y)以及可选的上下文信息C组成即I {x, y, C}。4.3 智能体系统智能体系统是反馈循环中接受优化的核心组件。它定义了一个或多个智能体响应给定输入的决策过程与功能。形式上我们将智能体系统记为A它可以由单个智能体或一组协作的智能体集合构成。智能体系统A可以进一步分解为若干组件例如底层大语言模型、提示策略、记忆模块、工具使用策略等。优化方法可根据预期范围侧重于其中一个或多个组件。在大多数现有工作中优化是针对A的单个组件进行的例如微调大语言模型以增强推理和规划能力或者在不修改大语言模型本身的情况下调整提示和选择适当工具以提高特定任务性能。此外近期研究也探索了对A中多个组件的联合优化。例如在单智能体系统中一些方法联合优化大语言模型和提示策略以更好地使模型行为与任务要求对齐。在多智能体系统中现有研究探索了联合优化提示和智能体间拓扑结构以提高整体效能。4.4 环境环境是智能体系统运行并产生输出的外部上下文。具体而言智能体系统通过与环境的交互来感知其输入、执行动作并接收相应的结果。根据任务不同环境可以从一个基准数据集到完全动态的真实世界场景。例如在代码生成任务中环境可能包含代码执行和验证组件如编译器、解释器和测试用例。在科学研究中它可能由文献数据库、仿真平台或实验设备构成。除了提供操作上下文外环境还在生成反馈信号以告知和指导优化过程方面起着关键作用。这些信号通常源自量化智能体系统有效性或效率的评估指标。在大多数情况下此类指标是特定于任务的例如准确率、F1分数或成功率它们提供了性能的量化度量。然而在缺乏标注数据或标准答案的情况下通常会采用基于大语言模型的评估器来估计性能。这些评估器可以通过评估正确性、相关性、连贯性或与任务指令的一致性等方面生成代理指标或提供文本反馈。关于不同应用场景下评估策略的更详细讨论将在第7节中呈现。4.5 优化器优化器是自进化反馈循环的核心组件负责根据来自环境的性能反馈来改进智能体系统A。其目标是通过专门的算法和策略搜索能在给定评估指标下实现最佳性能的智能体配置。形式上这可以表示为其中S表示配置的搜索空间O(A; I) ∈ R是将A在给定系统输入I上的性能映射到一个标量分数的评估函数A* 表示最优的智能体配置。一个优化器通常由两个核心组件定义搜索空间定义了可以探索和优化的智能体配置集合。S的粒度取决于智能体系统的哪些部分接受优化范围涵盖智能体提示或工具选择策略到连续的大语言模型参数或架构结构。优化算法指定了用于探索S以及选择或生成候选配置的策略。它可以包括基于规则的启发式方法、梯度下降、贝叶斯优化、蒙特卡洛树搜索、强化学习、进化策略或基于学习的策略。这对组合(S, H)共同定义了优化器的行为并决定了它能够以何种效率和效果使智能体系统适应并达到更好性能。在接下来的章节中我们将在三种不同设置下介绍典型的优化器单智能体系统、多智能体系统以及特定领域智能体系统。每种设置都展现出独特的特性和挑战导致了优化器不同的设计和实现。在单智能体优化中重点是通过调整大语言模型参数、提示、记忆机制或工具使用策略来改进单个智能体的性能。相比之下多智能体优化将范围扩展到不仅优化单个智能体还包括它们的结构设计、通信协议和协作能力。特定领域智能体优化则带来了额外的挑战优化器必须考虑特定领域固有的专业要求和约束从而导致定制化的优化器设计。图5提供了这些优化设置及其代表性方法的全面层次分类。5 单智能体优化Single-Agent Optimisation单智能体优化旨在提升单智能体系统的性能。根据前文介绍的优化反馈循环其核心挑战在于设计用于更新系统的优化器。这涉及到确定智能体系统中待优化的具体组件即搜索空间、明确要提升的特定能力以及选择合适的优化策略以有效实现这些改进即优化算法。本节根据智能体系统中待优化的目标组件来组织单智能体优化方法因为该目标组件决定了搜索空间的结构和优化方法的选择。具体而言我们聚焦于四大类别LLM行为优化旨在通过参数调优或测试时扩展技术提升大语言模型的推理和规划能力提示优化侧重于调整提示以引导大语言模型生成更准确且与任务相关的输出记忆优化旨在增强智能体存储、检索历史信息或外部知识并以此进行推理的能力工具优化专注于提升智能体有效利用现有工具或自主创建、配置新工具以完成复杂任务的能力。图展示了单智能体优化方法的主要类别。图单智能体优化方法概览。根据智能体系统中的目标组件进行分类提示、记忆和工具。5.1 LLM行为优化作为单智能体系统的基础基座大语言模型是负责规划、推理和任务执行的核心组件。因此提升大语言模型的规划和推理能力对于提高智能体系统的整体效能至关重要。该领域的近期研究主要分为两大类(1)基于训练的方法直接更新模型参数以提升推理能力和任务表现(2)测试时方法旨在不修改模型参数的情况下在推理过程中改进大语言模型的行为。下文将对这两类方法的代表性研究进行回顾与总结。5.1.1 基于训练的行为优化尽管大语言模型已展现出强大的语言能力但近期研究指出其在自然语言上的流畅性与执行复杂推理的能力之间存在明显差距。这一差异限制了基于大语言模型的智能体在需要多步推理和复杂决策的任务中的有效性。为此近期工作探索了面向推理的训练方法利用监督微调和强化学习来帮助模型系统地评估并精炼其响应。监督微调其核心思想是利用包含详细推理步骤的标注数据来训练智能体使模型能够学习从输入问题、经过中间推理过程、到最终答案的完整映射。这种方法通常依赖于精心构建的推理轨迹这些轨迹可以来源于(1) 智能体自身在执行过程中生成的推演或 (2) 由更强的“教师”智能体产生的示范。通过模仿这些轨迹智能体获得了以结构化方式进行逐步推理的能力。例如STaR提出了一种迭代微调流程模型在已正确解决的实例上进行训练并精炼错误的轨迹以生成更好的推理路径。基于此思路NExT使用由单元测试正确性筛选的自生成轨迹让智能体在程序修复任务中自我进化。类似地Deepseek-Prover通过使用已验证的证明对策略模型进行迭代训练逐步进化智能体使其能为定理证明任务生成越来越精确的形式化证明。另一类工作在专有大语言模型生成的轨迹上对智能体进行微调涵盖数学和科学等领域。除了提升智能体能力还有研究基于OpenAI o1生成的轨迹训练模型以复现其思维链能力旨在进一步提升智能体基座模型的推理能力。强化学习强化学习将推理视为一个顺序决策过程模型因产生正确或高质量的推理路径而获得奖励。其中一种策略是基于偏好的优化利用从各种来源如测试用例表现、最终结果的正确性或经训练的过程奖励模型生成的伪标签生成的偏好对来应用DPO。Yuan等人进一步引入了一个自我进化框架其中策略模型利用自身判断迭代精炼其推理能力。类似地Agent Q结合了MCTS引导的搜索和自我批判机制利用成功和失败的轨迹通过DPO在Web环境中迭代改进智能体的决策。在另一项工作中Tülu 3在数学和指令遵循任务上应用了带有可验证奖励的强化学习而无需任何学习得到的奖励模型。值得注意的是DeepSeek-R1进一步证明了在可获得真实验证的情况下使用组相对策略优化的纯强化学习的可行性。基于此方向Xin等人扩展了这一思想通过融入来自证明助手反馈的强化学习来增强DeepSeek-Prover。Liu等人则通过引入MSTAR框架在多模态设置下进一步探索了自我进化训练该框架利用强化学习来克服性能饱和并通过迭代自我改进来增强推理能力。除了在固定数据集中使用可验证奖励外Absolute Zero训练了一个单一模型在任务提出者和解决者角色之间交替通过生成和解决自身问题来实现自我进化。类似地R-Zero采用了一种双模式框架其中挑战者生成针对解决者当前能力量身定制的任务使两者能够在没有外部监督的情况下迭代进化。5.1.2 测试时行为优化随着训练资源日益受限且基于API的模型无法进行微调测试时计算作为一种解决方案应运而生它使模型能够在推理过程中精炼或扩展其推理能力而无需额外的训练。通过增加推理预算模型能够“思考得更久”。扩展测试时能力主要通过两种策略实现。第一种策略涉及通过引入外部反馈来引导推理这有助于模型精炼其响应。第二种策略侧重于使用更高效的采样算法生成多个候选输出随后通过一个验证器筛选出最合适输出的选择过程。值得注意的是这两种方法实际上密切相关前者中用于引导生成的反馈自然可以作为后者的验证器。基于反馈的策略一种自然的方法是根据模型生成输出的质量调整其行为。这个过程通常依赖于验证器的反馈验证器提供一个精确的或估计的分数来引导模型。我们将反馈分为两类结果级反馈根据最终输出提供一个单一分数或信号不考虑采取的推理步骤数量。对于易于获得真实答案的任务验证器可以实现为提供准确反馈的外部工具。例如CodeT和LEVER利用编译器执行生成的代码并根据测试用例验证其正确性。START和CoRT使用基于提示的工具调用来增强长链思维推理。类似地Baldur利用证明助手产生的错误消息来进一步修复大语言模型生成的不正确证明。然而对于大多数任务在推理时并不总能获得真实答案。因此一种更通用的方法是训练一个模型作为验证器为每个候选响应分配一个分数从而能够根据预测的质量对其进行排序。然而这种形式的反馈相对稀疏因为它只评估最终输出。步骤级反馈评估生成过程中的每个中间步骤提供更细粒度的监督。仅依赖结果反馈常常会导致不忠实的推理问题即错误的推理链仍可能产生正确的最终答案。为了解决这个问题近期工作越来越多地关注训练过程奖励模型以在整个推理过程中检测和纠正错误通常比使用结果级反馈能带来更好的改进。基于搜索的策略复杂的推理任务通常允许多条有效路径通向正确答案。基于搜索的方法利用这一特性并行探索多个候选推理轨迹使模型能更好地探索解空间。在评判模型的帮助下人们开发了各种搜索策略来引导解码过程。例如CoT-SC采用了“N选最优”策略生成多个推理路径并根据对结果的多数据投票选择最终答案。DBS提出了将集束搜索与步骤级反馈结合使用以精炼中间推理步骤。而CoRe和Tree-of-Thoughts则明确将推理过程建模为树形结构使用蒙特卡洛树搜索在搜索过程中平衡探索与利用。Forest-of-Thought进一步推广了这一思想允许多棵树独立决策并应用稀疏激活机制来过滤和选择最相关树的输出。除了基于树的方法其他方法也探索了推理的替代结构形式。Graph-of-Thoughts将中间想法组织为图中的节点并应用基于图的操作来支持灵活的推理和信息流。Buffer-of-Thoughts引入了一个动态记忆缓冲区用于在推理过程中存储和实例化元级想法。5.2 提示优化在单智能体系统中提示对于定义智能体的目标、行为和特定任务策略起着至关重要的作用。它通常包含指令、示例演示和上下文信息用于引导底层大语言模型生成合适的输出。然而众所周知大语言模型对提示高度敏感即使措辞、格式或词序上的微小变化也可能导致大语言模型行为和输出的显著改变。这种敏感性使得设计稳健且可泛化的人工智能智能体系统变得困难从而推动了提示优化技术的发展以自动搜索高质量的提示。提示优化方法可以根据用于导航提示空间和识别能提升模型性能的高质量提示的策略进行分类。本节回顾并总结了四种代表性类别基于编辑的方法、基于生成的方法、基于文本梯度的方法和进化方法。5.2.1 基于编辑的提示优化提示优化的早期尝试集中于基于编辑的方法这些方法通过预定义的编辑操作如词元插入、删除或替换迭代地精炼人工编写的提示。这些方法将提示优化视为提示空间上的局部搜索问题旨在逐步提高提示质量同时保留原始指令的核心语义。例如GRIPS将指令分解为短语并应用短语级别的编辑操作删除、交换、转述和添加来逐步提高提示质量。Plum通过融入模拟退火、变异和交叉等元启发式策略扩展了GRIPS。TEMPERA进一步将编辑过程构建为一个强化学习问题训练一个策略模型来执行不同的编辑技术以高效地构建依赖于查询的提示。5.2.2 基于生成的提示优化与对提示进行局部修改的基于编辑的方法不同基于生成的方法利用大语言模型基于基础提示和各种优化信号迭代生成全新的提示。与局部编辑相比生成方法能够探索更广阔的提示空间区域并产生更多样化、语义更丰富的候选提示。提示生成过程通常由多种优化信号驱动这些信号引导大语言模型生成改进的提示。这些信号可能包括预定义的改写规则、输入-输出示例以及数据集或程序描述。额外的指导可以来自先前的提示及其评估分数、指定任务目标和约束的元提示以及指示期望变化方向的信号。此外一些方法还利用成功和失败的例子来强调有效或有问题的提示模式。例如ORPO通过向大语言模型提供先前生成的候选提示及其评估分数来生成新的指令。StraGo则利用来自成功和失败案例的洞察来识别获得高质量提示的关键因素。优化信号可以进一步集成到高级搜索策略中例如吉布斯采样、蒙特卡洛树搜索、贝叶斯优化以及基于神经Bandit的方法。这些搜索策略能够实现更高效、可扩展的提示空间探索。例如PromptAgent将提示优化表述为一个策略规划问题并利用MCTS高效地导航专家级提示空间。MIPRO采用贝叶斯优化来高效搜索指令候选和少样本演示的最佳组合。虽然大多数生成方法使用固定的大语言模型来生成新提示但近期工作探索了使用强化学习来训练用于提示生成的策略模型。例如Retroformer训练一个策略模型通过总结先前失败案例的根本原因来迭代精炼提示。5.2.3 基于文本梯度的提示优化除了直接编辑和生成提示外一个更新的研究方向探索使用文本梯度来指导提示优化。这些方法从神经网络中基于梯度的学习中获得灵感但不是计算模型参数上的数值梯度而是生成自然语言反馈称为“文本梯度”该反馈指导应如何更新提示以优化给定目标。一旦获得文本梯度就会根据反馈更新提示。此类方法的关键在于文本梯度如何生成以及随后如何用于更新提示。例如ProTeGi通过评判当前提示来生成文本梯度。随后它沿着梯度相反的语义方向编辑提示。这种“梯度下降”步骤由集束搜索和Bandit选择程序引导以高效地找到最优提示。类似地TextGrad将这一思想推广到一个更广泛的复合人工智能系统框架中。它将文本反馈视为一种“自动微分”形式并使用大语言模型生成的建议来迭代改进提示、代码或其他符号变量等组件。另一项工作提出了智能体符号学习这是一个以数据为中心的框架它将语言智能体建模为符号网络并使它们能够通过符号类比的反向传播和梯度下降来自主优化其提示、工具和工作流程。近期工作也在探索复合人工智能系统中的提示优化其目标是自动优化跨一组异构组件和参数例如模型参数、提示、模型选择、超参数的配置。5.2.4 进化提示优化除了上述优化技术外进化算法也被探索为一种灵活有效的提示优化方法。这些方法将提示优化视为一个进化过程维护一个候选提示群体这些提示通过变异、交叉和选择等进化算子进行迭代精炼。例如EvoPrompt利用两种广泛使用的进化算法——遗传算法和差分进化——来引导优化过程以找到高性能的提示。它将核心进化操作即变异和交叉适配到提示优化场景中通过组合两个父提示的片段并对特定元素引入随机替换来生成新的候选提示。类似地Promptbreeder也迭代地突变一个任务提示群体来进化这些提示。它的一个关键特征是使用变异提示即指定在突变过程中应如何修改任务提示的指令。这些变异提示可以是预定义的也可以由大语言模型本身动态生成从而为引导提示进化提供了一个灵活且自适应的机制。5.3 记忆优化记忆对于使智能体能够进行推理、适应并在长周期任务中有效运作至关重要。然而人工智能智能体经常面临有限的上下文窗口和遗忘问题所带来的限制这可能导致上下文漂移和幻觉等现象。这些限制推动了对记忆优化的日益关注以实现智能体在动态环境中可泛化且一致的行为。本综述重点关注推理时记忆策略这些策略旨在不修改模型参数的情况下提升记忆利用率。与微调或知识编辑等训练时技术不同推理时方法在推理过程中动态决定保留、检索和丢弃哪些内容。我们将现有方法分为两大优化目标短期记忆优化侧重于维护活跃上下文内的连贯性以及长期记忆优化支持跨会话的持久性检索。这种以优化为导向的视角将焦点从静态的记忆格式例如内部与外部转向动态的记忆控制强调如何调度、更新和重用记忆以支持决策。在以下小节中我们将介绍每个类别中的代表性方法并强调它们对长周期场景中推理保真度和有效性的影响。5.3.1 短期记忆优化短期记忆优化侧重于管理大语言模型工作记忆内有限的上下文信息。这通常包括最近的对话轮次、中间推理痕迹以及来自即时上下文的与任务相关的内容。随着上下文扩展记忆需求显著增加将所有信息保留在一个固定的上下文窗口内变得不切实际。为解决此问题人们提出了各种技术来压缩、总结或选择性保留关键信息。常见策略包括总结、选择性保留、稀疏注意力和动态上下文过滤。例如Wang等人提出了递归总结法以增量方式构建紧凑而全面的记忆表征从而在长时间的交互过程中实现一致的响应。MemoChat维护源自对话历史的对话级记忆以支持连贯且个性化的交互。COMEDY和ReadAgent进一步将提取或压缩的记忆痕迹整合到生成过程中使智能体能够在长对话或文档中保持上下文。除了总结其他方法动态调整上下文或检索中间状态痕迹以促进多跳推理。例如MoT和StructRAG检索自生成或结构化的记忆来指导中间步骤。受艾宾浩斯遗忘曲线启发MemoryBank对事件进行分层总结并基于新近度和相关性更新记忆。Reflexion使智能体能够反思任务反馈并存储情景洞察从而随着时间的推移促进自我改进。这些方法显著提高了局部连贯性和上下文效率。然而仅靠短期记忆不足以跨会话保留知识或实现长周期泛化这突显了对补充性长期记忆机制的需求。5.3.2 长期记忆优化长期记忆优化通过提供超出语言模型即时输入范围的持久且可扩展的存储来缓解短上下文窗口的限制。它使智能体能够跨会话保留和检索事实知识、任务历史、用户偏好和交互轨迹从而支持随时间推移的连贯推理和决策。该领域的一个关键目标是管理日益复杂和扩展的记忆空间同时保持记忆存储与推理过程的清晰分离。外部记忆可以是非结构化的也可以组织成结构化格式如元组、数据库或知识图谱并且可以涵盖广泛的来源和模态。长期记忆优化的一个关键范式是检索增强生成它通过检索将与任务相关的外部记忆整合到推理过程中。例如EWE通过一个显式的工作记忆来增强语言模型该工作记忆动态保存检索到的段落的潜在表征侧重于在每个解码步骤组合静态记忆条目。相比之下A-MEM通过动态索引和链接构建互联的知识网络使智能体能够形成不断演化的记忆。另一个重要方向涉及智能体检索即智能体自主决定何时检索以及检索什么以及轨迹级记忆它利用过去的交互来指导未来的行为。高效的索引、记忆剪枝和压缩等支持技术进一步增强了可扩展性。例如Wang等人提出了一个基于RAG范式的轻量级遗忘框架。通过改变用于检索的外部知识库系统可以在不修改底层LLM的情况下模拟遗忘效应。类似地Xu等人引入了一个自进化记忆系统该系统无需依赖预定义操作即可维护长期记忆。除了检索策略和记忆控制机制记忆本身的结构和编码也显著影响系统性能。基于向量的记忆系统将记忆编码在密集的潜在空间中并支持快速、动态的访问。例如MemGPT、NeuroCache、G-Memory和AWESOME实现了跨任务的记忆巩固和重用。Mem0进一步引入了一个生产就绪的、以记忆为中心的架构用于持续提取和检索。其他方法则从生物或符号系统中汲取灵感以提高可解释性。HippoRAG通过轻量级知识图实现了受海马体启发的索引。GraphReader和Mem0g使用基于图的结构来捕捉对话依赖关系并指导检索。在符号领域像ChatDB这样的系统对结构化数据库发出SQL查询而Wang等人则引入了一个神经符号框架将事实和规则以自然形式和符号形式存储支持精确的推理和记忆追踪。近期研究也强调了推理过程中记忆控制机制的重要性这些机制决定了存储、更新或丢弃什么、何时以及如何操作记忆。例如MATTER动态地从多个异构记忆源中选择相关片段以支持问答AWM则支持在在线和离线设置下的持续记忆更新。MyAgent赋予智能体具有记忆感知能力的回忆机制以进行生成解决了大语言模型的时间认知限制。MemoryBank提出了一种受认知启发的更新策略通过定期回顾过去的知识来减轻遗忘并增强长期保留。强化学习和优先级策略也被用于指导记忆动态。例如MEM1利用强化学习来维护一个不断演化的内部记忆状态选择性地巩固新信息同时丢弃无关内容。A-MEM提出了一种智能体记忆架构能够基于使用情况自主组织、更新和修剪记忆。MrSteve整合了情景式的“何事-何地-何时”记忆以分层结构组织长期知识从而实现目标导向的规划和任务执行。这些方法使智能体能够主动管理记忆并补充短期机制。与此同时MIRIX在协作设置中引入了一个具有六种专用记忆类型的智能体记忆系统实现了协调检索并在长周期任务中达到了最先进的性能而Agent KB则利用一个共享知识库配合师生双阶段检索机制在智能体间传递跨领域问题解决策略和执行经验通过分层的策略指导和精炼显著提升了性能。5.4 工具优化工具是智能体系统中的关键组成部分作为接口使智能体能够感知并与现实世界交互。它们使得访问外部信息源、结构化数据库、计算资源和API成为可能从而增强了智能体解决复杂现实世界问题的能力。因此工具使用已成为人工智能智能体的一项核心能力尤其是在需要外部知识和多步推理的任务中。然而仅仅让智能体接触工具是不够的。有效的工具使用要求智能体能够识别何时以及如何调用正确的工具、解读工具输出并将其整合到多步推理中。因此近期研究聚焦于工具优化旨在提升智能体智能且高效地使用工具的能力。现有的工具优化研究主要分为两个互补的方向。第一个方向侧重于增强智能体与工具的交互能力这一方向已被更广泛地探索。它通过训练策略、提示技术和推理算法等不同方法来实现目标是提升智能体理解、选择和有效执行工具的能力。第二个方向则侧重于优化工具本身通过修改现有工具或创建新工具以更好地与目标任务的功能需求对齐。这一方向较新且仍在发展中。5.4.1 基于训练的工具优化基于训练的工具优化旨在通过学习更新底层大语言模型的参数来增强智能体使用工具的能力。这种方法背后的动机源于大语言模型仅在文本生成任务上进行预训练从未接触过工具使用或交互式执行。因此它们缺乏对如何调用外部工具和解读工具输出的内在理解。基于训练的方法旨在通过明确地教授大语言模型如何与工具交互来弥补这一局限从而将工具使用能力直接嵌入到智能体的内部策略中。用于工具优化的监督微调这一方向的早期努力依赖于监督微调该方法使用高质量的工具使用轨迹来训练大语言模型明确展示应如何调用工具并将其整合到任务执行中。这些方法的一个核心焦点在于收集高质量的工具使用轨迹这些轨迹通常由输入查询、中间推理步骤、工具调用和最终答案组成。这些轨迹作为智能体的显式监督信号教导它如何规划工具使用、执行调用以及将结果整合到推理过程中。例如ToolLLM和GPT4Tools等方法利用更强大的大语言模型来生成指令和相应的工具使用轨迹。受人类学习过程启发STE引入模拟的试错交互来收集工具使用示例而TOOLEVO则采用MCTS来实现更主动的探索并收集更高质量的轨迹。T3-Agent进一步将该范式扩展到多模态设置通过引入一个数据合成流程来生成和验证高质量的多模态工具使用轨迹用于调整视觉-语言模型。此外近期研究表明即使是先进的大语言模型在多轮交互中使用工具也面临挑战尤其是当这些交互涉及复杂的函数调用、长期依赖关系或请求缺失信息时。为了在多轮工具调用上生成高质量的训练轨迹Magnet提出从工具中合成一系列查询和可执行的函数调用并利用图来构建可靠的多轮查询。BUTTON通过一个两阶段过程生成合成的组合式指令调优数据其中自底向上阶段组合原子任务以构建指令而自顶向下阶段则采用多智能体系统来模拟用户、助手和工具以生成轨迹数据。为了实现更逼真的数据生成APIGen-MT提出了一个两阶段框架首先生成工具调用序列然后通过模拟人机交互将其转化为完整的多轮交互轨迹。一旦收集到工具使用轨迹它们就通过标准的语言建模目标用于微调大语言模型使模型能够学习成功的工具调用和整合模式。除了这种常见范式一些研究还探索了更先进的训练策略以进一步增强工具使用能力。例如Confucius引入了一种由易到难的课程学习范式逐步让模型接触日益复杂的工具使用场景。Gorilla提出将文档检索器集成到训练流程中使智能体能够通过基于检索到的文档来使用工具从而动态适应不断演化的工具集。用于工具优化的强化学习虽然监督微调已被证明对于教导智能体使用工具是有效的但其性能往往受到训练数据质量和覆盖范围的限制。低质量的轨迹可能导致性能提升有限。此外在有限数据集上进行微调可能会阻碍泛化能力尤其是在推理时智能体遇到未见过的工具或任务配置时。为了应对这些局限近期研究转向强化学习将其作为工具使用的另一种优化范式。通过使智能体能够通过交互和反馈进行学习强化学习促进了更具适应性和鲁棒性的工具使用策略的开发。这一方法在近期工作中显示出有希望的结果例如ReTool和Nemotron-Research-Tool-N1Tool-N1两者都展示了在交互环境中的轻量级监督如何能够带来更具泛化性的工具使用能力。Tool-Star通过将可扩展的工具集成数据合成与两阶段训练框架相结合增强了基于强化学习的工具使用能力以改进自主多工具协作推理。SPORT通过逐步偏好优化将基于强化学习的工具优化扩展到多模态设置使智能体能够自我合成任务、探索和验证工具使用而无需人工标注。在此基础上进一步的研究聚焦于改进用于工具使用的强化学习算法包括ARPO它通过基于熵的自适应推演机制和逐步优势归因来平衡长周期推理和多轮工具交互以及那些设计更有效奖励函数的方法和利用合成数据生成与筛选来增强训练稳定性和效率的方法。5.4.2 推理时工具优化除了基于训练的方法外另一研究方向侧重于在推理过程中增强工具使用能力而无需修改大语言模型的参数。这些方法通常通过优化提示中与工具相关的上下文信息或在测试时通过结构化推理来引导智能体的决策过程。该范式内有两大方向1基于提示的方法通过精炼工具文档或指令的表示以促进对工具更好的理解和利用2基于推理的方法利用测试时推理策略如MCTS和其他基于树的算法在推理过程中实现更有效的工具探索和选择。基于提示的工具优化与工具相关的信息通常通过提示中的工具文档提供给智能体。这些文档描述了工具功能、潜在用途和调用格式帮助智能体理解如何与外部工具交互以解决复杂任务。因此提示中的工具文档是智能体与其可用工具之间的关键桥梁直接影响工具使用决策的质量。近期努力集中于优化这些文档的呈现方式或通过重构源文档或通过交互反馈来精炼它们。例如EASYTOOL将不同的工具文档转换为统一、简洁的指令使其更易于大语言模型使用。相比之下DRAFT和PLAY2PROMPT等方法从人类试错过程中汲取灵感引入了基于反馈迭代优化工具文档的交互式框架。除了这些方法一个更新的方向探索了对工具文档和提供给大语言模型智能体的指令进行联合优化。例如Wu等人提出了一个优化框架同时优化智能体的提示指令和工具描述统称为上下文以增强它们的交互。优化后的上下文已被证明可以减少计算开销并提高工具使用效率突显了上下文设计在有效的推理时工具优化中的重要性。基于推理的工具优化测试时推理和规划技术已显示出在提高人工智能智能体工具使用能力方面的巨大潜力。早期的研究如ToolLLM已经验证了ReAct框架在工具使用场景中的有效性并进一步提出了一种深度优先树搜索算法使智能体能够快速回溯到最后一次成功状态而不是从头开始从而显著提高了效率。ToolChain引入了一种更高效的基于树的搜索算法通过使用一个成本函数来估计给定分支的未来成本。这使得智能体能够尽早剪除低价值路径避免传统MCTS中常见的低效推演。类似地Tool-Planner将功能相似的工具聚类成工具包并利用基于树的规划方法快速从这些工具包中重新选择和调整工具。MCP-Zero引入了一个主动智能体框架赋能大语言模型自主识别能力缺口并按需请求工具。5.4.3 工具功能优化除了优化智能体的行为一个互补的研究方向侧重于修改或生成工具本身以更好地支持特定任务的推理和执行。受人类持续开发工具以满足任务需求实践的启发这些方法旨在通过使工具集适应任务来扩展智能体的行动空间而不是让任务适应固定的工具集。例如CREATOR和LATM引入了为新任务生成工具文档和可执行代码的框架。CRAFT利用先前任务中的可重用代码片段为未见过的场景创建新工具。AgentOptimiser将工具和函数视为可学习的权重允许智能体使用基于大语言模型的更新迭代地优化它们。一项更新的工作Alita将工具创建扩展到多组件程序格式这增强了可重用性和环境管理。此外CLOVA引入了一个具有推理、反思和学习阶段的闭环视觉助手框架能够基于人类反馈持续调整视觉工具。

小白node怎么做网站营销推广信息

百度网站联系方式简单的html网页模板

国有林场网站建设云南网上办事大厅

中国建设银行官网站安装k宝贴心网络推广方法

建设自己的网站怎么做廊坊模板网站建设

景德镇陶瓷企业网站建设营销策划方案设计的技巧

网站软件有哪些深圳海外推广