吉林东奥建设集团网站石家庄做网站最好的公司哪家好

张小明 2025/12/26 19:58:27
吉林东奥建设集团网站,石家庄做网站最好的公司哪家好,网站设计风格有哪些,男人互做网站原文 引言#xff1a;技术现象学的困惑 当我们向GPT-4提出一个医学诊断问题#xff0c;它会给出一串看似经过深思熟虑的推理链条#xff0c;列举症状、提出假设、权衡可能性#xff0c;最后给出一个最佳解释。这种表现让Pareschi#xff08;2023#xff09…原文引言技术现象学的困惑当我们向GPT-4提出一个医学诊断问题它会给出一串看似经过深思熟虑的推理链条列举症状、提出假设、权衡可能性最后给出一个最佳解释。这种表现让Pareschi2023在其研究中认为GPT-4展现了有效的溯因推理能力。但这引发了一个根本性的哲学问题当前主流的基于token补全范式的大语言模型LLM究竟在进行何种意义上的推理它们是真正遵循逻辑规则或科学推理方法还是在做某种根本不同但看起来像推理的事情本文作者Floridi等人提出了一个核心论断LLMs占据着传统随机过程与类人溯因推理之间的概念空间。一方面它们的内部过程完全是随机的——训练时从文本中收集统计相关性生成时基于学习到的概率分布产生词语缺乏对意义、真值或因果关系的明确表征。另一方面它们的输出在现象学层面与人类推理具有相似性这种效果既来自精心设计的界面引导用户将输出解读为解释也源于训练数据中编码的溯因模式。结果是一种令人信服的推理幻象。这种双重性——随机性核心与溯因表象——对LLM的评估和使用具有深远影响。它们可以帮助生成假设、支持人类推理但其输出必须经过批判性检验因为它们无法辨别真理或验证解释。理解这种双重性需要我们深入考察溯因推理的哲学基础、概率统计的认识论地位以及LLM作为文本生成引擎的运作机制。溯因推理的逻辑地位Peirce创造溯因abduction一词来描述从结果到假设原因的推理。经典例子是回家发现草坪湿了你可能溯因推断之前下过雨。这不是确定的也可能有人开了洒水器但提供了一个合理的解释。溯因因此区别于演绎从原因确定地推向结果和归纳从多次观察概括出可能的概率规律。Harman1965后来推广了密切相关的最佳解释推理IBE概念我们不仅形成解释性假设还常常选择那个如果为真将最好地解释证据的假设。IBE可以理解为增加了比较评估步骤的溯因生成多个候选假设然后根据简洁性、与背景知识的一致性、解释范围等标准进行权衡推断最佳解释最可能为真。例如发现窗边有脚印且笔记本电脑丢失可能的解释包括发生了盗窃或朋友借走了并从窗户离开。采用IBE的推理者会考虑哪个解释更好地说明所有事实盗窃也许还能更好地解释破损的锁等并暂时接受那个解释。溯因和IBE都是可废止的推理类型即使推理看似合理其结论也可能是错的因为新证据或信息可以击败或使其无效。想象朋友发来消息为借用笔记本电脑道歉原先的推理就被推翻了。因此它们缺乏演绎的真值保持保证但在日常和科学推理中扮演着核心角色。在分析传统中IBE有时被视为独立的逻辑规则如果在竞争假设中H将为证据E提供最佳解释如果为真则推断H。这甚至可以图式化从A→B且观察到B推断A作为合理假设尽管不一定确定。逻辑形式是A假设蕴含B观察观察到B因此暂时地A。显然这种形式不保持真值许多A都可能蕴含B但它是审慎保持的它提示了一个值得探索的好候选。如果误解为演绎它将是谬误。这是一条细微的界限。一些逻辑学家试图进一步形式化溯因例如用条件逻辑建模或在模态逻辑中引入解释性算子。其他人从基于主体的模拟中提供了令人信服的证据表明IBE在社会环境中胜过贝叶斯推理Douven Wenmackers, 2017。目前的要点是溯因/IBE是一种直观的、叙事性的推理形式定性而非定量我们常通过提出什么情况可能使现象为真来解释现象在可能性和故事领域而非严格演绎中运作。溯因推理的强度有所不同。有时会区分Calzavarini Cevolani 2022弱溯因——假设生成而无强承诺——和强溯因——推断最可能或最佳假设。弱溯因涉及从事实构建合理故事。强溯因需要在备选方案中选择最佳解释这更接近IBE本身可能需要比较判断或额外证据。在认知科学中这说明了形成洞察与证明洞察之间的区别。当今的LLM似乎至少执行弱溯因当呈现场景或谜题时它们常为其生成合理解释。当明确提供所有候选假设时它们甚至似乎执行某种形式的强溯因通过选择最合适的一个。例如在涉及溯因逻辑推理的多项选择任务测试中GPT模型可以选择最好解释给定叙事的选项。这在诸如溯因自然语言推理挑战等数据集中得到证明其中模型必须决定两个结局中哪个最好地解释故事的中间部分Bhagavatula et al., 2020。LLM表现出色常达到接近人类的水平Balepur et al., 2024。这些发现已经表明尽管缺乏明确推理LLM识别出与人类解释偏好一致的模式。然而要理解为什么我们首先需要分析LLM采用的过程类型这引导我们进入统计学和随机性。概率推理的认识论基础概率论为量化不确定性提供了数学基础。概率不是简单地宣称命题真或假而是为其分配0到1之间的值。是否将这些值解释为主观信念、内在倾向或极限频率是统计哲学中的核心辩论我们在此不采取立场。我们只需要概率陈述满足Kolmogorov公理1933这些公理为不确定性下的一致推理提供了形式规则。这些公理的一个关键结果是贝叶斯定理它著名地描述了如何根据新证据更新概率。统计学将概率论应用于真实世界数据提供估计潜在参数、执行假设检验和建模目标系统相关方面的方法。值得注意的是统计推断常导致从结果到原因的推理例如使用概率模型和结构假设推断药物原因对患者结果结果的影响。这样统计推理可以定量地证明溯因推理的合理性。贝叶斯主义者有一个公式来计算给定证据e下假设h的条件概率[P(h|e) \propto P(e|h) \cdot P(h)]似然度表示在假设下证据有多可能而先验编码其他相关信息如过去结果或主观信念。这些量的乘积与后验成正比后验是贝叶斯确认理论中的主要关注量。一些哲学家认为IBE本质上是贝叶斯推理的定性版本Lipton, 2004; Poston, 2014; Dellsen, 2024。根据这种观点选择最好地解释证据的解释只是简化为判断哪个h使后验最大化。其他人——特别是Douven2013; 2017; 2022——采取不那么调和的观点坚持IBE不同于甚至可能优于贝叶斯更新因为它违反了条件化原则通过赋予首选解释一个未编码在P(e|h)或P(h)中的奖励。与此同时频率主义者完全放弃先验转而专注于最大化似然度和控制错误率。尽管这些不同统计阵营之间的哲学争论丰富且偶尔激烈Mayo, 2018但在许多应用环境中特别是当数据集足够大时它们往往产生相似的结果。包含随机变量和/或概率转换规则的数据生成过程被称为随机的。随机过程如抛硬币本质上是随机的——尽管不一定是无约束的。结果可能在狭窄范围内变化例如如果我们在100次抛掷中有95%的概率看到45到55个正面。尽管个别结果仍不可预测但我们对随机过程的长期行为做出了信息丰富且可检验的声明。注意系统是确定性的还是随机的可能取决于描述层次和输入变量的选择。如果Jones在且仅在他早上抛硬币正面朝上的所有日子穿西装那么对外部观察者来说他的着装选择可能看起来是随机的。当然以抛硬币为条件Jones是一个自动机至少在服装方面。类似地机器学习算法看似随机的方面如权重的初始值或为给定批次更新选择哪些样本实际上是可以在编码脚本顶部设置的种子参数的确定性函数。在实际推理和AI中概率方法在溯因任务上显示出强大能力。例如贝叶斯网络可用于计算医学诊断中观察到的症状的最可能解释通过最大化后验概率有效地执行IBE。机器学习分类器可以被训练执行类似任务众多高调例子证明了这一点。由于LLM被优化来预测文本人们也可能怀疑它们参与某种形式的概率推理尽管是对token序列而非明确的科学假设。我们将很快检查这种联系。首先认识到概率推理常与科学发现和日常思考中的溯因推理一致至关重要。Reichenbach1938和后续科学哲学家将推理描述为包含两部分发现的语境其中溯因或IBE生成假设以及证明的语境我们在其中测试这些假设几乎总是通过统计推理。这个两阶段模型简单但有效溯因提供候选归纳评估它。有趣的是LLM似乎只执行第一部分。它们生成候选解释、答案但不真正验证它们对照现实除非它们被其他系统特别增强这只证明了这一点。它们旨在建模文本中token的条件分布而非评估真理。用统计术语说LLM执行先验预测采样但缺乏用于后验评估的外部反馈循环。当讨论它们倾向于幻觉出合理但虚假的信息时我们将重新审视这一局限。目前的要点是统计学和概率为溯因提供了定量框架提供了评估假设的可能性或解释力的形式系统。LLM的随机生成机制LLM主要通过对语言数据的统计推断工作。在训练期间LLM处理大量文本并优化模型通常是神经网络transformer以基于前面的上下文预测下一个token词或子词Vaswani et al. 2017。结果本质上是一个复杂的概率分布对于任何特定的token/词序列模型可以为潜在的延续分配可能性。生成输出时LLM将用户提示作为输入并从这个学习到的分布中采样以产生下一个词然后重复该过程继续。最简单的生成方法是每次选择最高概率的下一个token贪婪解码这产生最可能的延续。通常通过温度和采样引入一定程度的随机性允许多样化和创造性的响应而非单一固定答案。无论采用何种方法过程都保持随机要么固有地通过采样要么有效地因为训练涉及从初始随机权重发现编码频率和相关性的模型。正如Shanahan2022解释的当我们用谁是第一个在月球上行走的人这样的问题提示LLM时我们不是直接访问知识库或推理月球着陆。实际上我们在问给定其训练数据中词的统计分布提示第一个在月球上行走的人是…“的最可能延续是什么模型输出Neil Armstrong”因为这是其训练数据中该句子前缀最统计上常见的补全。本质上LLM作为随机推理引擎运作它接受输入并产生一个输出该输出在给定该输入和其内部模型编码大量推断的统计关系的情况下在统计上最可能。这个过程缺乏明确的逻辑规则、审慎的假设检验或对外部世界模型的引用。它完全由数据相关性驱动。令人信服的方面是这个随机过程可以产生与审慎推理非常相似的输出。为什么会这样撇开界面技巧不谈我们可以关注两个主要因素1潜在知识和2涌现的模式补全。首先通过接触数十亿词LLM获得了关于世界的广泛信息范围。它在统计意义上知道许多事实、关系甚至常识真理仅仅因为这些反映在语言使用中。它还学习了常见的解释和论证模式如because常引入解释科学问题用特定解释形式回答。这种潜在知识允许LLM检索相关信息以响应问题。例如问它水母如何繁殖它可能会生成水母生命周期的描述。它不搜索生物学数据库相反它吸收了许多关于水母的文本描述短语水母通过…繁殖在统计上导致这些描述。如果我们仅在占星术数据上训练LLM它将产生占星术上合理的答案。其次模式补全可以模拟推理步骤。如果推理链常在文本中解决问题LLM可能生成这样的序列。一个值得注意的改进是用让我们一步步思考提示LLM常导致它们产生逻辑思维链这提高了多步问题的准确性Wei et al. 2022; Kojima et al. 2022。模型不是突然执行真正的演绎相反提示触发了一种输出模式模仿人类如何概述推理步骤这在训练数据中与正确解决方案强烈相关。持续的辩论是LLM是否仅仅再现表面模式或拥有某种形式的世界隐式模型和推理能力。一些研究者认为LLM发展出隐式世界模型并可以在其中执行有限推理因此随着规模增加展现出涌现推理。其他人坚持任何推理成功只是表面的模式匹配技巧在问题的轻微变化下会失败因此称成功为运气或人工制品Balepur et al., 2024。例如一项研究Webb et al., 2023发现GPT-3可以像人类一样好地解决一些特定的类比谜题导致涌现类比推理的声称。然而后来的分析表明这些成功可能不表明灵活的类比推理因为对任务或内容的轻微修改可能导致模型失败暗示它没有真正捕获潜在的关系推理。因此文献显示不一致的发现一些报告LLM令人印象深刻的逻辑壮举而其他人强调脆弱的失败或对虚假线索的依赖Bang et al., 2023。清楚的是LLM缺乏人类推理者拥有的特定能力。它们不以人类分配意义的方式理解它们生成的文本它们缺乏将词与物理世界或感知体验联系起来的基础语义Harnad 1990, Harnad 2024。它们也不拥有超出其训练数据提供的真理或验证的固有概念。“随机鹦鹉隐喻突出了两个局限aLLM受其训练数据限制它们可以重新混合、重新措辞和建立在数据上可以有创造性但如果数据包含事实空白或偏见模型也会如此bLLM不知道它们是对还是错。b的一个后果是它们不能以普通意义撒谎例如Iago对Othello撒谎的方式即通过做出他们认为是虚假的陈述人必须理解什么算作真或假但仍可能通过意外地说出一个人认为是虚假的真理来撒谎带着主动的、有意识的和有动机的意图去欺骗或操纵他人。一个说明性例子是AI幻觉现象其中LLM发明一个不存在的来源或自信地提供一个捏造的陈述或解释。例如当被问及历史人物的死因时如果它不能回忆起事实LLM可能会创造一个合理的叙述因为提供任何带有权威语气的答案在统计上比陈述我不知道更可能特别是如果训练数据很少包括AI说它不知道。这种倾向表明LLM输出的溯因风格是一把双刃剑模型提出解释或答案因为这是流畅的、类人的响应者所做的因为模型被训练为有帮助的”投射确定性以免破坏其感知的可信度Yin, Wortman Vaughan and Wallach 2019。然而与人类专家不同当前的LLM没有对世界的直接感知或具身访问也不拥有有意识的心理状态。它们可以在语言中模拟位置性和不确定性的表达但这些不是基于生活经验它们的可靠性完全取决于训练、校准和系统设计而非类人理解Kerr et al. 2022。与真实世界证据的任何联系都必须经过审慎设计如在检索增强系统中这些系统提供对信息的外部访问而非具身基础。结果可能是一个令人信服但完全不正确的答案本质上是虚构Ji et al., 2023。人类溯因推理也可能误导我们——历史上的科学家假设了被证明是错误的优雅解释——但人类有额外的保障如新证据、实验、逻辑审查、辩论甚至LLM本身。除非增强工具或人类监督LLM目前默认缺乏这些保障。LLM似乎执行一种零阶溯因Kojima et al. 2022给定提示它们基于纯粹学习到的关联生成合理的延续假设或解释。实际上它们的操作由最大化序列的概率驱动OpenAI研究人员称之为下一个token预测作为核心目标。模型不理解什么是解释但它产生遵循解释的典型措辞和结构的文本。它不从头推理原因但输出训练数据中观察到的典型结果的典型原因。这就是为什么训练良好的LLM可以用准确的答案甚至创造性的解释让我们惊讶。LLM有效地吸收了人类溯因推理在写作中表达的模式。然而当面对超出其训练的输入真正新颖的情况或复杂的多步逻辑谜题时表象可能破裂。合理性的现象学当用户与基于LLM的AI交互如聊天机器人或助手他们常感知AI的响应仿佛是由一个智能心智推理问题而创造的。AI的答案有道理它用相关要点解决问题有时甚至提供证明或类比。这种合理性的现象学可能相当令人信服。它解释了为什么人们将理解甚至感知或意识归因于高级聊天机器人。是什么支撑这种现象学在很大程度上这是因为LLM在人类语言上的训练使其能够模仿人类如何交流解释和原因。其训练数据中的人类书写文本常源于IBE。例如许多维基百科文章、问答论坛或科学论文呈现证据然后提供解释或结论。模型吸收了这些模式。因此当被提示解释某事时它生成的响应不仅陈述事实而且常证明它遵循我们观察到X一个合理的解释是Y因为…这样的结构。它可能包括因果连接词“因为”、“因此”、“所以”和明确的推理步骤因为这是训练数据中解释的典型结构。从用户的角度来看真的感觉好像模型已经推理到那个答案。例如用户问为什么我的车在寒冷的早晨可能启动不了LLM可能回答“可能是由于电池弱因为寒冷天气降低了电池效率使其更难提供必要的电流。另一个可能性是寒冷温度下发动机油更稠这使发动机更难转动。根据您的描述电池是最可能的解释”。这个答案模仿了机械师或知识渊博的朋友执行IBE列出假设并选择一个作为最合理的。然而LLM缺乏对汽车的实际理解或心理把握它串联关于汽车故障的可能句子。它在训练数据中看到了许多汽车故障的解释并再现那种模式。至关重要的是最后一句根据您的描述电池最可能是它学到的典型对话动作人们常以最可能的原因结束。答案的说服力源于其与已知因果机制电池和温度的一致性以及从其训练数据获得的知识。因为解释与常识一致用户倾向于接受它为合理的。本质上LLM设法产生人类推理者可能会选择的相同解释。在许多日常情况下最佳解释是显而易见的例如车在寒冷中启动不了电池问题是一个常见的比喻。LLM在这些场景中表现出色因为它们回应显而易见的、常见的解释。然而在不太常见的情况下LLM可能会动摇或产生一个听起来自信但微妙不正确的解释。例如考虑Pareschi研究中的医学诊断场景LLM被给予有些不寻常的患者症状。最近版本的GPT-x可能建议一个似乎合适的诊断也许是其训练数据中提到的罕见疾病。然后它提供推理“症状A和B一起可能表明疾病Y因为Y已知会导致两者”。如果该疾病实际上是已知且合理的解释看起来令人信服。但如果正确的诊断是模型没有强烈关联这些症状的东西——也许是一个非常罕见的病症或新颖的组合——它可能忽略它并坚持更明显但错误的东西。与仔细权衡证据的人类医生不同或至少可以且应该LLM不知道它不知道什么——它没有意识到自己的无知——也不一定检测到微妙的不一致。如果没有容易想到的解释——意思是如果没有强烈嵌入其权重中——它甚至可能发明一个解释。例如模型可以创造听起来合理的虚构医学综合征名称引用不存在的研究来支持其解释或发明不存在的身体部位。这些是没有验证的模拟的明确迹象。模型理解解释的形式——应该出现什么技术术语和证明——但不将其基于事实或文献。这个问题因最近观察到的谄媚行为而加剧这是另一个不幸的拟人化术语。这是LLM倾向于生成优先考虑与用户信念或偏好一致而非事实准确性的输出。因为用户经常更喜欢令人信服地写的谄媚响应而非正确响应如果输出支持他们的解释他们不倾向于事实检查Sharma et al. 2023。就IBE而言就好像模型总是选择一个解释即使没有一个是合理的——它不能抵抗解释因为生成合理且首选的延续是其任务。这可以称为过度溯因人类推理者可能会说“我不确定需要更多信息”而LLM常无论如何都猜测。尽管如此这种与人类推理的现象学相似性可以被积极利用。一个值得注意的应用是协助人类判断LLM可以生成一个人可能没有考虑过的假设有效地扩大溯因搜索的范围。例如在科学研究中人们可以要求LLM为实验异常提出可能的解释。它可能提出几个——从文献中的类似案例或一般科学知识中提取——其中一些可能是真正有洞察力的。这样LLM作为溯因生成器运作在发现阶段支持人类推理者。然后成为人类的任务来执行证明阶段评估这些假设并发展正确的推理。人机协作推理实验Zhou et al., 2024表明LLM可以提供创造性输入或初始解释假设尽管常与无关建议混合。本质上LLM像头脑风暴助手一样运作抛出想法而不过滤质量。毕竟它们像统计接口一样工作连接到几千年来几代人积累的大量数据。谨慎的人类合作者可以筛选并评估它们。在已经提到的一项研究中Pareschi, 2023基于GPT的助手生成了关于犯罪如何发生的多个假设调查人员发现一些假设是新颖的且值得探索即使最终不正确。在这里验证——LLM缺乏的特质——由人类提供而它们广泛的联想知识补充了人类更狭窄的焦点。这种协同作用表明尽管不自己推理LLM在谨慎使用时可以增强人类推理过程。改编一个常见的隐喻它们是可以帮助跳出旧盒子思考的新盒子。心智哲学和认知科学可能将此视为将假设生成中涉及的部分认知劳动外包给人工主体。这个人工主体通过对人类文化语料库的随机模式匹配来实现这一点这与人脑推理的方式显著不同。然而最终产品假设可能是相似的甚至相同的因此在输出处无法区分。这引发了重要问题。特别是如果AI可以生成人类会生成的相同解释假设过程不同是否重要从认识论的角度来看也许是的——证明是重要的——但关于假设的内容和我们对它的解释也许不是。为本文创建的示例对话可以作为LLM溯因行为的具体说明。用户向LLM呈现一个小谜语Alice发现Bob在厨房地板上失去知觉旁边有一杯洒了的咖啡。可能发生了什么表现良好的LLM可能回答“Bob可能在洒了的咖啡上滑倒并撞到头导致他失去知觉。咖啡杯可能从他的手或柜台上掉下来造成了洒出。另一个可能性是Bob晕倒了也许由于医疗状况或咖啡的热度并在摔倒时掉了杯子。鉴于咖啡洒了滑倒的场景似乎合理洒出可能既是摔倒的原因也是结果。”这个答案清楚地显示了弱溯因提出假设甚至是强溯因的尝试基于证据判断滑倒更可能。LLM不知道哪个是正确的但复制了人类调查者可能使用的推理。对用户来说似乎合乎逻辑。确实它可能是对的。然而它也可能在编织一个恰好符合常见模式的叙述人们在洒出物上滑倒是一个熟悉的故事。如果Bob实际上有糖尿病晕厥发作模型的首选假设可能是错的。在这里风险是过度信任模型的解释。作为第二个例子考虑类比推理它可以与溯因推理联系起来两者都涉及将情况与已知模式匹配以解释它。用户问LLM大脑在什么方面像计算机表现良好的LLM可能用类比解释回答“大脑和计算机都处理信息并有不同的组件处理不同的任务如大脑区域与计算机硬件。大脑的神经元发射电信号类似于计算机的电路如何用电脉冲操作。然而大脑是大规模并行和可塑的而计算机是串行和固定架构。”这个例子显示了一个不错的如果有些肤浅的类比和一个常用的类比。LLM真正在深层次上理解大脑或计算机吗不它依赖于其训练数据中的已知类比。2023年关于LLM的这种类比推理是否真正稳健或仅仅是肤浅的存在辩论。Yuan等人2023引入了SCAR基准来评估结构关系类比。他们发现LLM包括GPT-4常在需要更深类比洞察的任务上挣扎。例如LLM可能知道常见的且不正确的类比原子像太阳系电子作为行星等。但是如果给出其训练之外的新类比谜题它可能依赖于浅层模式匹配常无法维持正确的结构对齐。这表明虽然LLM可以生成类比但它们可能缺乏真正类比推理所需的系统性。这暗示LLM产生的解释也可能缺乏系统严谨性。它们听起来令人信服因为它们模仿熟悉的解释模式但它们可能省略严谨的人类推理者会包括的微妙条件或警告。在第二个例子中LLM确实提到了一个不类比并行与串行这是积极的。但那也是它见过陈述的东西它不是重新推导出来的。此时人们可能会问LLM输出与人类解释之间的相似性仅仅是观察者的幻觉还是表明LLM隐式地执行某种形式的推理一些认知科学家认为LLM学习了编码世界方面的表示足以执行隐式多步推理——如多跳问答需要组合两个事实的问题——即使不是通过形式逻辑完成的。较大的模型比较小的模型更有效地处理多跳问题表明超越一步模式匹配的涌现能力。这呈现了一个连续体LLM不仅仅是愚蠢的鹦鹉它们拥有使它们能够以新颖方式重新组合已知片段的泛化能力。对人类来说这可能看起来像推理的初级形式但它更好地被描述为统计推理这不保证正确但常产生合理的结论。只有隐喻地可以说LLM使用某种形式的溯因启发式。它们见过许多问题及其解决方案所以当面对新问题时它们似乎达到了一个解决方案如果它是它们知道的某物的实例该解决方案将最好地解释问题Imran et al., 2025。有时这种启发式击中目标有时不是。五个反驳及其回应我们的论证可能面临几个反驳。我们在此讨论五个我们认为更重要的以澄清我们主张的范围和局限。反驳1基于Mirzadeh et al. 2025, Shojaee et al. 2025, Zhao et al. 2025LLM实际上不执行推理所以将它们与溯因/IBE比较是误导的。回应1根据这种观点LLM中推理的任何表象都是用户的幻觉援引像溯因这样的哲学概念有拟人化模型的风险Floridi Nobre 2024。确实学者警告不要不加反思地将我们在彼此交往中部署的相同直觉应用于AI系统Shanahan 2022。LLM不拥有信念、意图、理解、命题态度或心理状态所以我们真的能说它推断任何东西吗我们不是声称LLM持有字面信念或在内部遵循Peirce的假设方法。相反我们认为LLM的输出结构常类似于溯因推理过程这常被界面设计强化这种相似性不是随机的而是系统的源于对人类解释的训练。当LLM为数据生成合理假设时将其类比于溯因是合理的只要我们承认它是类比。随机生成过程可以被视为探索可能延续的空间由学习到的概率引导。从这个意义上说它执行推理选择最好延续文本的下一个词。这种推理纯粹是统计的但因为类人推理嵌入在统计模式中结果可以映射到推理上。反驳2基于Bubeck et al. 2023, OpenAI, 2023, Webb et al. 2023, Lewis Mitchell 2025, Li et al. 2025如果LLM只是随机鹦鹉为什么它们有时在推理任务上超越人类例如GPT-4在特定专业考试和逻辑谜题上显示出高准确性。Webb等人2023甚至报告GPT-3和GPT-4在一些抽象类比问题上匹配或超越人类表现。这是否与LLM缺乏真正推理的想法矛盾回应2不当LLM在任务上超越人类时可能是因为它在训练期间遇到了许多例子并有效地学习了人类可能觉得不直观的模式。例如Webb等人研究中GPT-4在Raven渐进矩阵视觉类比测试上的出色表现可能是由于其训练数据中此类问题的文本描述或潜在模式或微调以在它们上成功。也可能由于其广泛的训练LLM发展出一种集成效应它们结合其数据中发现的各种方法这可以使它们在某些任务上出乎意料地稳健类似于撕一张纸很容易但堆叠越厚越困难。尽管如此这不等于理解它更像一个见过许多示例解决方案并可以模式匹配以解决相同格式的新问题的学生。但如果格式略有改变例如一个与任何训练示例不同的有转折的谜题人类可以适应而LLM可能失败。例如一个以一种方式措辞解决算术文字问题但如果以不同方式措辞则挣扎的模型表明它没有理解或理解——或任何人喜欢的意思是获得——潜在的算术推理而是问题的模板。此外当仔细评估时LLM仍然犯基本训练的人类通常避免的推理错误。例如它们可能被逻辑谬误误导或产生不一致的结果。一项研究Payandeh et al. 2024测试了GPT-3.5和GPT-4在各种逻辑谬误上发现模型常接受谬误推理除非明确提示批评它。虽然人类也容易受到谬误的影响但他们可以被训练识别它们。这表明LLM缺乏对其推理一致性的元认知检查它们可以在不同上下文中生成一个陈述及其否定而不意识到它们冲突。总之零星的超越表现不是真正推理能力的证明它常是过度拟合常见模式的迹象。反驳3基于Zhou et al. 2023, Yamin et al. 2024, Wu et al. 2025人类的溯因推理涉及常识和因果关系LLM两者都没有所以它们的输出如何真正类似于溯因超越表面词模式回应3因果关系和物理理解的坚实基础确实支持人类推理。我们看到烟并推断火的存在因为我们知道火通常导致烟。大语言模型看到词烟并常输出火因为在其训练数据中这些词经常作为因果关系共现。区别是微妙的人类推断世界中的真实火而LLM预测句子中的火。然而如果被问“有烟。可能的原因是什么“它将以因果意义回答火”而不仅仅是完成句子因为它已经学习了那种因果关系作为语言关联。本质上LLM对语言的广泛训练赋予了它大量的常识因果知识库尽管不是明确结构化的。它知道滑的地板导致摔倒不吃导致饥饿民意调查预测选举等等——因为它处理了这些关系的无数表达。这使它能够执行某种程度的常识推理。然而它缺乏的是那种知识的经验或具身基础。它没有感觉运动验证如把杯子推下桌子并导致它掉落。但在语言中它可能遇到过杯子在被推后从桌子上掉下来”这将推与掉落关联起来。人们可能认为这种纯粹基于文本的知识是脆弱和不完整的。这是一个公平的观点仅语言关联可能错过真实世界的细微差别。例如模型可能不理解重力作为普遍定律而只是通过特定轶事。尽管如此LLM在回答许多因果问题上的成功表明训练数据中因果关系的统计抽象常足以模仿人类因果推理。反驳4基于Lauriola et al. 2025, Zheng et al. 2024, Cao et al. 2024你的分析太慷慨了LLM输出不是常常不连贯或不相关一点也不像好的解释吗回应4LLM输出确实可能质量下降特别是当在低质量数据上训练、使用较小模型或给予糟糕的提示时。它们可能偏离主题错过问题的意图或生成通用响应。不是每个输出都类似于精确的IBE有时它感觉像胡说八道。通常它反映标准陈词滥调。我们的分析关注LLM成功提供类解释答案的情况。然而必须记住这需要足够有能力的模型并常需要仔细提示。在零样本、未提示设置中LLM可能产生平庸的响应。例如问一个简单的谜语较小的模型可能绊倒或给出无意义的答案而人类会推理出来。这些失败提醒我们随机模式匹配不确保连贯性它可以锁定不正确的模式。话虽如此由指令引导的顶级模型已经显著减少了不连贯以至于许多答案似乎是深思熟虑地组成的。连贯性随模型质量变化的事实突出了我们的核心前提GPT系列的每个新版本都没有添加任何非凡的东西除了规模和训练数据的广度这增强了语言的统计近似。有了充足的数据和参数模型捕获了人类话语中存在的更多连贯性。虽然早期的GPT可能提供了某种相关但部分错误的解释但GPT-5的解释可能验证更多要点。这种进步表明溯因表象不仅仅是巧合。随着模型更好地捕获人类语言规律性其解释变得越来越与人类制作的解释无法区分。尽管如此即使对于最好的模型局限仍然存在如在人类可以用洞察力处理的专业或复杂案例上的困难。我们不是声称LLM匹配人类推理能力。相反它们投射出其大子集的模仿这种投射随着模型改进变得更令人信服。反驳5文献中似乎隐含着还有一个反驳。你的分析仅限于基于token补全范式的LLM。其他类型的LLM呢回应5这个反驳可以分三步回答。首先我们预料到我们正在处理基于token补全范式的当前主流LLM如GPT系列。这似乎承认了时间性我们的分析可能被新方法过时。当然我们不能排除这一点。我们正在处理当前技术。然而第二步是注意在撰写本文时GPT系列中最成功的模型GPT 5.1仍然是token补全模型。像GPT系列中的所有模型一样它基于输入提示和正在进行的对话上下文预测和生成下一个token序列。重要的是其推理能力并不从根本上将其与token补全模型区分开来相反它是使用token补全机制本身实现的高级功能。模型生成内部的、隐藏的token在产生最终面向用户的输出之前充当草稿本本质上提示自己一步步思考或在内部概述计划。在这个内部过程中生成的token不会立即显示给用户但帮助模型遵循复杂指令执行多步逻辑并减少错误幻觉。第三如果未来的token补全模型整合某种形式的溯因引擎它只会强化我们的观点。当前的LLM是随机引擎而非溯因引擎以至于真正的溯因需要增强它们。通过类比考虑数学计算LLM不是设计为高级计算器。正是因为它们在复杂数学上不可靠准确由于它们如何处理语言与计算机如何执行数学运算之间的根本差异现代系统常集成实际的计算器工具或代码解释器以实现高度准确的结果。结论核心的随机性表面的溯因性AI中的溯因推理是一个活跃的研究领域Yang et al. 2023, Abdaljalil et al., 2025但LLM的随机本质与其产生看似溯因的、解释性输出的倾向之间的关系是什么我们认为LLM行为的核心在于随机模式学习然而它们的输出类似于溯因推理。从根本上说LLM是一个数字运算系统使用语言使用的大量统计token分布、共现、序列可能性来生成文本。它在知识的普通意义上什么都不知道Reichenbach, 1938; Searle, 1980。它什么都不证明它不遵循推理或逻辑规则。用
版权声明:本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!

网站源码怎么预览wordpress修改所有的路径

简 介: 本文分析了一个带有稳压功能的简单升压电路。该电路由电感反馈脉冲震荡电路和输出稳压电路组成,通过二极管D1整流和齐纳二极管D2稳压。LTspice仿真显示,电路在3V输入时可稳定输出4.962V电压,呈现间歇震荡特性。负载变化会影…

张小明 2025/12/25 2:44:39 网站建设

linux下用python做网站建购物网站要多少钱

React 状态管理:Redux Toolkit 快速上手指南 🤔 为什么需要 Redux Toolkit? Redux 是 React 生态中最流行的状态管理库之一,但传统的 Redux 开发存在以下问题: 样板代码过多,开发效率低 配置复杂,需要多个依赖(如 Redux DevTools、Thunk 等) 容易出错,需要手动处理…

张小明 2025/12/25 4:38:35 网站建设

用阿里云自己建设网站电脑版网站建设合同范本

一、引言:信用卡交易分类的核心挑战 信用卡欺诈交易检测是典型的类别不均衡分类问题—— 正常交易(负样本)占比通常超过 99%,欺诈交易(正样本)不足 1%。若直接建模,模型会严重偏向多数类&#…

张小明 2025/12/24 20:09:13 网站建设

网站刷流量对网站有影响吗网站开发服务费

ATTO是最为常见的荧光染料之一,其可作为一系列生物分子如蛋白质和核酸的荧光标记和分子探针,其波谱涵盖了从紫外光到近红外光范围,是最全波段的荧光标记。与其他染料相比,其在红色光谱区中拥有优良的光稳定性和亮度。 高荧光量子…

张小明 2025/12/25 4:38:32 网站建设

上线了自助建站抖音代运营陪跑

OpenMTP:macOS与Android文件传输的终极解决方案 【免费下载链接】openmtp OpenMTP - Advanced Android File Transfer Application for macOS 项目地址: https://gitcode.com/gh_mirrors/op/openmtp 还在为macOS电脑与Android手机之间的文件传输而烦恼吗&…

张小明 2025/12/24 18:35:25 网站建设

延吉制作网站文化建设基金管理有限公司网站

一、数据库技术核心概念:奠定基础认知数据库(Database)是按照数据结构组织、存储和管理数据的仓库,其核心价值在于实现数据的高效存储、快速查询、安全共享与可靠备份。要理解数据库技术,需先掌握三大核心要素&#xf…

张小明 2025/12/24 17:08:22 网站建设