Agent | Forrest’s 博客

📧Agent

type

Post

status

Published

date

Nov 30, 2025

slug

agent

summary

Agent = LLM（思考） + Tools（行动）

宽泛来说，AI Agent可以被定义为一个应用程序，通过观察周围世界并使用可用的工具，来实现目标。

工具的使用，是人类区别于动物的标志——也是Agent区别于大模型的标志。

工具作为 Agent 通往外部世界的关键，使 Agent 能够与外部系统互动，以及让模型获取在它的训练数据之外的知识

大模型 = 只能基于训练数据回答问题

Agent = 大模型 + 工具调用能力 = 能与现实世界交互

未来 Agent 依然是这个形态，只是会：

LLM 推理更强

工具生态更大

调度更智能

Agent的三层架构

推理层：决定做什么（规划、推理、决策）

编排层：决定怎么做（调用哪个工具、什么时候调用）

工具层：实际执行动作（获取信息、操作系统）

开发者的价值在其中能够干的事情

设计工具生态（MCP Server）

搭建稳定可控的 Agent 框架

优化决策逻辑、用户体验、工程能力（系统稳定性）

合格的Agent的三大核心能力

Planning（规划；意图识别；任务拆解）

Tool Use（工具使用；MCP+A2A）

Memory（长期记忆+短期记忆；上下文管理）

基础模型和推理模型是有关键区别的。相比基础模型，推理模型在四种关键认知能力上有很大提升：

验证：像一位谨慎的审稿人，能够自检、自校正，减少错误。

回溯：当思路走向死胡同时，愿意放弃错误路径并重新推导。

目标设定：将复杂任务拆分为可操作的路径，对大规模任务尤其重要。

逆向思考：从结果倒推过程，显著提高路径规划的成功率。

书中也用几次关键技术事件展示了“Agent 能力”是如何在过去 18 个月里迅速成型的

2023.7.9 Code Interpreter问世，AI开始能够执行代码

2024.6.20 Claude Artifacts登场，AI能够在对话中动态创建和修改各类“人工制品”，生成代码到图标，从文档到交互式组件的直观内容

2024.10.22 Clade的Compute Use功能横空出世，AI不再局限于专用工具，而是能够像人类一样，”看见“屏幕并操作计算机，移动光标、点击按钮、输入文本，实现真正模拟人类与计算机的自然交互

2024.11.25 Anthropic 开源了MCP，实现AI能够与各类数据源对接，而不需要繁琐的定制化开发

AI逐步从“语言模型”到通用数字工作者演化：从会回答问题→会执行逻辑→会生成可用的作品→会操作计算机→能够接入一切数据

未来的计算活动不再是人类驱动工具，而是人类委派任务给具备规划、执行、复盘能力的AI。

在这场变革中，懂得如何使用智能体、理解智能体的能力边界、能将智能体前乳业务流程的人，将成为新一代的AI工程师。

ref

[译] AI Agent（智能体）技术白皮书（Google，2024）

本文翻译自 2024 年 Google 团队的一份 Agents 白皮书，作者 Julia Wiesinger, Patrick Marlow, Vladimir Vuskovic。

https://arthurchiao.art/blog/ai-agent-white-paper-zh/

解构Manus AI：是通用Agent革命，还是精巧缝合怪？（轻科技）

Planning的进化：推理之翼展开 Planning的进化：推理之翼展开推理模型在四种关键认知能力上有很大提升验证：如同一位细心的校对者，不放过任何错误。回溯：当发现道路不通，敢于放弃并寻找新路径。子目标设定：将庞大山峰分解为可攀登的阶梯。逆向思考：从终点回望起点，寻找最优路径。推理模型带来的灵活性过去由workflow构建的模型往往只能解决特定问题。而推理模型因为其本身的泛化能力可以处理更通用的事物。 Agent工作流系统中的主要核心节点功能在很大程度上就是在模拟这些思维模式这四种能力齐全的推理模型本身已经是一个天然的Planning Agent系统了。推理模型在实践中的应用 OpenAI的DeepResearch及其类似产品，如Grok 3的DeepSearch DeepResearch是o3模型的一个微调版本，o3是一个非常智能和强大的模型。 DeepResearch是直接通过端到端的训练，而非搭建工作流的方式来运作。 Qwen团队推出的QwQ-32B模型 QwQ-32B模型在推理模型中集成了与Agent相关的能力，使其能够在使用工具的同时进行批判性思考，并根据环境反馈调整推理过程。 Manus AI对推理模型的应用 Manus毫无疑问地使用了推理模型带来的新能力我们看到其搜索路径规划与DeepResearch非常相似，但在网页浏览中使用到了后面工具使用章节中的浏览器控制能力。

https://weread.qq.com/web/reader/36f322e0813aba02fg0130e7ke4d32d5015e4da3b7fbb1fa

Prompt Engineering

vLLM 初体验