📧Agent
type
status
date
slug
summary
category
tags
icon
password
AI summary
Blocked by
Blocking
Category
Agent = LLM(思考) + Tools(行动)
宽泛来说,AI Agent可以被定义为一个应用程序,通过观察周围世界并使用可用的工具,来实现目标。
工具的使用,是人类区别于动物的标志——也是Agent区别于大模型的标志。
工具作为 Agent 通往外部世界的关键,使 Agent 能够与外部系统互动,以及让模型获取在它的训练数据之外的知识
- 大模型 = 只能基于训练数据回答问题
- Agent = 大模型 + 工具调用能力 = 能与现实世界交互
未来 Agent 依然是这个形态,只是会:
- LLM 推理更强
- 工具生态更大
- 调度更智能
Agent的三层架构
- 推理层:决定做什么(规划、推理、决策)
- 编排层:决定怎么做(调用哪个工具、什么时候调用)
- 工具层:实际执行动作(获取信息、操作系统)
开发者的价值在其中能够干的事情
- 设计工具生态(MCP Server)
- 搭建稳定可控的 Agent 框架
- 优化决策逻辑、用户体验、工程能力(系统稳定性)
合格的Agent的三大核心能力

- Planning(规划;意图识别;任务拆解)
- Tool Use(工具使用;MCP+A2A)
- Memory(长期记忆+短期记忆;上下文管理)
基础模型和推理模型是有关键区别的。相比基础模型,推理模型在四种关键认知能力上有很大提升:
- 验证:像一位谨慎的审稿人,能够自检、自校正,减少错误。
- 回溯:当思路走向死胡同时,愿意放弃错误路径并重新推导。
- 目标设定:将复杂任务拆分为可操作的路径,对大规模任务尤其重要。
- 逆向思考:从结果倒推过程,显著提高路径规划的成功率。
书中也用几次关键技术事件展示了“Agent 能力”是如何在过去 18 个月里迅速成型的
- 2023.7.9 Code Interpreter问世,AI开始能够执行代码
- 2024.6.20 Claude Artifacts登场,AI能够在对话中动态创建和修改各类“人工制品”,生成代码到图标,从文档到交互式组件的直观内容
- 2024.10.22 Clade的Compute Use功能横空出世,AI不再局限于专用工具,而是能够像人类一样,”看见“屏幕并操作计算机,移动光标、点击按钮、输入文本,实现真正模拟人类与计算机的自然交互
- 2024.11.25 Anthropic 开源了MCP,实现AI能够与各类数据源对接,而不需要繁琐的定制化开发
AI逐步从“语言模型”到通用数字工作者演化:从会回答问题→会执行逻辑→会生成可用的作品→会操作计算机→能够接入一切数据
未来的计算活动不再是人类驱动工具,而是人类委派任务给具备规划、执行、复盘能力的AI。
在这场变革中,懂得如何使用智能体、理解智能体的能力边界、能将智能体前乳业务流程的人,将成为新一代的AI工程师。
ref
Prev
prompt engineering
Next
vLLM 初体验
Loading...
