AI 知识体系
全景梳理

从底层模型到上层应用,系统理解人工智能的完整技术栈与产品生态

5
核心层级
20+
交互演示
100+
核心概念
开始探索
向下滚动

AI 技术架构总览

现代 AI 系统采用分层架构设计,从底层模型能力到上层应用产品,各层协同工作

🧠
01

能力层

大语言模型、多模态模型等基础能力提供层,是AI系统的"大脑"

🎯
02

编排层

路由决策系统,智能分配任务到合适的模型或处理路径

03

执行层

单次执行、工作流编排、Agent自主执行等多种执行模式

🔌
04

接入层

API、MCP、Skill等多种接入方式,连接外部世界

🚀
05

产品应用层

面向用户的各类AI产品形态和典型应用场景

数据流动与处理流程

👤
用户输入
文本/语音/图像
🎯
意图识别
路由决策
🧠
模型处理
推理生成
工具调用
执行操作
💬
结果输出
响应用户

能力层 · 模型

大语言模型是AI系统的核心能力来源,理解模型特性有助于更好地使用和选择

🧠 什么是大语言模型(LLM)?

大语言模型(Large Language Model, LLM)是基于深度学习技术训练的超大规模神经网络模型,通过海量文本数据学习语言规律和世界知识,具备理解、生成和处理自然语言的能力。

📚
预训练
在海量无标注文本上学习语言规律和世界知识
🎯
微调对齐
通过指令微调和RLHF对齐人类偏好
推理生成
基于上下文自回归生成连贯文本

📊 模型核心指标

参数量
7B-100B+
模型规模决定能力上限
上下文长度
4K-200K
单次处理文本长度
训练数据量
T级Token
决定知识覆盖面
推理成本
$ per 1M tokens
商业化关键指标
GPT-5
OpenAI
最新旗舰 多模态 256K上下文

OpenAI 2025年8月发布的最新旗舰模型,支持256K上下文,具备跨会话记忆能力,在推理、代码和创意写作等方面表现卓越。

✓ 256K上下文 ✓ 跨会话记忆 ✓ 多模态全支持
Claude 3.7
Anthropic
混合推理 200K上下文 代码王者

Anthropic 2025年2月发布,首个混合推理模型,支持标准/扩展思考模式,在编程和复杂推理任务上表现业界领先。

✓ 混合推理模式 ✓ 200K上下文 ✓ 计算机使用
Gemini 2.5 Pro
Google
200万上下文 视频理解 LMSYS冠军

Google 2025年6月发布的最强模型,支持2M tokens上下文,原生多模态,在LMSYS Arena多次登顶,视频理解能力领先。

✓ 2M上下文 ✓ LMSYS冠军 ✓ 视频分析领先
Kimi K2
月之暗面
长上下文 多模态推理 MATH 96.2%

月之暗面2025年9月发布,采用万亿参数MoE架构,支持超长上下文,长文档处理能力突出,中文理解和生成能力优秀。

✓ 万亿参数MoE ✓ 超长上下文 ✓ 中文优化
Qwen3
阿里巴巴
双模推理 235B MoE 开源冠军

阿里巴巴2025年4月发布,首创思考/非思考双模切换,235B MoE架构,HumanEval达92.7%,开源版本性能强劲。

✓ 双模推理 ✓ 235B MoE ✓ 全尺寸开源
DeepSeek-V3.2
DeepSeek
MoE 671B 开源最强 AIME 96%

DeepSeek 2025年12月发布的开源MoE模型,671B参数,AIME 2025得分96%,性价比极高,代码和数学能力突出。

✓ 671B MoE ✓ AIME 96% ✓ 开源最强
Grok 3
xAI
LMSYS冠军 AIME 93.3% 实时信息

xAI 2025年2月发布,LMSYS Arena排名第一,AIME 2025得分93.3%,支持Think Mode推理和DeepSearch深度搜索。

✓ Arena 1400+分 ✓ Think Mode ✓ 实时X数据
Llama 4
Meta
原生多模态 1000万上下文 开源MoE

Meta 2025年4月发布,首个原生多模态开源模型,Scout版支持1000万token上下文,MoE架构效率极高。

✓ 1000万上下文 ✓ 原生多模态 ✓ MoE架构

📈 主流模型能力雷达图对比

GPT-5
推理 代码 创意 知识 数学 多语言
256K上下文,跨会话记忆
Claude 3.7
推理 代码 创意 知识 数学 多语言
混合推理模式,编程王者
Gemini 2.5 Pro
推理 代码 创意 知识 数学 多语言
2M上下文,LMSYS Arena冠军
DeepSeek-V3.2
推理 代码 创意 知识 数学 多语言
671B MoE,AIME 96%,开源最强
Kimi K2
推理 代码 创意 知识 数学 多语言
万亿参数MoE,长文档专家
Qwen3
推理 代码 创意 知识 数学 多语言
双模推理,HumanEval 92.7%
Grok 3
推理 代码 创意 知识 数学 多语言
LMSYS冠军,AIME 93.3%
Llama 4
推理 代码 创意 知识 数学 多语言
1000万上下文,开源MoE
模型 推理 代码 创意 知识 数学 上下文 特色
GPT-5 ⭐⭐⭐⭐⭐ ⭐⭐⭐⭐⭐ ⭐⭐⭐⭐⭐ ⭐⭐⭐⭐⭐ ⭐⭐⭐⭐⭐ 256K 跨会话记忆
Claude 3.7 ⭐⭐⭐⭐⭐ ⭐⭐⭐⭐⭐ ⭐⭐⭐⭐☆ ⭐⭐⭐⭐⭐ ⭐⭐⭐⭐☆ 200K 混合推理模式
Gemini 2.5 Pro ⭐⭐⭐⭐☆ ⭐⭐⭐⭐☆ ⭐⭐⭐⭐☆ ⭐⭐⭐⭐⭐ ⭐⭐⭐⭐☆ 2M Arena冠军/视频理解
DeepSeek-V3.2 ⭐⭐⭐⭐☆ ⭐⭐⭐⭐⭐ ⭐⭐⭐☆☆ ⭐⭐⭐⭐☆ ⭐⭐⭐⭐⭐ 128K AIME 96%/671B MoE
Kimi K2 ⭐⭐⭐⭐☆ ⭐⭐⭐⭐☆ ⭐⭐⭐☆☆ ⭐⭐⭐⭐☆ ⭐⭐⭐⭐☆ 200万字 万亿参数MoE
Qwen3 ⭐⭐⭐⭐☆ ⭐⭐⭐⭐☆ ⭐⭐⭐⭐☆ ⭐⭐⭐⭐☆ ⭐⭐⭐⭐☆ 256K 双模推理/开源
Grok 3 ⭐⭐⭐⭐⭐ ⭐⭐⭐⭐☆ ⭐⭐⭐⭐☆ ⭐⭐⭐⭐☆ ⭐⭐⭐⭐⭐ 128K LMSYS冠军/实时数据
Llama 4 ⭐⭐⭐⭐☆ ⭐⭐⭐⭐☆ ⭐⭐⭐⭐☆ ⭐⭐⭐⭐☆ ⭐⭐⭐⭐☆ 1000万 原生多模态/开源

🔤 Tokenization 分词演示

大模型处理文本的第一步是将文本切分为Token。不同语言的切分方式不同,点击按钮查看分词过程:

点击上方按钮查看分词演示

编排层 · 路由

智能路由系统负责将用户请求分配到最合适的处理路径,是AI系统的"调度中枢"

🎯 路由系统工作原理

路由层根据输入内容的特征、用户意图、任务类型等因素,动态选择最优的处理路径。这类似于一个智能负载均衡器,但决策依据更加智能化。

用户输入
意图识别
路由决策
轻量模型
强力模型
Agent系统
工具调用
📋 规则路由

基于预定义规则进行路由,如关键词匹配、正则表达式、分类器等。适合边界清晰的场景。

🤖 LLM路由

使用LLM进行意图理解和路由决策,更加灵活智能,适合复杂多变的场景。

⚖️ 成本路由

根据任务复杂度动态选择模型,简单任务用便宜模型,复杂任务用强力模型,优化成本。

🔄 自适应路由

根据历史反馈持续优化路由策略,学习用户偏好和任务特征,越用越智能。

案例1: 客服机器人路由

用户输入:"我的订单什么时候发货?"
1️⃣ 意图识别: 订单查询 (置信度: 0.95)
2️⃣ 路由决策: 选择订单系统API
3️⃣ 调用订单查询工具
4️⃣ 生成回复: 您的订单预计明天送达

案例2: 代码助手路由

用户输入:"帮我优化这段Python代码的性能"
1️⃣ 意图识别: 代码优化 (置信度: 0.92)
2️⃣ 路由决策: 选择GPT-4 + 代码分析工具
3️⃣ 调用代码分析器识别瓶颈
4️⃣ 生成优化后的代码和解释

案例3: 智能写作路由

用户输入:"帮我写一首关于AI的诗"
1️⃣ 意图识别: 创意写作 (置信度: 0.88)
2️⃣ 路由决策: 选择Claude(创意模型)
3️⃣ 调用风格分析器
4️⃣ 生成创意诗歌

案例4: 多步骤复杂任务

用户输入:"分析Q3财报并制作PPT大纲"
1️⃣ 意图识别: 复杂分析任务 (置信度: 0.90)
2️⃣ 路由决策: 选择Agent模式
3️⃣ 分解任务: 数据提取→分析→大纲
4️⃣ 多轮工具调用和推理

执行层 · 执行模式

不同的任务需要不同的执行模式,从简单的单次调用到复杂的Agent自主执行

单次执行
最简单的执行模式,直接向模型发送请求并获取响应。适合问答、翻译、摘要等一次性任务。
🔄
Workflow执行
预定义的流程编排,按固定步骤执行。适合有明确流程的业务场景,如审批、数据 pipeline。
🤖
Agent执行
自主规划、使用工具、多轮推理的智能体。适合复杂任务,能够自主决策并调用外部工具。

👆 点击上方卡片查看详细演示

选择上方的执行模式卡片,查看详细的工作流程和交互演示

适用场景对比

简单问答 ✓ 单次
文档处理 ✓ Workflow
数据分析 ✓ Agent

ReAct模式

Reasoning + Acting 循环是Agent的核心工作模式:

🤔 Thought: 分析问题
🔧 Action: 调用工具
👁️ Observation: 观察结果

工具调用示例

function
name: get_weather
parameters:
location: string
date: string

接入层 · 接入方式

多种接入方式让AI能力可以灵活集成到各类应用和系统中

🔌
API 接入
最直接的调用方式

通过RESTful API或SDK直接调用模型服务,适合大多数应用场景,开发简单直接。

特点:
  • 开发简单,文档完善
  • 按需付费,成本可控
  • 无需维护基础设施
import openai response = openai.chat.completions.create( model="gpt-4", messages=[{"role": "user", "content": "Hello!"}] )
🔗
MCP 协议
模型上下文协议

标准化的模型接入协议,统一接口规范,让模型和工具之间的协作更加标准化。

特点:
  • 标准化接口规范
  • 工具生态互通
  • 降低集成成本
// MCP Server 配置 { "name": "my-mcp-server", "tools": [ {"name": "search", "description": "搜索工具"} ] }
🧩
Skill 系统
能力封装与编排

将特定能力封装为可复用的Skill,支持组合编排,构建复杂的AI应用能力矩阵。

特点:
  • 能力模块化封装
  • 支持组合复用
  • 构建能力矩阵
@skill(name="translator") def translate(text, target_lang): """翻译文本到目标语言""" return model.translate( text, target_lang )

🔌 接入方式对比

维度 API MCP Skill
开发难度 ⭐⭐ ⭐⭐⭐ ⭐⭐⭐⭐
灵活性 ⭐⭐⭐ ⭐⭐⭐⭐ ⭐⭐⭐⭐⭐
生态互通 ⭐⭐ ⭐⭐⭐⭐⭐ ⭐⭐⭐
适用场景 快速集成 生态互联 复杂应用

产品应用层 · 产品形态与场景

AI技术正在以各种产品形态渗透到各行各业,改变我们的工作生活方式

产品形态

💬 对话机器人
✈️ AI Copilot
🤖 AI Agent
🔍 AI搜索
🎨 AI创作
对话机器人 Chatbot

最经典的AI产品形态,通过自然语言对话提供服务。从简单的问答到复杂的多轮交互,对话机器人正在变得越来越智能。

  • 📝 自然对话: 理解上下文,进行多轮交互
  • 💡 知识问答: 基于训练知识回答问题
  • 🎭 角色扮演: 可设定不同角色和风格
  • 🔧 任务执行: 通过工具调用完成特定任务
代表产品: ChatGPT, Claude, 文心一言, 通义千问
帮我写一段Python代码计算斐波那契数列
当然可以!这是一个高效的斐波那契数列实现:
def fibonacci(n): if n <= 1: return n a, b = 0, 1 for _ in range(2, n + 1): a, b = b, a + b return b # 打印前10个斐波那契数 for i in range(10): print(f"F({i}) = {fibonacci(i)}")

典型应用场景

📚
智能教育
能力层 编排层 执行层

个性化辅导、自动批改、知识问答、学习路径规划。根据学生水平动态调整难度和内容。

🏥
医疗健康
能力层 执行层 接入层

辅助诊断、病历分析、药物查询、健康管理。结合医学知识库提供循证建议。

💰
金融科技
编排层 执行层 接入层

智能投顾、风险评估、研报分析、客服自动化。实时分析市场数据提供投资建议。

💻
软件开发
能力层 编排层 执行层

代码生成、代码审查、Bug修复、文档生成。理解代码上下文提供智能建议。

⚖️
法律服务
能力层 执行层 接入层

合同审查、案例检索、法律咨询、文书起草。结合法律知识库提供准确建议。

🎧
客户服务
编排层 执行层 接入层

智能客服、工单处理、情感分析、知识库问答。7x24小时响应客户需求。

✍️
内容创作
能力层 编排层 执行层

文案撰写、视频脚本、社媒运营、广告创意。AI辅助创意生成与内容优化。

🛒
电商零售
能力层 编排层 接入层

商品推荐、智能导购、评论分析、库存预测。提升转化率和购物体验。

AI 名词库

系统梳理AI领域核心概念,帮助建立完整的知识体系

LLM(大语言模型)
基础
能力层 - 模型基础
Large Language Model,大语言模型。基于Transformer架构,通过海量文本训练的大规模神经网络模型,具备理解和生成自然语言的能力。
Transformer(变换器)
进阶
能力层 - 架构基础
现代大语言模型的基础架构,基于自注意力机制(Self-Attention),能够并行处理序列数据,捕获长距离依赖关系。
Token(词元)
基础
能力层 - 基本概念
模型处理文本的最小单位。英文中约0.75个单词,中文中约0.5个汉字。模型按Token计费,也有最大Token限制(上下文长度)。
Prompt(提示词)
基础
能力层 - 交互方式
提示词,用户向模型输入的指令或问题。良好的Prompt设计能显著提升模型输出质量,是一门重要技能(Prompt Engineering)。
Temperature(温度参数)
进阶
能力层 - 生成参数
温度参数,控制模型输出的随机性。值越低(如0.2)输出越确定,值越高(如1.0+)输出越多样创意。通常0.7为平衡值。
Fine-tuning(微调)
进阶
能力层 - 模型训练
微调,在预训练模型基础上,使用特定领域数据继续训练,使模型适应特定任务或风格,提升专业领域表现。
RLHF(人类反馈强化学习)
高级
能力层 - 对齐技术
Reinforcement Learning from Human Feedback,基于人类反馈的强化学习。让模型学习人类偏好,生成更有用、无害的输出。
Context Window(上下文窗口)
进阶
能力层 - 模型能力
上下文窗口,模型单次能处理的最大Token数量。从早期4K发展到现在的200K+,长上下文是重要技术方向。
Intent Recognition(意图识别)
进阶
编排层 - 核心能力
意图识别,理解用户输入的目的和需求。是路由决策的基础,决定请求应该被如何处理和分配。
Router(路由器)
进阶
编排层 - 核心组件
路由器,负责将请求分发到不同的处理路径。可以是基于规则的,也可以是基于LLM的智能路由。
RAG(检索增强生成)
进阶
编排层 - 检索增强
Retrieval-Augmented Generation,检索增强生成。结合外部知识库,先检索相关信息再生成回答,解决模型知识局限。
Embedding(嵌入向量)
进阶
编排层 - 向量化
嵌入向量,将文本/图像等转换为高维数值向量。语义相似的内容在向量空间中距离相近,是RAG和语义检索的基础。
Function Calling(函数调用)
进阶
执行层 - 工具调用
函数调用,模型识别需要调用外部工具/函数,并生成规范的调用参数。是Agent和工具使用的基础能力。
Agent(智能体)
进阶
执行层 - 智能体
智能体,能够自主感知环境、做出决策并执行动作的AI系统。通常具备规划、记忆、工具使用等能力。
ReAct(推理行动结合)
高级
执行层 - 推理模式
Reasoning + Acting,推理与行动结合的模式。Agent循环进行:思考(Thought)→行动(Action)→观察(Observation)。
CoT(思维链)
进阶
执行层 - 提示技术
Chain-of-Thought,思维链。让模型一步步推理,显式展示思考过程,显著提升复杂问题(如数学)的解决能力。
Workflow(工作流)
基础
执行层 - 流程编排
工作流,预定义的任务处理流程。将复杂任务分解为多个步骤,按固定或条件逻辑依次执行。
API(应用程序接口)
基础
接入层 - 接口方式
Application Programming Interface,应用程序接口。通过标准化接口调用AI能力,是最常用的接入方式。
MCP(模型上下文协议)
进阶
接入层 - 协议标准
Model Context Protocol,模型上下文协议。Anthropic推出的开放协议,标准化模型与外部工具/数据的集成方式。
SDK(软件开发工具包)
基础
接入层 - 开发工具
Software Development Kit,软件开发工具包。封装了API调用的细节,提供更便捷的编程接口。
Streaming(流式传输)
进阶
接入层 - 传输方式
流式传输,模型生成内容时逐字/逐句返回,而非等待全部生成完毕。提升用户体验,减少等待感。
Hallucination(幻觉)
进阶
通用概念 - 模型局限
幻觉,模型生成看似合理但实际错误的内容。是大语言模型的固有问题,需要通过RAG等方式缓解。
Few-shot(少样本学习)
进阶
通用概念 - 提示技术
少样本学习,在Prompt中提供几个示例,让模型理解任务模式。比零样本(Zero-shot)效果更好。
System Prompt(系统提示词)
进阶
通用概念 - 提示工程
系统提示词,设定模型的全局行为、角色和能力边界。对用户不可见,影响整个对话的行为模式。
Multimodal(多模态)
进阶
通用概念 - 模型类型
多模态,模型能同时处理和理解多种类型的数据(文本、图像、音频、视频),实现更丰富的交互。
MoE(混合专家模型)
高级
通用概念 - 架构类型
Mixture of Experts,混合专家模型。将大模型分解为多个专家子网络,每次只激活部分专家,提升效率。
Quantization(量化)
高级
通用概念 - 模型优化
量化,将模型参数从高精度(如FP32)转换为低精度(如INT8/INT4),减小模型体积,加速推理。
Inference(推理)
基础
通用概念 - 基本概念
推理,模型根据输入生成输出的过程。与训练相对,是模型实际应用时的计算阶段。
Benchmark(基准测试)
进阶
通用概念 - 评估标准
基准测试,标准化的模型能力评估测试集。如MMLU(知识)、HumanEval(代码)、GSM8K(数学)等。
Skill(技能)
进阶
通用概念 - 能力封装
技能,将特定能力封装为可复用的模块,如代码生成、数据分析等。支持组合编排,构建复杂的AI应用能力矩阵。
User Prompt(用户提示词)
基础
通用概念 - 交互方式
用户提示词,用户直接向模型输入的指令或问题。与System Prompt(系统提示词)相对,是用户与AI交互的主要方式。
AGI(通用人工智能)
基础
通用概念 - 核心概念
Artificial General Intelligence,通用人工智能。具备与人类相当或超越人类的通用认知能力,能够理解、学习和执行任何智力任务。目前仍处于研究阶段。
Vector DB(向量数据库)
进阶
通用概念 - 技术基础
向量数据库,专门用于存储和检索高维向量数据的数据库。通过相似度搜索快速找到语义相近的内容,是RAG和语义检索的基础设施。