mobile wallpaper 1mobile wallpaper 2mobile wallpaper 3mobile wallpaper 4
3188 字
9 分钟
从零理解大语言模型的"思考"方式
2025-09-05

想象一下,你要教一个完全不懂中文的外国人理解中文。

最直接的方法是什么?给他一本词典,然后告诉他一些语法规则:“主语+谓语+宾语”、“形容词放在名词前面”、“如果看到’吗’,这是个疑问句”。

这就是早期计算机处理语言的方式——基于规则

1966年,一个叫ELIZA的程序诞生了。它是历史上第一个”聊天机器人”。你输入”我很难过”,它会回复”为什么你会难过?“看起来像在对话,但实际上它只是在机械地匹配规则,完全不理解”难过”是什么意思。

从ELIZA到今天的ChatGPT,AI走过了近70年。这70年里发生了什么?大模型到底是怎么”思考”的?

这篇文章,带你用历史的眼光看透AI本质。

本文要点#

  • 从规则到统计:AI如何学会”预测下一个词”
  • 从符号到向量:AI如何理解”词的含义”
  • 从顺序到全局:Transformer为何如此强大
  • 从小模型到大模型:什么是”涌现能力”
  • 能力与边界:大模型能做什么、不能做什么

一、规则时代:AI只能”照本宣科”(1950-2010)#

1.1 ELIZA:第一个聊天机器人#

1966年,MIT的Joseph Weizenbaum创造了ELIZA。它是这样工作的:

flowchart TD N0["如果用户说"我很XXX""] N1["回复"为什么你会XXX?""] N0 --> N1

看起来很智能?其实ELIZA只是在做模式匹配。它不知道”难过”是什么感觉,也不知道”为什么”在问什么。它只是按照写好的规则,把用户的输入”变形”后输出。

这种方法的局限很明显:你不可能为所有情况写规则。人类语言太复杂、太灵活了。

1.2 N-gram:让机器学会”猜词”#

到了1980-1990年代,研究者换了个思路:与其写规则,不如让机器自己从数据中学习

想象你在玩文字接龙:前三个词是”今天天气”,下一个词最可能是什么?

如果你读过很多书,你的大脑会告诉你:

  • “很好”(最常见)
  • “晴朗”(也挺常见)
  • “糟糕”(不太常见)
  • “紫色”(几乎不可能)

这就是N-gram模型的核心思想:统计大量文本中词语的共现频率,然后预测下一个词。

Bigram(看前面1个词):
P(好|天气) = "天气 好"出现次数 / "天气"出现次数
Trigram(看前面2个词):
P(好|今天,天气) = "今天 天气 好"出现次数 / "今天 天气"出现次数

这个方法在当时取得了实用化成果:

  • Google搜索的拼写纠错:“teh” → 建议改为”the”
  • 手机输入法的自动联想:打出”今天天”,自动联想”气”

但N-gram有三大根本缺陷:

  1. 窗口太小:只能看到前面几个词,远的关联抓不住
  2. 组合爆炸:窗口稍微大一点,可能的情况指数级增长
  3. 不理解语义:只知道”天气”和”好”经常一起出现,但不知道为什么

用一句话总结:N-gram能”猜词”,但不”理解”


二、表示学习:让机器理解”词的含义”(2010-2014)#

2.1 Word2Vec:词变成向量#

2013年,Google的Mikolov等人提出了Word2Vec,开启了一个新时代。

核心思想很简单:把每个词变成一个向量(一串数字),让语义相近的词在空间中距离也近

flowchart TD N0[""国王""] N1["[0.2, 0.8, 0.1, 0.9, ...]"] N0 --> N1 N2[""王后""] N3["[0.2, 0.7, 0.1, 0.8, ...]"] N2 --> N3 N4[""男人""] N5["[0.3, 0.5, 0.2, 0.7, ...]"] N4 --> N5 N6[""女人""] N7["[0.3, 0.4, 0.2, 0.6, ...]"] N6 --> N7

神奇的是,这些向量可以做”数学运算”:

国王 - 男人 + 女人 ≈ 王后

这意味着什么?机器学会了”词之间的关系”

"国王"和"王后"的关系 ≈ "男人"和"女人"的关系

Word2Vec证明了:机器可以自动从文本中学到语义规律,不需要人工定义

2.2 一个遗留问题:一词多义#

但Word2Vec有个致命缺陷:每个词只有一个向量

“银行”这个词:

  • “我去银行取钱” → 金融机构
  • “河边的银行很美” → 河岸

Word2Vec只能给”银行”分配一个向量,无法区分这两种含义。

这促使研究者思考:如何让词的表示依赖上下文动态变化?


三、序列建模:让机器记住”上下文”(2014-2017)#

3.1 Seq2Seq:把句子变成”思想向量”#

2014年,Google提出了Seq2Seq(序列到序列)模型,架构非常优雅:

flowchart TD N0["编码器:读入整个句子"] N1["压缩成一个"思想向量""] N0 --> N1 N2["解码器:根据这个向量"] N3["一步步生成输出"] N2 --> N3

这实现了NLP历史上的第一次:一个模型可以端到端地处理”序列→序列”的转换,无需人工设计中间步骤。

机器翻译、对话系统、文本摘要,都可以用这个框架解决。

但很快遇到瓶颈:句子一长,信息就丢了。

想象你要翻译一个长句子。Seq2Seq要把整个句子压缩成一个固定维度的向量。句子越长,压缩得越狠,信息丢失越严重。

3.2 注意力机制:让模型学会”看哪里”#

2014-2015年,注意力机制(Attention)出现了。

核心思想:在生成每个输出词时,动态地关注输入序列中最相关的部分

就像人类阅读时:

  • 眼睛会在文章中跳跃
  • 重点关注与当前任务相关的部分
  • 而不是死记硬背整篇文章
翻译"fox"时:
"The": 权重 0.05
"quick": 权重 0.1
"fox": 权重 0.7 ← 重点关注
...
翻译"river bank"时:
"river": 权重 0.4 ← 重点关注
"bank": 权重 0.5 ← 重点关注

注意力机制迅速成为标配,机器翻译质量飞跃。

但这个时期的模型有个根本限制:必须按顺序处理,训练很慢。


四、Transformer:一切皆可并行(2017)#

4.1 “Attention is All You Need”#

2017年6月,Google发表了改变NLP历史的论文《Attention is All You Need》。

核心创新:完全抛弃顺序处理,只用注意力机制

以前处理”1997年出生于北京的那个男孩,终于在2020年回到了他的家乡___“这个句子,模型要从左到右一个词一个词读。

但人类不是这样理解的。

人类会:

  • 快速扫描全句,识别关键信息(“北京”、“家乡”)
  • 注意到”家乡”和”北京”之间的语义关系
  • 忽略中间不太相关的细节

Transformer正是模仿这种”非顺序”的理解方式。

4.2 自注意力:每个词都能看到所有词#

flowchart TD N0["北京: "我是地名,相关性很高!""] N1["权重 0.8"] N0 --> N1 N2["男孩: "还行,有点关系""] N3["权重 0.3"] N2 --> N3 N4["小学: "关系不大""] N5["权重 0.1"] N4 --> N5

关键优势:

  • 每个词都可以同时看到所有其他词
  • 不受距离限制
  • 可以完全并行计算,训练速度快百倍

4.3 Transformer的意义#

Transformer不只是”更快的模型”,它重新定义了语言建模的范式:

以前:顺序处理 + 局部关注
现在:全局关系网络 + 并行处理

更重要的是,Transformer的可扩展性极强——堆叠更多层、使用更多参数,性能持续提升。这为后来的”大模型”奠定了基础。


五、预训练时代:先学通用能力,再适配具体任务(2018-至今)#

5.1 一个简单的想法#

2018年之前,每个NLP任务都需要:

  • 大量标注数据
  • 针对性的模型设计
  • 从头开始训练

这就像每次盖房子都要从烧砖开始。

能不能先让模型学会”通用语言能力”,再针对具体任务调整?

2018年,GPT-1和BERT把这个想法变成了现实。

5.2 GPT的训练方式:预测下一个词#

GPT的训练极其简单:给定前面的词,预测下一个词。

输入:"人工智能是计算机科学的一个"
输出:"分支"
输入:"人工智能是计算机科学的"
输出:"一个"

互联网上有无尽的文本,这些都可以用来训练,不需要人工标注

要准确预测下一个词,模型必须理解:

  • 语法:“的”后面通常接名词
  • 语义:“计算机科学”的分支应该是技术领域的词
  • 常识:人工智能确实是计算机科学的一个分支

通过”猜词”,模型学会了语言。

5.3 规模的魔力:涌现能力#

GPT系列的演进揭示了一个惊人规律:

模型参数规模关键能力
GPT-11.17亿基本文本补全
GPT-215亿连贯文章生成
GPT-31750亿上下文学习、代码生成
ChatGPT-对话能力质变
GPT-4-多模态、推理能力大幅提升

当模型规模超过某个临界点,会”突然”涌现出新能力,就像水在100℃时突然沸腾一样。

  • GPT-2能生成连贯的文章
  • GPT-3无需微调就能完成新任务(上下文学习)
  • ChatGPT学会了”对话”,而不是”生成文本”

这就是涌现能力:小模型完全没有的能力,大模型突然就有了。

5.4 当前的能力与边界#

大模型已经可以:

  • 理解和生成流畅的自然语言
  • 进行多轮对话,记住上下文
  • 完成各种语言任务(翻译、摘要、问答)
  • 编写和理解代码
  • 进行初级的逻辑推理

但依然不能:

  • 真正”理解”语言的深层含义(只是统计模式)
  • 可靠地进行复杂推理(容易出错)
  • 避免”幻觉”(编造不存在的信息)
  • 具备持续学习能力(对话结束就遗忘)

理解这些边界,是正确使用大模型的前提。


可视化图解#

5.1 语言模型演进时间线#

mindmap root((1950-2010: 规则与统计时代)) 1966: ELIZA(规则匹配) 1980s: N-gram(统计预测) 2010-2014: 表示学习时代 2013: Word2Vec(词向量) 2014-2017: 序列建模时代 2014: Seq2Seq(编码-解码) 2015: Attention(注意力) 2017-至今: Transformer时代 2017: Transformer(并行处理) 2018: GPT/BERT(预训练) 2022: ChatGPT(对话能力质变) 2023: GPT-4(多模态)

5.2 自注意力机制原理#

输入句子:"我 爱 北京"
"我"的关注分布:
我: ████ 0.2
爱: ████ 0.3
北京: ████████ 0.5 ← "我"关注"北京"最多
"爱"的关注分布:
我: ████████ 0.5 ← "爱"关注"我"最多
爱: ██ 0.1
北京: ████ 0.4
"北京"的关注分布:
我: ████ 0.3
爱: ████ 0.3
北京: ████ 0.4

每个词都”看”了所有其他词,计算相关性权重。


常见问题 FAQ#

Q1: 大模型真的”理解”语言吗?

A: 取决于你怎么定义”理解”。大模型学会了语言的统计规律,能处理各种任务,但它不知道词背后的真实含义。比如它能回答”苹果是什么颜色”,但从未见过真正的苹果。更准确的说法是:大模型是”基于统计的文本生成器”,而不是”知识库”。

Q2: 为什么模型越大越聪明?

A: 两个原因。一是”容量”:更大的模型能存储更多信息、学习更复杂的规律。二是”涌现”:某些能力只有在规模足够大时才会出现,就像水必须到100℃才沸腾。

Q3: ChatGPT和GPT-4是什么关系?

A: GPT-4是模型架构,ChatGPT是基于GPT系列的产品。ChatGPT经过了特殊的训练(RLHF),让它更适合对话场景。

Q4: 什么是”涌现能力”?

A: 指模型规模达到一定程度后,突然出现的新能力。比如GPT-3的”上下文学习”能力——给它几个示例,它就能学会新任务,这在GPT-2中完全没有。

Q5: 开源模型和闭源模型差距大吗?

A: 2024-2025年,开源模型(如LLaMA 3、DeepSeek、Qwen)已经非常接近闭源模型的能力。在某些任务上,开源模型甚至更优。选择时需要综合考虑能力、成本、隐私等因素。


小结#

从1966年的ELIZA到今天的GPT-4,AI处理语言的方式经历了根本性变化:

flowchart TD N0["规则匹配"] N1["统计预测"] N0 --> N1 N1["统计预测"] N2["向量表示"] N1 --> N2 N2["向量表示"] N3["全局建模"] N2 --> N3 N3["全局建模"] N4["预训练范式"] N3 --> N4

每一次范式转变,都让AI更接近”理解”语言。但本质上,大模型仍然是基于统计的文本生成器

理解这一点,你就能:

  • 正确评估它的能力边界
  • 在合适的场景使用它
  • 不被”AI会取代人类”的焦虑裹挟

AI是工具,你是主人。


下篇预告#

现在你知道了大模型是怎么”思考”的。但当你输入一段文字,模型内部到底发生了什么?Token是什么?为什么大模型会”胡说八道”?


参考资料#

支持与分享

如果这篇文章对你有帮助,欢迎支持作者或分享给更多人

从零理解大语言模型的"思考"方式
https://blog.souloss.com/posts/machine-learning/llm/understand-llm-thinking/
作者
Souloss
发布于
2025-09-05
许可协议
CC BY-NC-SA 4.0

部分信息可能已经过时