想象一下,你要教一个完全不懂中文的外国人理解中文。
最直接的方法是什么?给他一本词典,然后告诉他一些语法规则:“主语+谓语+宾语”、“形容词放在名词前面”、“如果看到’吗’,这是个疑问句”。
这就是早期计算机处理语言的方式——基于规则。
1966年,一个叫ELIZA的程序诞生了。它是历史上第一个”聊天机器人”。你输入”我很难过”,它会回复”为什么你会难过?“看起来像在对话,但实际上它只是在机械地匹配规则,完全不理解”难过”是什么意思。
从ELIZA到今天的ChatGPT,AI走过了近70年。这70年里发生了什么?大模型到底是怎么”思考”的?
这篇文章,带你用历史的眼光看透AI本质。
本文要点
- 从规则到统计:AI如何学会”预测下一个词”
- 从符号到向量:AI如何理解”词的含义”
- 从顺序到全局:Transformer为何如此强大
- 从小模型到大模型:什么是”涌现能力”
- 能力与边界:大模型能做什么、不能做什么
一、规则时代:AI只能”照本宣科”(1950-2010)
1.1 ELIZA:第一个聊天机器人
1966年,MIT的Joseph Weizenbaum创造了ELIZA。它是这样工作的:
看起来很智能?其实ELIZA只是在做模式匹配。它不知道”难过”是什么感觉,也不知道”为什么”在问什么。它只是按照写好的规则,把用户的输入”变形”后输出。
这种方法的局限很明显:你不可能为所有情况写规则。人类语言太复杂、太灵活了。
1.2 N-gram:让机器学会”猜词”
到了1980-1990年代,研究者换了个思路:与其写规则,不如让机器自己从数据中学习。
想象你在玩文字接龙:前三个词是”今天天气”,下一个词最可能是什么?
如果你读过很多书,你的大脑会告诉你:
- “很好”(最常见)
- “晴朗”(也挺常见)
- “糟糕”(不太常见)
- “紫色”(几乎不可能)
这就是N-gram模型的核心思想:统计大量文本中词语的共现频率,然后预测下一个词。
Bigram(看前面1个词):P(好|天气) = "天气 好"出现次数 / "天气"出现次数
Trigram(看前面2个词):P(好|今天,天气) = "今天 天气 好"出现次数 / "今天 天气"出现次数这个方法在当时取得了实用化成果:
- Google搜索的拼写纠错:“teh” → 建议改为”the”
- 手机输入法的自动联想:打出”今天天”,自动联想”气”
但N-gram有三大根本缺陷:
- 窗口太小:只能看到前面几个词,远的关联抓不住
- 组合爆炸:窗口稍微大一点,可能的情况指数级增长
- 不理解语义:只知道”天气”和”好”经常一起出现,但不知道为什么
用一句话总结:N-gram能”猜词”,但不”理解”。
二、表示学习:让机器理解”词的含义”(2010-2014)
2.1 Word2Vec:词变成向量
2013年,Google的Mikolov等人提出了Word2Vec,开启了一个新时代。
核心思想很简单:把每个词变成一个向量(一串数字),让语义相近的词在空间中距离也近。
神奇的是,这些向量可以做”数学运算”:
国王 - 男人 + 女人 ≈ 王后这意味着什么?机器学会了”词之间的关系”。
"国王"和"王后"的关系 ≈ "男人"和"女人"的关系Word2Vec证明了:机器可以自动从文本中学到语义规律,不需要人工定义。
2.2 一个遗留问题:一词多义
但Word2Vec有个致命缺陷:每个词只有一个向量。
“银行”这个词:
- “我去银行取钱” → 金融机构
- “河边的银行很美” → 河岸
Word2Vec只能给”银行”分配一个向量,无法区分这两种含义。
这促使研究者思考:如何让词的表示依赖上下文动态变化?
三、序列建模:让机器记住”上下文”(2014-2017)
3.1 Seq2Seq:把句子变成”思想向量”
2014年,Google提出了Seq2Seq(序列到序列)模型,架构非常优雅:
这实现了NLP历史上的第一次:一个模型可以端到端地处理”序列→序列”的转换,无需人工设计中间步骤。
机器翻译、对话系统、文本摘要,都可以用这个框架解决。
但很快遇到瓶颈:句子一长,信息就丢了。
想象你要翻译一个长句子。Seq2Seq要把整个句子压缩成一个固定维度的向量。句子越长,压缩得越狠,信息丢失越严重。
3.2 注意力机制:让模型学会”看哪里”
2014-2015年,注意力机制(Attention)出现了。
核心思想:在生成每个输出词时,动态地关注输入序列中最相关的部分。
就像人类阅读时:
- 眼睛会在文章中跳跃
- 重点关注与当前任务相关的部分
- 而不是死记硬背整篇文章
翻译"fox"时: "The": 权重 0.05 "quick": 权重 0.1 "fox": 权重 0.7 ← 重点关注 ...
翻译"river bank"时: "river": 权重 0.4 ← 重点关注 "bank": 权重 0.5 ← 重点关注注意力机制迅速成为标配,机器翻译质量飞跃。
但这个时期的模型有个根本限制:必须按顺序处理,训练很慢。
四、Transformer:一切皆可并行(2017)
4.1 “Attention is All You Need”
2017年6月,Google发表了改变NLP历史的论文《Attention is All You Need》。
核心创新:完全抛弃顺序处理,只用注意力机制。
以前处理”1997年出生于北京的那个男孩,终于在2020年回到了他的家乡___“这个句子,模型要从左到右一个词一个词读。
但人类不是这样理解的。
人类会:
- 快速扫描全句,识别关键信息(“北京”、“家乡”)
- 注意到”家乡”和”北京”之间的语义关系
- 忽略中间不太相关的细节
Transformer正是模仿这种”非顺序”的理解方式。
4.2 自注意力:每个词都能看到所有词
关键优势:
- 每个词都可以同时看到所有其他词
- 不受距离限制
- 可以完全并行计算,训练速度快百倍
4.3 Transformer的意义
Transformer不只是”更快的模型”,它重新定义了语言建模的范式:
以前:顺序处理 + 局部关注现在:全局关系网络 + 并行处理更重要的是,Transformer的可扩展性极强——堆叠更多层、使用更多参数,性能持续提升。这为后来的”大模型”奠定了基础。
五、预训练时代:先学通用能力,再适配具体任务(2018-至今)
5.1 一个简单的想法
2018年之前,每个NLP任务都需要:
- 大量标注数据
- 针对性的模型设计
- 从头开始训练
这就像每次盖房子都要从烧砖开始。
能不能先让模型学会”通用语言能力”,再针对具体任务调整?
2018年,GPT-1和BERT把这个想法变成了现实。
5.2 GPT的训练方式:预测下一个词
GPT的训练极其简单:给定前面的词,预测下一个词。
输入:"人工智能是计算机科学的一个"输出:"分支"
输入:"人工智能是计算机科学的"输出:"一个"互联网上有无尽的文本,这些都可以用来训练,不需要人工标注。
要准确预测下一个词,模型必须理解:
- 语法:“的”后面通常接名词
- 语义:“计算机科学”的分支应该是技术领域的词
- 常识:人工智能确实是计算机科学的一个分支
通过”猜词”,模型学会了语言。
5.3 规模的魔力:涌现能力
GPT系列的演进揭示了一个惊人规律:
| 模型 | 参数规模 | 关键能力 |
|---|---|---|
| GPT-1 | 1.17亿 | 基本文本补全 |
| GPT-2 | 15亿 | 连贯文章生成 |
| GPT-3 | 1750亿 | 上下文学习、代码生成 |
| ChatGPT | - | 对话能力质变 |
| GPT-4 | - | 多模态、推理能力大幅提升 |
当模型规模超过某个临界点,会”突然”涌现出新能力,就像水在100℃时突然沸腾一样。
- GPT-2能生成连贯的文章
- GPT-3无需微调就能完成新任务(上下文学习)
- ChatGPT学会了”对话”,而不是”生成文本”
这就是涌现能力:小模型完全没有的能力,大模型突然就有了。
5.4 当前的能力与边界
大模型已经可以:
- 理解和生成流畅的自然语言
- 进行多轮对话,记住上下文
- 完成各种语言任务(翻译、摘要、问答)
- 编写和理解代码
- 进行初级的逻辑推理
但依然不能:
- 真正”理解”语言的深层含义(只是统计模式)
- 可靠地进行复杂推理(容易出错)
- 避免”幻觉”(编造不存在的信息)
- 具备持续学习能力(对话结束就遗忘)
理解这些边界,是正确使用大模型的前提。
可视化图解
5.1 语言模型演进时间线
5.2 自注意力机制原理
输入句子:"我 爱 北京"
"我"的关注分布: 我: ████ 0.2 爱: ████ 0.3 北京: ████████ 0.5 ← "我"关注"北京"最多
"爱"的关注分布: 我: ████████ 0.5 ← "爱"关注"我"最多 爱: ██ 0.1 北京: ████ 0.4
"北京"的关注分布: 我: ████ 0.3 爱: ████ 0.3 北京: ████ 0.4每个词都”看”了所有其他词,计算相关性权重。
常见问题 FAQ
Q1: 大模型真的”理解”语言吗?
A: 取决于你怎么定义”理解”。大模型学会了语言的统计规律,能处理各种任务,但它不知道词背后的真实含义。比如它能回答”苹果是什么颜色”,但从未见过真正的苹果。更准确的说法是:大模型是”基于统计的文本生成器”,而不是”知识库”。
Q2: 为什么模型越大越聪明?
A: 两个原因。一是”容量”:更大的模型能存储更多信息、学习更复杂的规律。二是”涌现”:某些能力只有在规模足够大时才会出现,就像水必须到100℃才沸腾。
Q3: ChatGPT和GPT-4是什么关系?
A: GPT-4是模型架构,ChatGPT是基于GPT系列的产品。ChatGPT经过了特殊的训练(RLHF),让它更适合对话场景。
Q4: 什么是”涌现能力”?
A: 指模型规模达到一定程度后,突然出现的新能力。比如GPT-3的”上下文学习”能力——给它几个示例,它就能学会新任务,这在GPT-2中完全没有。
Q5: 开源模型和闭源模型差距大吗?
A: 2024-2025年,开源模型(如LLaMA 3、DeepSeek、Qwen)已经非常接近闭源模型的能力。在某些任务上,开源模型甚至更优。选择时需要综合考虑能力、成本、隐私等因素。
小结
从1966年的ELIZA到今天的GPT-4,AI处理语言的方式经历了根本性变化:
每一次范式转变,都让AI更接近”理解”语言。但本质上,大模型仍然是基于统计的文本生成器。
理解这一点,你就能:
- 正确评估它的能力边界
- 在合适的场景使用它
- 不被”AI会取代人类”的焦虑裹挟
AI是工具,你是主人。
下篇预告
现在你知道了大模型是怎么”思考”的。但当你输入一段文字,模型内部到底发生了什么?Token是什么?为什么大模型会”胡说八道”?
参考资料
支持与分享
如果这篇文章对你有帮助,欢迎支持作者或分享给更多人
部分信息可能已经过时






