mobile wallpaper 1mobile wallpaper 2mobile wallpaper 3mobile wallpaper 4
11020 字
29 分钟
AI 简史:从规则匹配到智能对话
2025-06-15

想象一个极端的场景:你需要让一台机器学会理解中文。它没有语言概念,没有知识,不懂 “苹果” 到底是水果还是公司。

上世纪 60 年代的研究者选择了最直接的方案:把人类的知识写成规则喂给它。主语+谓语+宾语、形容词修饰名词、“‘不’字放在动词前面”… 这套方法看起来很美,实际上是个无底洞。语言里的例外情况太多,规则写得越多,冲突就越多。这些系统最终沦为 “看起来很聪明,实际上一碰就碎” 的玩具。

核心思想简单粗暴:数频率。

转机出现在 2010 年代。研究者想到一个办法:把每个词变成一串数字,也就是词向量。在这个由数字构成的空间里,意思相近的词会自动聚在一起。国王 和 王后 的距离,约等于 男人 和 女人;北京 和 中国 的关系,约等于 巴黎 和 法国 的关系。机器第一次拥有了某种 语义直觉,它仍然不懂什么是国王,但它知道国王和王后这两个概念是有关联的。

这条路线一路演进:Word2Vec 学会了词的表示,LSTM 学会了处理长句子,Transformer 彻底抛弃了循环结构,用注意力机制同时看清整句话。模型越来越大,能力越来越强,直到某天研究者发现:参数超过某个阈值后,模型突然学会了它从未被明确教过的能力,比如推理、写代码、甚至讲笑话。

这就是今天的大语言模型(LLM)。从规则到统计,再到深度学习和大模型,这条路走了将近七十年。

本文要点#

  • AI 处理语言经历了三个大阶段:规则匹配、统计模型、神经网络
  • 每次范式转变的核心驱动力是 让机器记住更多、理解更远
  • Transformer 架构是当前所有大模型的基石
  • GPT 系列的成功源于 预训练 + 微调 范式
  • 大模型本质上仍是统计模型,并非真正 理解 语言

一、早期探索:基于规则与统计的时代(1950s-2000s)#

1.1 ELIZA:历史上第一个聊天机器人(1966)#

1966 年,MIT(麻省理工学院)教授 Joseph Weizenbaum 写了一个叫 ELIZA 的程序。它模仿心理咨询师和人聊天,成了历史上第一个 聊天机器人。

ELIZA 的工作方式非常简单:模式匹配 + 模板替换

你可以把它想象成一个反应很快的 接话员。它不理解你说了什么,只是在你的话里找关键词,然后从一堆预设模板里挑一个回复。

来看一段对话:

用户:我很难过。
ELIZA:为什么你会难过?
用户:因为我妈妈不理解我。
ELIZA:你能多说说你妈妈的事吗?
用户:她总是批评我。
ELIZA:还有谁总是批评你?

看起来像真人在交谈?但背后的原理是这样的:

  1. 扫描用户输入,找到关键词 难过
  2. 匹配到规则:如果包含 难过→ 回复 "为什么你会难过?"
  3. 扫描到 妈妈→ 匹配规则 家庭成员→ 回复 “你能多说说你妈妈的事吗?”

每一步都是机械执行。ELIZA 不知道 难过 是什么感觉,也不知道 妈妈 是什么关系。它只是在 演戏。

有趣的是,很多用户明知 ELIZA 是程序,依然对它产生了信任感,甚至不愿让开发者看他们的聊天记录。这个现象后来被称为 ELIZA 效应:人类天然倾向于把人格投射到机器上。

ELIZA 的局限很明显:规则是人写死的,不理解语义,只能在预设的模板里打转。你问它一个规则表里没有的问题,它就彻底 愣住 了。

1.2 专家系统:把人类知识变成规则(1970s-80s)#

ELIZA 之后,研究者们想到:既然一个领域的专家能做出准确判断,那把专家的知识全部编码成 if-else 规则,不就能造出 机器专家 了吗?

这就是专家系统(Expert System)的核心思路。

举个例子,一个医疗诊断专家系统可能包含这样的规则:

如果 体温 > 38°C 且 咳嗽 且 流鼻涕
→ 诊断:普通感冒,置信度 80%
如果 体温 > 39°C 且 咳嗽 且 呼吸困难
→ 诊断:肺炎可能,置信度 70%,建议拍片

最有名的专家系统叫 MYCIN(1976 年,斯坦福大学),它用来诊断血液感染病。MYCIN 包含约 600 条规则,在测试中的诊断准确率甚至超过了一些医生。

专家系统在 1980 年代非常流行,企业纷纷投资。但很快大家发现了致命问题:

  • 规则无法穷举。现实世界太复杂了,你永远写不完所有规则
  • 维护成本极高。规则之间可能冲突,改一条可能影响一百条
  • 知识获取瓶颈。把专家脑子里的隐性知识变成代码,比想象中难得多
  • 缺乏学习能力。系统不会从错误中进步,每次改进都需要人工干预

想象你要编写一个理解中文的专家系统。“打” 这个字在不同语境有几十种含义:打人、打车、打球、打字、打酱油、打折……你要为每种情况写一条规则。这还只是一个字,中文常用字有几千个。

这条路注定走不通。研究者们开始寻找新的方向:能不能让机器自己从数据中学习规律?

1.3 N-gram:用统计预测下一个词(1980s-90s)#

转折点来了。与其让人类编写规则,不如让机器统计大量文本中的规律

核心思想非常直觉:用历史预测未来

你每天说中文,你的大脑已经统计了无数 词语搭配。比如我说 今天天气,你脑子里会自动浮现 真好不错怎么样 这些词。这不是因为你理解了 天气 的物理学含义,而是因为你见过太多次这个搭配

N-gram(N 元语法)模型就是把这个直觉数学化了。

先解释几个概念:

  • Unigram(1-gram):只看单个词的频率。的 出现最多,所以它最可能是 下一个词
  • Bigram(2-gram):看前 1 个词。天气 后面最常跟 好预报变化
  • Trigram(3-gram):看前 2 个词。今天 天气 后面最常跟 真好不错

用数学来表示 Bigram 的思路:

P(好 | 天气) = count(天气 好) / count(天气)

意思是:天气 后面跟 “好 的概率 = 天气好 出现的次数 / 天气” 出现的总次数。

如果在 100 万篇文章中,天气 出现了 10,000 次,其中 天气好 出现了 3,000 次,那么:

P(好 | 天气) = 3000 / 10000 = 0.3(即 30%)

这个思路催生了很多实用成果:

  • Google 搜索纠错:你搜 “pythn”,Google 知道你大概率想搜”python”
  • 手机输入法联想:你打 今天,输入法自动推荐 天气开心工作
  • 语音识别:把 识别 和 石壁 区分开,靠的就是上下文中哪个组合更常见

但 N-gram 有三个根本缺陷:

第一,窗口太小。 Trigram 只看前 2 个词。如果一个句子是 “那个昨天在公园里遛狗的男人今天又来了”,当模型处理到 又来了 时,它已经忘记了主语 男人。这就像一个只有 3 秒记忆的鱼,永远记不住前面发生了什么。

第二,组合爆炸。 假设中文常用词有 5 万个,Bigram 就有 50,000 × 50,000 = 25 亿种组合。Trigram 更恐怖:50,000³ = 125 万亿种。大部分组合在训练数据中从未出现过,模型就会给它们零概率,这叫数据稀疏问题。

第三,不理解语义。 国王 和 王后 在 N-gram 看来就是两个毫无关系的符号。它不知道它们都是 统治者,也不知道它们有性别对应关系。

这三个问题指向同一个方向:需要一种能记住更远信息、理解词语含义、不被组合爆炸困住的模型

接下来的故事,就是神经网络登场的时刻。


二、神经网络的记忆:从 RNN 到 LSTM(2000s-2015)#

2.1 Word2Vec:让词语有了 意义(2013)#

2013 年,Google 的 Tomas Mikolov 等人发表了一篇改变 NLP(自然语言处理)历史的论文,提出了 Word2Vec(词向量)。

在此之前,计算机眼中的词语就是一串编号。“猫” 是第 2,837 号,“狗” 是第 9,152 号。两个编号之间没有任何关系,计算机不知道 “猫” 和 “狗 都是动物,也不知道 国王” 和 王后 有什么联系。

Word2Vec 的核心思想:把每个词映射到一个高维向量空间,让语义相近的词在空间中距离也近

什么是向量?你可以把它理解成 坐标。在平面地图上,北京的坐标是(116.4, 39.9),上海是(121.5, 31.2)。Word2Vec 给每个词一个类似的坐标,只不过不是 2 维而是 100 到 300 维。

训练过程也很直觉:一个词的意义由它周围的词决定。这叫 分布式假说。

比如 “猫” 和 “狗” 经常出现在类似的句子里:养了一只猫养了一只狗猫/狗在沙发上睡觉。Word2Vec 学到这个规律后,就会把 “猫” 和 “狗” 的向量放在空间中相近的位置。

最让人兴奋的是这个经典例子:

向量("国王") - 向量("男人") + 向量("女人") ≈ 向量("王后")

用自然语言来说:国王减去 男性特质 加上 女性特质,就约等于王后。这意味着 Word2Vec 自动学习到了性别关系。类似地:

向量("巴黎") - 向量("法国") + 向量("日本") ≈ 向量("东京")

语义竟然可以做加减法!

Word2Vec 的意义在于:

  • 语义可计算:词语之间的关系从人类直觉变成了数学运算
  • 泛化能力提升:即使训练数据里没见过 闺蜜聚会,模型也知道它和 朋友聚餐 相似
  • 为深度学习铺路:后续所有 NLP 模型几乎都以词向量为基础

但 Word2Vec 有一个致命缺陷:一词多义问题

银行 这个词,在 我去银行取钱 和 河流的银行(英文 bank 的两种含义)中意思完全不同。但 Word2Vec 只给 银行 分配一个固定的向量,无法区分不同含义。

类似地,中文里的 “打” 在 打篮球打电话打酱油 中含义各异,但它们共享同一个向量。

怎么办?需要一种模型,能根据上下文动态生成词的表示。这就引出了循环神经网络。

2.2 RNN:给神经网络装上 记忆#

RNN(Recurrent Neural Network,循环神经网络)在语言处理中引入了一个关键概念:记忆

在 RNN 之前的模型(包括 N-gram)都是 无状态 的:每次处理一个词,都像第一次见到这句话。RNN 不同,它在处理每个词的时候,会带着前面所有词留下的信息

你可以把 RNN 想象成你读一本小说的过程:

  • 读第 1 页:你知道主角叫张三
  • 读第 5 页:你知道张三是个程序员,有个女朋友叫李四
  • 读第 30 页:你知道张三跳槽了,和李四分手了

每一页的 理解 都建立在之前所有页的 记忆 之上。RNN 就是这样一步步积累信息的。

用技术语言说:RNN 在每个时间步(处理每个词时),会产生一个隐藏状态(hidden state),这个隐藏状态会传递给下一个时间步。当前词的处理结果 = 当前词的输入 + 上一步的隐藏状态。

h_t = f(x_t, h_{t-1})

其中 h_t 是当前隐藏状态,x_t 是当前输入词,h_{t-1} 是上一步的隐藏状态。

但 RNN 有一个严重的问题:短期记忆衰减

想象一下这个句子:“我出生在法国,在那里度过了童年,后来去了很多国家旅行,学了好几门外语,但我的母语是……你知道答案应该是 法语”。但 RNN 处理到这里时,法国 这个信息已经经过了太多步传递,信号已经衰减殆尽,模型很可能猜不出来。

这就像传话游戏。第一个人说 今天下午三点开会,经过十个人传递后,可能变成了 今天下午散步开心。信息在传递中逐步失真。

在数学上,这叫梯度消失问题:反向传播(让模型学习的关键过程)中,梯度(学习信号)会随着层数增加而指数级衰减。

需要一种 记忆力更好 的网络。

2.3 LSTM:学会 选择性记忆#

LSTM(Long Short-Term Memory,长短期记忆网络)由 Sepp Hochreiter 和 Jürgen Schmidhuber 在 1997 年提出,但真正大规模实用是在 2010 年代。

LSTM 解决记忆问题的方式非常精巧:它引入了三个 “门”(gate)来控制信息的流动

你可以把 LSTM 想象成一个人在做笔记:

  • 遗忘门(Forget Gate):决定之前的笔记中,哪些内容该擦掉。前面说的天气信息跟当前话题无关了,擦掉
  • 输入门(Input Gate):决定当前这段话中,哪些内容值得记到笔记上。主角换了新工作,这很重要,记下来
  • 输出门(Output Gate):决定从笔记中取出哪些信息来生成当前的回复。现在在讨论工作,把工作相关的笔记拿出来

这三个门都是学习出来的,不需要人工设定什么该记什么该忘,模型通过训练数据自动学习策略。

回到之前的例子:“我出生在法国……但我的母语是……”。LSTM 的遗忘门会保留 法国 这个关键信息不让它消退,输出门在需要预测 法语 时把它取出来。

LSTM 比 RNN 能记住更长的上下文,在 2010 年代几乎统治了 NLP 领域:机器翻译、语音识别、文本生成都在用它。

但 LSTM 也有天花板。即使有了选择性记忆,当句子特别长(比如超过几百个词)时,信息仍然会丢失。而且,LSTM 有一个更实际的问题:顺序处理。它必须一个词一个词地读,不能并行计算。这意味着训练一个大规模 LSTM 模型需要很长时间。

2.4 Seq2Seq:端到端的序列转换(2014)#

2014 年,Google 的 Ilya Sutskever、Oriol Vinyals 和 Quoc Le 提出了 Seq2Seq(Sequence to Sequence,序列到序列)架构。

在此之前,如果你要做机器翻译,需要好几个独立的模块:分词器、对齐器、语言模型……每个模块各管各的,出了问题很难定位。

Seq2Seq 的思路简洁而大胆:用一个编码器(Encoder)读入整个输入句子,压缩成一个固定长度的向量(上下文向量),再用一个解码器(Decoder)从这个向量生成输出。

打个比方,这就像同声传译。翻译员先听完一整句话(编码器),在脑子里形成一个 意思(上下文向量),然后用另一种语言说出来(解码器)。

输入:I love you
↓ [编码器]
↓ 上下文向量 [0.23, -0.87, 1.42, ...]
↓ [解码器]
输出:我 爱 你

这是 NLP 历史上第一次端到端的序列转换:一个模型吃进去一个序列,直接吐出另一个序列,中间不需要人工设计的规则。

Seq2Seq 迅速被应用到:

  • 机器翻译:英语翻中文、法语翻德语
  • 对话系统:用户说一句话→模型回复一句话
  • 文本摘要:输入长文→输出短摘要

但 Seq2Seq 有一个致命瓶颈:信息压缩

整个输入句子不管多长,都要压缩进一个固定长度的向量。短句子还好,长句子呢?想象你要把一本 300 页的小说压缩成一句话,你必然丢失大量细节。

实验也证实了这一点:当输入句子超过 20-30 个词时,翻译质量急剧下降。

怎么办?解码器在生成每个词的时候,能不能 回头看看 输入中哪部分最相关?这个想法催生了 NLP 历史上最重要的概念之一。

2.5 Attention:让模型学会 回头看(2014-2015)#

2014-2015 年,Dzmitry Bahdanau 等人提出了注意力机制(Attention Mechanism)。

核心思想用一句话概括:生成每个输出词时,动态关注输入中最相关的部分

还是用同声传译的比喻。之前的 Seq2Seq 翻译员听完整句话,脑子里只留下一个模糊的印象就开始翻译。而加入注意力机制后,翻译员可以随时回头看原文,翻译到某个词时,目光集中在原文中最相关的部分。

举个具体例子。当翻译 “The quick brown fox jumps到中文时,模型生成 狐狸” 这个词时的注意力分布可能是:

输入词Thequickbrownfoxjumps
权重0.020.080.100.700.10

可以看到,“fox的权重高达 0.70,因为 狐狸 就是fox” 的翻译。模型自动学到了对齐关系

你可以把注意力想象成人类阅读的方式。你读一篇文章时,眼睛不是匀速逐字移动的,而是会跳跃:遇到关键信息停留更久,跳过不重要的内容。注意力机制让模型也学会了 跳跃阅读。

注意力机制带来了巨大的性能提升:机器翻译的 BLEU(一种翻译质量评分)提高了 10 到 15 分,这在当时是革命性的进步。

但注意力机制只是 Seq2Seq 的 补丁。底层依然是 RNN/LSTM 在顺序处理序列。这意味着:

  • 训练速度慢:必须一个词一个词顺序计算,无法充分利用 GPU 的并行能力
  • 记忆仍有上限:虽然比原始 Seq2Seq 好了很多,但超长文本依然力不从心

一个大胆的问题浮现了:如果注意力机制这么好用,能不能完全只用注意力,把 RNN 彻底丢掉?

这个问题的答案,将掀开 AI 历史上最波澜壮阔的一章。


三、GPT 时代:预训练与微调范式的确立(2017-至今)#

3.1 Transformer:只用注意力就够了(2017)#

2017 年,Google 的 Ashish Vaswani 等 8 位研究者发表了一篇论文,标题简单直接:《Attention is All You Need》(注意力就是你所需要的一切)。

这篇论文提出了 Transformer 架构,做了一个在当时看来非常大胆的决定:完全抛弃 RNN 和 LSTM,只用注意力机制来处理序列

这就像有人宣布:“造汽车不需要发动机了,只用电池就够了。” 大家半信半疑,直到特斯拉真的跑起来了。

Transformer 的核心创新是自注意力机制(Self-Attention)。之前的注意力是 输出关注输入,自注意力是 “序列中每个词关注序列中所有其他词”。

来看一个例子。处理这个句子:“那个来自北京的男孩很想念他的家乡”。

当模型处理 家乡 这个词时,自注意力机制会让它去 “问” 句子中的每个词:“你和我有多大关系?”

  • 北京 回答:“我和你高度相关,我就是你的所指!” → 权重 0.8
  • 男孩 回答:“我和你有一定关系,我是想念家乡的人。” → 权重 0.3
  • 那个 回答:“我和你关系不大。” → 权重 0.05

最终,家乡 的表示会融合所有词的信息,但主要受 北京 的影响。

关键优势:每个词同时看到所有其他词,不需要像 RNN 那样一步步传递。 家乡 和 北京 之间隔了好几个词,在 RNN 中信息要经过多步传递才能到达;但在自注意力中,它们一步到位,直接 对话。

多头注意力:从多个角度理解#

Transformer 不只做一次注意力运算,而是同时做多次,这叫多头注意力(Multi-Head Attention)。

为什么要多头?因为一个词和其他词的关系是多维度的:

  • 第 1 个头关注语法关系:家乡 的修饰词是什么?→ 北京的
  • 第 2 个头关注语义关系:家乡 在情感上和谁相关?→ 想念
  • 第 3 个头关注指代关系:他的 指的是谁?→ 男孩

就像你在公司开会,CEO 从财务角度看问题,CTO 从技术角度看,COO 从运营角度看。每个 “头” 提供不同维度的理解,最后综合起来,比单一视角全面得多。

位置编码:解决顺序问题#

抛弃 RNN 后产生了一个新问题:模型怎么知道词的顺序?

在 RNN 中,顺序是天然的:模型从第一个词开始依次处理。但在自注意力中,所有词同时互相关注,我爱你 和 你爱我 在模型看来没有区别。

解决方案是位置编码(Positional Encoding)。Transformer 给每个词的向量加上一个表示位置的信息。第 1 个位置的编码不同于第 2 个位置,模型由此知道谁在前谁在后。

就像给每个学生发一个座位号。即使所有人同时发言,你也能通过座位号知道 “1 号说的话在 2 号之前”。

Transformer 的三大优势#

第一,无距离限制。 句子开头的词和结尾的词可以直接 对话,信息传递没有衰减。那个让 RNN 头疼的长距离依赖问题?解决了。

第二,完全并行。 所有词的注意力运算可以同时进行,充分利用 GPU 的并行能力。训练速度相比 RNN 提升了一个数量级。

第三,可扩展性强。 模型参数可以不断增大,性能也随之提升。这个特性在后来 GPT 系列的 暴力美学 中被发挥到了极致。

Transformer 发表后迅速统治了 NLP 领域。但真正让它走向大众的,是另一个关键创新:预训练范式。

3.2 预训练范式的诞生(2018)#

在 Transformer 之前,NLP 的工作方式是这样的:

  • 想做情感分析?收集情感标注数据,从头训练一个模型
  • 想做机器翻译?收集平行语料,从头训练另一个模型
  • 想做问答系统?收集问答对,再从头训练一个模型

每个任务都要从零开始,效率极低。这就像你想学做菜,每道菜都要从 认识什么是锅 开始学。

2018 年,两个里程碑式的模型改变了一切。

GPT-1(2018 年 6 月,OpenAI)采用了 预训练 + 微调 范式:

  1. 预训练:在海量文本(约 40 GB 的书籍数据)上训练模型做一件事,就是预测下一个词。给它 今天天气真,让它预测下一个词是 “好”
  2. 微调:在具体任务的小数据集上,进一步调整模型参数

这个思路的精髓在于:预测下一个词这个看似简单的任务,其实要求模型理解语法、语义、逻辑、常识……几乎所有语言能力。

BERT(2018 年 10 月,Google)采用了另一种预训练方式:

  • 随机遮住句子中 15% 的词(用 [MASK] 代替),让模型填空
  • 比如:我 [MASK] 北京天安门→ 模型预测被遮住的词是 爱
  • BERT 是双向的:它同时看左边和右边的上下文来预测

两种方式各有优势:

  • GPT 式(单向,从左到右):擅长文本生成
  • BERT 式(双向):擅长文本理解(分类、问答、命名实体识别)

核心思想是一样的:先在大规模数据上学习通用语言能力,再在小数据上适配具体任务。 这就像培养一个人:先接受通识教育(预训练),再进入专业领域深造(微调)。

这个范式彻底改变了 NLP 的研究方向。从此以后,几乎所有的突破都建立在预训练大模型之上。

3.3 GPT 系列演进与涌现能力#

OpenAI 坚定地沿着 GPT 路线(单向预测下一个词)走了下去,一代比一代大,一代比一代强。

模型发布时间参数规模关键能力
GPT-12018.061.17 亿基本文本补全
GPT-22019.0215 亿连贯文章生成
GPT-32020.051,750 亿上下文学习(Few-shot)
InstructGPT2022.031,750 亿RLHF 指令遵循
ChatGPT2022.11对话能力质变
GPT-42023.03多模态、推理提升

几个关键节点值得细说。

**GPT-2(15 亿参数)**已经能生成相当连贯的文章。OpenAI 一度因为担心被滥用而推迟公开完整模型。他们给 GPT-2 一个开头:“今天在一个山谷里发现了一群会说英语的独角兽”,它续写出了一篇结构完整、逻辑自洽的新闻报道。

**GPT-3(1,750 亿参数)**展现了一种全新能力:上下文学习(In-Context Learning)。你不需要微调模型,只需要在提示(Prompt)中给几个示例,模型就能学会新任务。

比如给 GPT-3 这样的提示:

flowchart TD N0["英语:Hello"] N1["法语:Bonjour"] N0 --> N1 N2["英语:Thank you"] N3["法语:Merci"] N2 --> N3 N4["英语:Good morning"] N5["法语:"] N4 --> N5

GPT-3 不需要任何翻译训练数据,仅凭这几个例子就能回答 “Bonjour”,不对,是”Bon matin”。这种能力叫 Few-shot Learning(少样本学习)。

更让人震惊的是涌现能力(Emergent Abilities)。

涌现能力是指:小模型完全不具备的能力,在模型规模增大到某个临界点后突然出现

想象你在加热一锅水。从 20°C 到 99°C,水看起来没什么变化,最多冒几个泡。但到 100°C 的那一刻,水突然剧烈沸腾。没有 慢慢开始沸腾 这回事,要么不沸,要么沸。

大模型也是这样。1 亿参数的模型完全做不了三位数加法。10 亿参数也不行。但突然,到了 1,000 亿参数左右,模型可以做了。中间没有 “做对 50%” 的过渡阶段。

涌现能力的存在让研究者们意识到:扩大规模本身就是一种创新策略。这也解释了为什么各大公司疯狂追求更大的模型。

3.4 ChatGPT 的成功(2022)#

2022 年 11 月 30 日,OpenAI 发布了 ChatGPT。

从技术上说,ChatGPT 并不是一个全新的模型。它本质上是 GPT-3.5(GPT-3 的改进版),但经过了一项关键技术的 加持:RLHF(Reinforcement Learning from Human Feedback,基于人类反馈的强化学习)。

RLHF 的过程是这样的:

  1. 先让模型生成多个回答
  2. 人类标注员对这些回答排序(哪个更好、更安全、更有帮助)
  3. 用这些排序数据训练一个 奖励模型
  4. 用强化学习让模型生成更符合人类偏好的回答

打个比方:如果说 GPT-3 是一个学富五车但说话没分寸的天才,RLHF 就是请了一位礼仪老师,教它怎么说话更得体、更有帮助、更安全。

ChatGPT 的影响力远超学术界:

  • 发布 5 天,用户突破 100 万
  • 2 个月后,月活跃用户突破 1 亿,创下消费产品增长最快纪录
  • 此前保持这一纪录的是 TikTok(9 个月达到 1 亿用户)

ChatGPT 的意义在于:它标志着大模型从实验室走向了大众。在此之前,GPT-3 虽然强大,但只有开发者通过 API(应用程序接口)才能使用。ChatGPT 让每个人都能直接和 AI 对话。

3.5 开源模型崛起(2023-2025)#

ChatGPT 的成功引发了一个问题:强大的 AI 是否只能掌握在少数大公司手中?

答案是否定的。从 2023 年开始,开源大模型迅速崛起。

LLaMA 系列(Meta)

2023 年 2 月,Meta(原 Facebook)发布了 LLaMA(Large Language Model Meta AI)。这是第一个由科技巨头发布的高质量开源大模型。LLaMA 的出现就像一声发令枪,开源社区迅速在它的基础上开发出了数百个衍生模型。后续的 LLaMA 2 和 LLaMA 3 进一步提升了性能,成为开源大模型的基石。

Mistral

法国创业公司 Mistral AI 证明了欧洲在 AI 领域的实力。他们发布的模型以小参数量实现了令人惊讶的性能,尤其是 Mixtral 8x7B 采用了混合专家架构,在效率上做出了重要创新。

DeepSeek V3/R1

中国公司 DeepSeek 在 2024-2025 年间引起了全球关注。DeepSeek V3 的训练成本仅约 558 万美元,却达到了接近 GPT-4 的性能水平。这打破了 训练顶级大模型需要数亿美元 的认知。DeepSeek R1 则是一个开源的推理模型,能在回答前进行深度思考。

Qwen(阿里通义千问)

阿里巴巴开发的 Qwen 系列在中文能力上表现突出。作为国内的代表性开源模型,Qwen 在多个中文基准测试中名列前茅,为中文 NLP 社区提供了高质量的基础模型。

开源模型的崛起意味着:AI 能力正在从集中走向分散,更多人可以参与 AI 的研究、开发和应用。

3.6 推理时计算范式(2024-2025)#

到 2024 年,研究者发现了一个有趣的现象:让模型在回答前多 “想” 一会儿,回答质量会显著提升

这就像考试一样。面对一道复杂的数学题,你是直接写答案好,还是先在草稿纸上列步骤好?当然是后者。

OpenAI o1/o3 系列就是这个思路的产物。它们在生成最终回答之前,会进行一段 内部思考 过程:把问题分解成小步骤,逐步推理,检查中间结果。

DeepSeek R1 是开源推理模型的代表。它的特别之处在于公开展示了思考过程:你可以看到模型是如何一步步推导出答案的。

这种 推理时计算(Inference-Time Compute)范式的出现,意味着 AI 的进步不再只靠 训练更大的模型,还可以通过 让模型想得更久 来实现。

3.7 多模态融合(2024-2026)#

语言 只是信息的一种形式。人类理解世界不只靠文字,还靠图像、声音、视频。大模型也在朝着这个方向进化。

GPT-4V(2023 年末发布)让模型能 看见 图像。你可以上传一张照片,问模型 这张图里发生了什么,它能给出准确的描述。

Google Gemini 2.0/2.5 是原生多模态模型。它不是 先处理文本再处理图像,而是在架构层面就同时理解文本、图像、音频和视频。

Sora(OpenAI,2024 年发布)则展示了文本生成视频的能力。输入一段文字描述,Sora 能生成逼真的视频片段。

从只能处理文字到能处理图文音视频,大模型正在变成通用的信息处理引擎

3.8 高效架构趋势#

模型越来越大,成本也越来越高。研究者们开始追求 用更少的资源做更多的事。

MoE(Mixture of Experts,混合专家模型) 是一种巧妙的解决方案。

传统模型处理每个问题都要动用全部参数。MoE 不同,它有很多 专家 子网络,每次只激活其中一部分。

打个比方:一家大公司有 100 名员工,但每个项目只需要 5-6 个人协作。MoE 就是这个思路。DeepSeek V3 的总参数量高达 6,710 亿,但每次推理只激活约 370 亿参数,大幅降低了计算成本。

小语言模型(SLM,Small Language Model) 是另一个趋势。

不是所有场景都需要千亿参数的巨型模型。微软的 Phi 系列和 Google 的 Gemma 系列证明,精心设计的小模型(几十亿参数)也能有强大的能力。这些模型甚至可以在手机、笔记本电脑等终端设备上运行,不需要联网。

3.9 当前能力与边界#

走到今天,大语言模型能做什么

  • 理解和生成自然语言:写文章、总结材料、回答问题
  • 多轮对话:记住上下文,进行连贯的交流
  • 翻译、摘要、问答:跨语言、跨领域的信息处理
  • 编写代码:根据描述生成代码,解释和调试代码
  • 初级推理:做简单的逻辑推断、数学运算

但大模型不能做什么

  • 真正理解含义:它不知道 苹果 是什么味道,只知道 苹果 这个词经常和 水果红色甜 一起出现
  • 可靠的复杂推理:涉及多步逻辑、反事实推理时,模型经常出错
  • 避免幻觉(Hallucination):模型会一本正经地编造不存在的 事实,比如引用根本不存在的论文
  • 持续学习:模型的知识冻结在训练数据的截止日期,不能像人一样每天学习新知识

理解这些边界很重要。大模型是人类迄今为止最强大的语言工具,但它不是 通用人工智能(AGI)。它更像一个读过人类所有书籍的超级鹦鹉:记忆力惊人、表达流畅,但并不真正 理解 它说的每一句话。


图解#

3.1 语言模型演进时间线#

timeline title 语言模型演进史 1966 : ELIZA : 模式匹配聊天机器人 1970s-80s : 专家系统 : 人工编码规则 1980s-90s : N-gram 统计模型 : 用频率预测下一个词 1997 : LSTM 提出 : 门控记忆机制 2013 : Word2Vec : 词向量革命 2014 : Seq2Seq + Attention : 端到端序列转换 2017 : Transformer : Attention is All You Need 2018 : GPT-1 与 BERT : 预训练范式诞生 2020 : GPT-3 : 涌现能力与 Few-shot 2022 : ChatGPT : 大模型走向大众 2023-2024 : 开源模型崛起 : LLaMA Mistral DeepSeek 2024-2025 : 推理时计算 : o1 DeepSeek-R1 2025-2026 : 多模态融合 : GPT-4V Gemini Sora

3.2 自注意力机制原理#

输入句子:那个 来自 北京 的 男孩 想念 家乡
处理 "家乡" 时的自注意力权重:
那个 来自 北京 的 男孩 想念 家乡
0.05 0.05 [0.80] 0.02 0.30 0.25 —
↑ ↑
最高权重 次高权重
计算过程(简化):
┌─────────┐
│ 家乡 │──→ 生成 Query(提问:谁和我最相关?)
└─────────┘
↓ 与每个词的 Key 做点积
┌─────────────────────────────────────────────┐
│ 那个:0.05 来自:0.05 北京:0.80 的:0.02 │
│ 男孩:0.30 想念:0.25 │
└─────────────────────────────────────────────┘
↓ 用权重对每个词的 Value 加权求和
┌─────────────────────────────────────┐
│ 家乡的新表示 = 0.80×V(北京) │
│ + 0.30×V(男孩) │
│ + 0.25×V(想念) │
│ + ... │
│ → 融合了上下文信息的 "家乡" │
└─────────────────────────────────────┘

常见问题 FAQ#

3.1 Q1: 大模型真的 理解 语言吗?#

这取决于你如何定义 理解。

大模型能做出很多看起来像 理解 的事情:回答问题、写文章、做翻译、甚至写代码。但它的工作方式本质上是基于统计的模式匹配:预测在给定上下文中,下一个最可能的词是什么。

一个常用的比喻是 中文房间 思想实验(哲学家 John Searle 提出):一个不懂中文的人待在房间里,手里有一本巨大的规则手册。有人从门缝塞进中文问题,他按照手册查找对应的中文回答塞出去。外面的人以为里面的人懂中文,但实际上他只是在 执行规则。

目前的主流观点是:大模型拥有强大的语言能力,但是否具备真正的语言理解,还是一个开放的哲学和科学问题。

3.2 Q2: 为什么模型越大越聪明?涌现能力是什么?#

研究者发现,随着模型参数增加,不仅已有能力变强,还会出现全新的能力,这就是涌现能力

涌现这个概念来自复杂系统理论。水分子本身没有 “湿” 的属性,但大量水分子聚在一起就表现出 “湿”。类似地,单个神经元很简单,但 1,750 亿个参数组成的网络就能展现出推理、翻译、编程等复杂能力。

不过,也有研究者对 涌现 持怀疑态度。有论文指出,某些 涌现 可能只是评估指标选择的问题:换一种评估方式,能力提升可能是渐进的而非突变的。这个话题仍在激烈讨论中。

3.3 Q3: ChatGPT 和 GPT-4 是什么关系?#

它们是同一系列的不同代次

  • GPT-3.5 是 GPT-3 的改进版,训练数据更新、能力更强
  • ChatGPT(最初版本)是基于 GPT-3.5,加上 RLHF 训练,专门优化了对话能力
  • GPT-4 是下一代模型,参数更多、架构更优、支持多模态(文本 + 图像)
  • 后来 ChatGPT 升级为默认使用 GPT-4(付费用户)或 GPT-4o

GPT-4 是大脑,ChatGPT 是面向用户的产品。ChatGPT 可以换不同的大脑,而 GPT-4 也可以被其他产品使用。

3.4 Q4: 开源模型和闭源模型差距大吗?#

差距在迅速缩小。

2023 年初,开源模型和 GPT-4 之间有巨大的差距。但到 2025 年,情况已经完全不同:

  • LLaMA 3 在多个基准测试中接近 GPT-4 水平
  • DeepSeek V3 以不到 600 万美元的训练成本达到了接近 GPT-4 的性能
  • Qwen 2.5 在中文任务上甚至超越了部分闭源模型

开源模型的优势在于:透明、可定制、可本地部署、无数据隐私顾虑。闭源模型的优势在于:最新的技术通常先在闭源模型中出现,且有更多工程优化

对于企业和开发者来说,开源模型越来越成为实际首选。

3.5 Q5: Transformer 为什么能取代 RNN?#

核心原因是三个字:并行化

RNN 必须按顺序处理:先处理第 1 个词,才能处理第 2 个词,再处理第 3 个词。就像一条单车道公路,不管你有多少辆车,都只能一辆一辆通过。

Transformer 的自注意力机制让所有词同时互相关注。就像把单车道变成了一个大广场,所有人可以同时互相交谈。

这意味着 Transformer 可以充分利用 GPU 的并行计算能力,训练速度比 RNN 快了一个数量级。在 AI 研发中,训练得快 意味着可以跑更多实验、用更多数据、探索更大的模型,形成一个正向循环。

除了并行化,Transformer 的自注意力还解决了 RNN 的长距离依赖问题,且模型架构更简洁、更容易扩展。这些优势叠加在一起,让 Transformer 彻底取代了 RNN。


小结#

回顾这 70 年的旅程:

  1. 规则时代(1950s-1980s):人类手写规则教机器。ELIZA 靠模式匹配假装聊天,专家系统靠 if-else 做决策。局限是规则写不完。

  2. 统计时代(1980s-2000s):让机器从数据中学习规律。N-gram 用词频预测下一个词。局限是窗口太小、不理解语义。

  3. 神经网络时代(2000s-2017):Word2Vec 让词有了向量表示,RNN/LSTM 给模型装上了记忆,Attention 让模型学会了重点关注。局限是顺序处理太慢。

  4. 大模型时代(2017-至今):Transformer 用纯注意力实现并行处理,预训练范式让模型先学通用能力再适配任务,规模扩大带来涌现能力,RLHF 让模型更符合人类偏好。

每一次范式转变,核心驱动力都是同一个:让机器记住更多、理解更远、学得更快

但请记住一个关键事实:从 ELIZA 到 GPT-4,变化的是 记住多少 和 关联多远,不变的是 本质上都在做统计。大模型没有意识、没有感情、没有真正的理解:它是人类迄今为止最精巧的统计机器。

理解了 前世,才能真正理解 今生。


下篇预告#

当你输入一段文字,按下回车键,大模型内部到底发生了什么?

你的文字如何变成数字?注意力机制如何运转?模型怎么一个字一个字地 “吐” 出回答?温度 参数为什么能让同一个问题得到不同回答?


参考资料#

  • ChatGPT 背后的语言模型简史
  • Vaswani, A. et al. “Attention is All You Need” (2017). arxiv.org/abs/1706.03762
  • Radford, A. et al. “Improving Language Understanding by Generative Pre-Training” (GPT-1, 2018). OpenAI.
  • Devlin, J. et al. “BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding” (2018). arxiv.org/abs/1810.04805
  • Brown, T. et al. “Language Models are Few-Shot Learners” (GPT-3, 2020). arxiv.org/abs/2005.14165
  • Ouyang, L. et al. “Training language models to follow instructions with human feedback” (InstructGPT, 2022). arxiv.org/abs/2203.02155
  • Wei, J. et al. “Emergent Abilities of Large Language Models” (2022). arxiv.org/abs/2206.07682
  • Touvron, H. et al. “LLaMA: Open and Efficient Foundation Language Models” (2023). Meta AI.
  • happy-llm 教程. Datawhale.
  • DeepSeek-AI. “DeepSeek-V3 Technical Report” (2024).

支持与分享

如果这篇文章对你有帮助,欢迎支持作者或分享给更多人

AI 简史:从规则匹配到智能对话
https://blog.souloss.com/posts/machine-learning/llm-guide/ai-history/
作者
Souloss
发布于
2025-06-15
许可协议
CC BY-NC-SA 4.0

部分信息可能已经过时