你有没有好奇过,ChatGPT、豆包、Deepseek这样的AI是怎么学会和我们对话的?
它既没上过学,也没有老师手把手教,却能回答我们的问题,甚至写诗、编程、讲笑话。
这背后藏着一套精妙的训练机制。

大体上可以分为两个部分:
第一课堂:在图书馆自学成才
第一步,把这个学生扔进人类有史以来最大的图书馆——整个互联网。
维基百科、新闻网站、论坛讨论、学术论文、小说诗歌……所有人类用文字记录下的知识,都在这里。
但这里没有老师,也没有教科书。学生要自己学。
它是怎么学的?
这里有个精妙的设计:让它做无穷无尽的完形填空题。
拿到一句话:”新加坡的首都是新加坡。”系统把最后一个词遮住:”新加坡的首都是___。”
学生试着填空。由于原文本身就有答案,系统自动知道标准答案是”新加坡”。
学生填错了,就调整;填对了,就强化这种模式。
这种方法叫自监督学习——不需要人类标注答案,文本给自己出题,自己提供答案。
做几万亿道这样的题之后,奇迹发生了。
学生不仅学会了语法,更重大的是,为了准确预测下一个词,它被迫理解了:
- • 词语之间的关系
- • 概念之间的联系
- • 世界的运作规律
- • 人类的常识和逻辑
它通读了人类图书馆,建立了一个关于世界的通用模型。
这个阶段叫预训练。
它是地基,是基础,是AI理解世界的能力来源。
第二课堂:社会礼仪和沟通技巧
从图书馆出来的学生,知识渊博,但是个”书呆子”。
它知道许多,但不知道:
- • 怎样好好和人对话
- • 哪些话该说,哪些不该说
- • 人类真正想要的是什么样的答案
所以需要第二课堂:社会化训练。
课程一:模范对话示范课
工程师们充当老师,手写一批高质量的对话案例——这个问题该这样回答,那个问题该那样处理。
学生认真学习这些”模范教材”,掌握人类喜爱的对话格式、语气和风格。
这个过程叫监督微调。
课程二:讨人喜爱实战课
这是最关键的一课。
老师给学生出题,学生写出多个不同的答案。
然后人类评估员给这些答案排序:A答案最好,B其次,C最差。
系统用这些排序数据,训练一个”评分裁判”。
这个裁判学会了判断”什么样的答案人类会喜爱”。
接下来,学生进入实战训练:不断回答问题,目标是让”评分裁判”打出最高分。
答得好,得到奖励;答得不好,得到惩罚。
通过这种”试错-拿奖励”的方式,学生逐渐把自己的行为,调整到与人类偏好对齐。
这个过程叫强化学习。
毕业了:从书呆子到好助手
经过这两课堂的训练,AI学生完成了蜕变:
第一课堂给了它大脑和知识,第二课堂教让AI读懂了我们。
前者给了它知识的深度,后者给了它沟通的温度。
这就是ChatGPT、豆包、DeepSeek的秘密——它不仅是一个知道许多的AI,更是一个知道你想要什么的AI。