《AI简史》第十二讲:豆包、DeepSeek用的是哪一种训练方法?

你有没有好奇过,ChatGPT、豆包、Deepseek这样的AI是怎么学会和我们对话的?

它既没上过学,也没有老师手把手教,却能回答我们的问题,甚至写诗、编程、讲笑话。

这背后藏着一套精妙的训练机制。

《AI简史》第十二讲:豆包、DeepSeek用的是哪一种训练方法?

大体上可以分为两个部分:

第一课堂:在图书馆自学成才

第一步,把这个学生扔进人类有史以来最大的图书馆——整个互联网。

维基百科、新闻网站、论坛讨论、学术论文、小说诗歌……所有人类用文字记录下的知识,都在这里。

但这里没有老师,也没有教科书。学生要自己学。

它是怎么学的?

这里有个精妙的设计:让它做无穷无尽的完形填空题

拿到一句话:”新加坡的首都是新加坡。”系统把最后一个词遮住:”新加坡的首都是___。”

学生试着填空。由于原文本身就有答案,系统自动知道标准答案是”新加坡”。

学生填错了,就调整;填对了,就强化这种模式。

这种方法叫自监督学习——不需要人类标注答案,文本给自己出题,自己提供答案。

做几万亿道这样的题之后,奇迹发生了。

学生不仅学会了语法,更重大的是,为了准确预测下一个词,它被迫理解了:

  • • 词语之间的关系
  • • 概念之间的联系
  • • 世界的运作规律
  • • 人类的常识和逻辑

它通读了人类图书馆,建立了一个关于世界的通用模型。

这个阶段叫预训练

它是地基,是基础,是AI理解世界的能力来源。

第二课堂:社会礼仪和沟通技巧

从图书馆出来的学生,知识渊博,但是个”书呆子”。

它知道许多,但不知道:

  • • 怎样好好和人对话
  • • 哪些话该说,哪些不该说
  • • 人类真正想要的是什么样的答案

所以需要第二课堂:社会化训练

课程一:模范对话示范课

工程师们充当老师,手写一批高质量的对话案例——这个问题该这样回答,那个问题该那样处理。

学生认真学习这些”模范教材”,掌握人类喜爱的对话格式、语气和风格。

这个过程叫监督微调

课程二:讨人喜爱实战课

这是最关键的一课。

老师给学生出题,学生写出多个不同的答案。

然后人类评估员给这些答案排序:A答案最好,B其次,C最差。

系统用这些排序数据,训练一个”评分裁判”。

这个裁判学会了判断”什么样的答案人类会喜爱”。

接下来,学生进入实战训练:不断回答问题,目标是让”评分裁判”打出最高分。

答得好,得到奖励;答得不好,得到惩罚。

通过这种”试错-拿奖励”的方式,学生逐渐把自己的行为,调整到与人类偏好对齐。

这个过程叫强化学习

毕业了:从书呆子到好助手

经过这两课堂的训练,AI学生完成了蜕变:

第一课堂给了它大脑和知识,第二课堂教让AI读懂了我们。

前者给了它知识的深度,后者给了它沟通的温度。

这就是ChatGPT、豆包、DeepSeek的秘密——它不仅是一个知道许多的AI,更是一个知道你想要什么的AI。

© 版权声明

相关文章

暂无评论

none
暂无评论...