《AI简史》第十二讲：豆包、DeepSeek用的是哪一种训练方法？

阿里云教程7个月前发布 caoyuling

你有没有好奇过，ChatGPT、豆包、Deepseek这样的AI是怎么学会和我们对话的？

它既没上过学，也没有老师手把手教，却能回答我们的问题，甚至写诗、编程、讲笑话。

这背后藏着一套精妙的训练机制。

《AI简史》第十二讲：豆包、DeepSeek用的是哪一种训练方法？

大体上可以分为两个部分：

第一课堂：在图书馆自学成才

第一步，把这个学生扔进人类有史以来最大的图书馆——整个互联网。

维基百科、新闻网站、论坛讨论、学术论文、小说诗歌……所有人类用文字记录下的知识，都在这里。

但这里没有老师，也没有教科书。学生要自己学。

它是怎么学的？

这里有个精妙的设计：让它做无穷无尽的完形填空题。

拿到一句话：”新加坡的首都是新加坡。”系统把最后一个词遮住：”新加坡的首都是___。”

学生试着填空。由于原文本身就有答案，系统自动知道标准答案是”新加坡”。

学生填错了，就调整；填对了，就强化这种模式。

这种方法叫自监督学习——不需要人类标注答案，文本给自己出题，自己提供答案。

做几万亿道这样的题之后，奇迹发生了。

学生不仅学会了语法，更重大的是，为了准确预测下一个词，它被迫理解了：

• 词语之间的关系
• 概念之间的联系
• 世界的运作规律
• 人类的常识和逻辑

它通读了人类图书馆，建立了一个关于世界的通用模型。

这个阶段叫预训练。

它是地基，是基础，是AI理解世界的能力来源。

第二课堂：社会礼仪和沟通技巧

从图书馆出来的学生，知识渊博，但是个”书呆子”。

它知道许多，但不知道：

• 怎样好好和人对话
• 哪些话该说，哪些不该说
• 人类真正想要的是什么样的答案

所以需要第二课堂：社会化训练。

课程一：模范对话示范课

工程师们充当老师，手写一批高质量的对话案例——这个问题该这样回答，那个问题该那样处理。

学生认真学习这些”模范教材”，掌握人类喜爱的对话格式、语气和风格。

这个过程叫监督微调。

课程二：讨人喜爱实战课

这是最关键的一课。

老师给学生出题，学生写出多个不同的答案。

然后人类评估员给这些答案排序：A答案最好，B其次，C最差。

系统用这些排序数据，训练一个”评分裁判”。

这个裁判学会了判断”什么样的答案人类会喜爱”。

接下来，学生进入实战训练：不断回答问题，目标是让”评分裁判”打出最高分。

答得好，得到奖励；答得不好，得到惩罚。

通过这种”试错-拿奖励”的方式，学生逐渐把自己的行为，调整到与人类偏好对齐。

这个过程叫强化学习。

毕业了：从书呆子到好助手

经过这两课堂的训练，AI学生完成了蜕变：

第一课堂给了它大脑和知识，第二课堂教让AI读懂了我们。

前者给了它知识的深度，后者给了它沟通的温度。

这就是ChatGPT、豆包、DeepSeek的秘密——它不仅是一个知道许多的AI，更是一个知道你想要什么的AI。

阿里云教程

© 版权声明

文章版权归作者所有，未经允许请勿转载。

相关文章

Nginx面试题

Nginx面试题

阿里云教程

7个月前

0480

怎么让模型生成更准确的SQL语句实操

怎么让模型生成更准确的SQL语句实操

阿里云教程

4个月前

0360

考研英语，10年真题高频词汇总结，这些核心单词，考英语一同学必看

考研英语，10年真题高频词汇总结，这些核心单词，考英语一同学必看

阿里云教程

5个月前

0330

告别信息焦虑，ListenHub双模式，帮你稳坐瓜群C位

告别信息焦虑，ListenHub双模式，帮你稳坐瓜群C位

阿里云教程

7个月前

0440

暂无评论

none

暂无评论...