美国公司制造的最好开源模型，性能领先

Deep Cogito 刚刚把自家最新的 Cogito v2.1 推了出来，喊着这是“美国做出的最强开源大语言模型”。

美国公司制造的最好开源模型，性能领先

接下去的动作有点像演示秀：把各类基准测试的柱状图摊出来，看起来的确挺亮眼。官方说在 GPQA 的钻石级推理测试上接近 GPT-5，多语言的 MMLU 上压过 Claude Sonnet 4.5，数学和写代码的能力也比 Llama 系列强出一截。看着这些分数，旁观的人会觉得这家公司是拿到了一手好牌，打磨得也挺精。

不过，有人并不买账。他们在 HuggingFace 的配置文件里翻到一句话：base_model:
deepseek-ai/DeepSeek-V3-Base。把参数量一瞧，671B 这个数据，正好对上 DeepSeek-V3 的规格。事情变得清楚起来之后，Deep Cogito 并没有躲着不说，而是大方承认了：底座是从 DeepSeek-V3-Base 分叉过来的。公司给出的解释也很直接：预训练这一步像发电，已经成了能被复用的通用商品，真正有价值的，是把这些基础模型经过后训练，推到前沿水平。

美国公司制造的最好开源模型，性能领先

把时间线拉回去看，这并不是个孤立事件。十月份时，硅谷有两家 AI 编程工具公司 Cursor 和 Windsurf 也先后宣称“首个自研模型”，社区一度很热闹。热闹没多久就有人发现蹊跷：这些所谓自研的模型有时候会冒出中文，甚至在被越狱之后主动承认来源于中国公司智谱 AI。那段时期，大家有点调侃，说开源一放就有人把别人的底座拿去当自家出品。但目前 Deep Cogito 直接把“用别人的底座、做自家后训练”当成正式策略，这回是公开承认并解释了为什么这么做。

说到技术细节，Deep Cogito 把自己的工作包装成一整套“前沿后训练栈”。通俗点讲，就是他们没有从头开始预训练一个 671B 的模型，而是接过 DeepSeek 的底座，用自己设计的强化学习流程和迭代蒸馏放大（IDA）去不断训练、打磨。目标很明确：在推理时用更少的代价、更短的路径找到正确答案。公司对外宣称，用了数百个 GPU 节点做大规模分布式强化学习，和 v1 比，v2.1 在推理效率上有明显提升。

美国公司制造的最好开源模型，性能领先

官方的一个对比挺能说明问题：在复杂逻辑题上，Cogito v2.1 平均用 4,894 个 Token 就能完成同样的任务，而 Gemini 2.5 Pro 要用到 9,178 个。换个角度说，Cogito 要写的“思路”短，计算量少。Deep Cogito 把这种效率归结为他们的“过程监督”，也就是让模型少写那种冗长的思维链条，更靠“直觉”来判断和输出答案。

测试分数里还有几个具体数字不能忽略。MATH-500 上，Cogito v2.1 得了 98.57%，这比它自己标注的“老师” DeepSeek v3.2 的 97.87% 稍高；在代码修复的 SWE-Bench Verified 任务上也表现不错。公司把这些成绩摆出来，明显是想让外界看到：我们没少干活，效果不是吹的。可有人关心的点不只是分数本身，那句配置里的 base_model 暗暗告知大家：这底座并非他们原创。把“美国制造的最强开源模型”这种话拿到显微镜下看，就会发现说明里有省略的部分。

美国公司制造的最好开源模型，性能领先

关于 Deep Cogito 背后的团队，创始班子里有从 DeepMind 出来的产品经理，也有曾在 Google 做过高级工程师的人。这些背景是个认知标签，说明团队懂得在哪儿投入重资源、在哪儿省钱。预训练一套 671B 模型，成本简称天文，一个项目可能要几千万、上亿美元。对于创业公司来说，把钱砸在底座上往往不是现实选择。于是，把现成高质量的开源模型拿来做后训练，既能省成本又能加快推向市场，这路子目前挺常见。Deep Cogito 的逻辑就是：底座用别人家的，关键看你能不能在后训练上把性能和效率拉上去。

讨论里还牵扯到一个敏感话题：在模型里嵌入意识形态倾向，或者在宣传里动不动强调“本国制造”，会让人觉得偏离了真正的开源精神。开源的价值一部分在于跨区域的协作和共享，而不是把别人的劳动贴上国别标签再包装成“我们更强”。有些人直说，这样做像是想拿别人的技术当里子，把面子留给国家话语权。

回想 Cursor 和 Windsurf 被拆穿的那回，社区已经尝到过一次教训。那两家公司一开始高调说是自研，后来被发现输出中文、越狱后提到来源，不得不承认用了外部模型。那时有人笑称“开源一放就成别人创业的底座”，也有人替创业者叹气：现实是，预训练的门槛太高，后训练更适合资源有限的团队。Deep Cogito 这次把“借力开源底座、做后训练”公开化，某种程度上把那种“偷偷摸摸”的做法改成了明面儿的策略：你可以不隐瞒，但宣传口径肯定会把自己的贡献写得更大。

技术上，IDA（迭代蒸馏放大）和过程监督的确是用来把模型的推理路径压短、让模型少用 Token 的手段。Deep Cogito 给出的内部数据支持这种说法。要把模型训练成“会高效思考”的机器，不只是换个训练集那么简单，需要大量工程化工作、重复迭代、精细化的奖励函数设计。他们对外说动用了大量 GPU 节点、跑了复杂的强化学习回路，这些都是可以量化的工程投入，也是他们想拿出来证明“我们做了真活儿”的证据之一。

把 DeepSeek-V3-Base 明确写在配置里，也就把这项技术栈暴露成拼接体：底座来自开源社区，许多底层功夫是别人的；中国团队在某些地方贡献了工程工作，做出了底座；美国团队又在后训练、工程优化和产品化上投入资源，把模型打磨成目前的样子，推向市场。这样的分工并不稀奇，但当宣传语里把“美国制造”挂得很大声时，就容易被放大解读，尤其是在社区里有人已经见过类似“嘴上一套、背后一套”的前例后。

这些天社交媒体上的讨论挺热的。有人把眼光放在技术上，比拼谁更省 Token、谁更机智；有人把话题往国家和话语权上拽，质问开源成果如何被利用、如何被贴标签。Deep Cogito 自己把方向定得挺清楚：既要展示工程能力，也要会包装产品。从他们创始团队的来历和把基准测试做大面积宣传这一点可以看出，他们想把自己定位成能把开源资源变成商业化产品的那类公司。有人觉得这是机智的策略，另一些人则觉得这是选择性透明。

时间线可以这样记：十月那两起争议先给社区敲了警钟，提醒大家别光看宣传；目前 Deep Cogito 的公开承认，把“先用开源底座再做后训练”这条路摆到了台面上，而且是光明正大的声明。接下来的关注点会分叉：一部分人会继续把注意力放在模型的开放性、透明性和实际表现上，另一部分人会把话题拉到国家标签和话语权的讨论里。对于旁观者来说，讨论还会继续，热闹也不会马上散去。