美国 - 艾赫巴里通讯社
Nous Research 发布 NousCoder-14B:开源编码模型挑战专有巨头
作为人工智能辅助软件开发快速演变的例证,由加密风险投资公司 Paradigm 支持的开源人工智能初创公司 Nous Research 发布了一款新的竞赛编程模型。据报道,这款名为 NousCoder-14B 的模型性能可与多家大型专有系统相媲美,甚至超越它们,并且仅用了四天时间,利用 48 个 Nvidia 最先进的 B200 图形处理器就完成了训练。
NousCoder-14B 进入了一个快速增长的 AI 编码助手领域,并且恰逢一个特别有利的时机。竞争对手 Anthropic 推出的智能体编程工具 Claude Code 自新年伊始就主导了社交媒体的讨论,开发者们纷纷分享其能力的赞不绝口的用户证言。这些同步发展凸显了 AI 驱动的软件开发步伐的加快,以及大大小小的公司为了占据在软件创建方面被许多人视为基础性技术的这一领域而展开的激烈竞争。
另请阅读
在 LiveCodeBench v6 基准测试上,这是一个针对 2024 年 8 月至 2025 年 5 月期间发布的竞赛编程问题的标准化评估,NousCoder-14B 达到了 67.87% 的准确率。根据 Nous Research 的技术报告,与它基于的 Alibaba 的 Qwen3-14B 模型相比,这一数字代表了 7.08 个百分点的显著提升。
AI 编码工具的当前市场情绪被 Gemini API 负责人、Google 的首席工程师 Jaana Dogan 鲜活地捕捉到。在上周 X 上的一篇病毒式帖子中,Dogan 分享了她的经验:“我给了 Claude Code 问题描述,它在一小时内生成了我去年花了一年时间构建的东西。”她指的是她的团队花费一年时间开发的分布式代理编排系统,Claude Code 通过一个三段的提示就成功地近似了这个系统。
这种对比具有启发性。虽然 Anthropic 的 Claude Code 以其端到端的软件开发演示吸引了人们的想象力,但 Nous Research 正将 NousCoder-14B 定位为一个强大的开源替代方案。他们的策略基于一种信念:在可验证的问题上训练的模型能够弥合能力差距,并且模型构建过程中的透明度与原始性能同等重要。
透明度与可复现性:NousCoder-14B 的独特性
NousCoder-14B 的发布之所以能在众多竞争对手的公告中脱颖而出,关键在于其对彻底开放性的承诺。Nous Research 不仅发布了模型权重,还发布了整个强化学习环境、基准套件和训练工具链,所有这些都构建在公司自有的 Atropos 框架之上。这种全面的发布使任何拥有足够计算资源的 शोधकर्ता (researcher) 都能复制或在此基础上进行扩展。
一位 X 上的观察者总结道:“开源 Atropos 堆栈为可复现的奥林匹克级别推理研究提供了必要的基础设施。”这总结了该方法对学术界和开源社区的深远意义。
该模型由 Nous Research 的驻场研究员、前竞赛程序员 Joe Li 训练。Li 的技术报告提供了一个个人视角,将模型的性能轨迹与其在 Codeforces 上的个人经历进行了比较,Codeforces 是一个流行的竞赛编程平台。他将 LiveCodeBench 分数映射到 Codeforces 排名,估计 NousCoder-14B 的改进——从大约 1600-1750 的排名范围提升到 2100-2200——反映了他 14 至 16 岁之间近两年艰苦练习才达到的飞跃。而该模型仅用四天时间就实现了同等进展。
Li 在技术报告中写道:“看着最后的训练运行展开,是一种非常超现实的经历。”然而,他也指出了一个关于 AI 效率的关键注意事项:虽然他花了两年时间解决了大约 1000 个问题,但该模型却需要 24,000 个问题。这突显了,至少目前而言,人类在样本数量方面仍然是更有效的学习者。
强化学习系统内部:在 24,000 个问题上进行训练
NousCoder-14B 的训练过程让我们得以一窥研究人员通过强化学习来增强 AI 推理能力所采用的复杂技术。核心方法论依赖于研究人员称之为“可验证奖励”的机制。在此系统中,模型生成代码解决方案,然后这些解决方案会针对测试用例执行。模型接收一个简单的二元反馈信号:正确或不正确。尽管概念简单,但这种反馈循环需要大量的底层基础设施才能大规模执行。
Nous Research 使用了云平台 Modal 来并行运行隔离的(sandboxed)代码执行。24,000 个训练问题中的每一个平均包含数百个测试用例。系统必须严格验证生成的代码在严格的时间和内存限制(分别为 15 秒和 4GB)内产生正确的输出。
训练采用了称为 DAPO(动态采样策略优化)的技术,研究人员发现该技术在实验中比其他替代方案略好。一项关键创新是“动态采样”——即丢弃模型在其中所有尝试都成功或所有尝试都失败的训练示例,因为这些示例不提供有用的学习梯度信号。
研究人员还采用了“迭代上下文扩展”技术,首先使用 32,000 个 token 的上下文窗口训练模型,然后将其扩展到 40,000 个 token。在评估过程中,将上下文进一步扩展到大约 80,000 个 token 产生了最佳结果,准确率达到了 67.87%。
最重要的是,训练流水线整合了推理和验证——模型一旦生成解决方案,就会开始处理下一个问题,同时前一个解决方案正在被检查。这种流水线处理,结合了多个模型实例并行运行的异步训练,最大限度地提高了昂贵的 GPU 集群上的硬件利用率。
相关新闻
迫在眉睫的数据短缺:AI 进展的潜在瓶颈
Li 的技术报告中隐藏着一个对 AI 开发的未来轨迹具有重大意义的发现:NousCoder-14B 的训练数据集包含了“标准化数据集格式中所有易于获取、可验证的竞赛编程问题的显著部分”。
换句话说,对于这个特定领域,研究人员正在接近高质量训练数据的极限。Li 在提到用于训练的 24,000 个问题时写道:“互联网上的竞赛编程问题的总数大约是同一个数量级。”“这表明,在竞赛编程领域,我们已经接近了高质量数据的极限。”
这一观察结果呼应了 AI 社区日益增长的担忧,特别是在专业领域,关于数据稀缺的问题。虽然透明度和开放访问对于集体进步至关重要,但高质量训练数据的可用性可能很快成为先进 AI 开发的主要限制因素。