伊赫巴里
Thursday, 18 June 2026
Breaking

Nous Research 发布 NousCoder-14B:一款挑战专有巨头的开源编码模型

这款仅用四天时间训练而成的新模型达到了令人印象深刻的准确率,加剧了人工智能辅助软件开发领域的竞争。

Nous Research 发布 NousCoder-14B:一款挑战专有巨头的开源编码模型
عبد الفتاح يوسف
3 months ago
218

美国 - 艾赫巴里通讯社

Nous Research 发布 NousCoder-14B:一款挑战专有巨头的开源编码模型

人工智能辅助软件开发的快速发展正以前所未有的速度进行。在此背景下,由加密风险投资公司 Paradigm 支持的开源人工智能初创公司 Nous Research,发布了一款名为 NousCoder-14B 的新型竞争性编程模型。该公司声称,该模型仅用了四天时间,利用 48 个 Nvidia 最新的 B200 图形处理器进行训练,其性能已能媲美甚至超越多个大型专有系统。这一发布恰逢 AI 编码助手领域的一个特别活跃的时期。竞争对手 Anthropic 的代理编程工具 Claude Code 自新年伊始便在社交媒体上引起了广泛关注,开发者们纷纷分享其能力的赞叹之词。

这些先进 AI 工具的同时出现,凸显了 AI 驱动的软件开发创新的加速步伐,以及大大小小的公司在这个被广泛认为是未来软件创建基础性技术领域争夺主导地位的激烈竞争。NousCoder-14B 进入了一个已经相当拥挤的市场,其目标是为封闭系统提供一个强大、透明且开源的替代方案,从而加剧了在这个新兴领域争夺市场份额和影响力的竞赛。

NousCoder-14B 在 LiveCodeBench v6(一个用于竞争性编程问题的标准化基准测试)上展现了显著的性能。根据 Nous Research 的技术报告,该模型达到了 67.87% 的准确率。与它所基于的 Alibaba 的 Qwen3-14B 模型相比,这一数字代表了 7.08 个百分点的显著提升。其训练速度和效率,仅用四天就完成,尤其值得注意,引发了关于先进 AI 模型快速开发周期的潜力的讨论。

考虑到 Claude Code 近期引起的热潮,NousCoder-14B 的发布时机尤为重要。开发者们一直在分享对其功能的广泛赞誉。Jaana Dogan,负责 Gemini API 的 Google 的首席工程师,在 X 上分享了一篇病毒式帖子,详细介绍了 Claude Code 如何仅凭一个三段式的简单提示,就生成了一个复杂的分布式代理编排系统——这个项目她的团队花了整整一年时间才开发出来。这种对比具有启发性:虽然 Anthropic 的 Claude Code 以看似端到端的软件开发演示吸引了人们的想象力,但 Nous Research 正在倡导开源替代方案的潜力。他们打赌,在可验证的问题上训练并以透明方式构建的模型能够有效地缩小性能差距,并认为开发过程的开放性与原始计算能力同等重要。

NousCoder-14B 的发布真正与众不同之处在于其对彻底开放的承诺。除了发布模型权重外,Nous Research 还提供了完整的强化学习环境、基准测试套件和训练框架,所有这些都构建在公司自有的 Atropos 框架之上。这一全面的产品使任何拥有足够计算资源的研究人员都能够独立地重现、验证甚至扩展这项工作。正如一位观察者在 X 上指出的那样,这种开放协作的理念对于推进该领域至关重要,特别是对于寻求“奥林匹克级别”可复现研究的学术和开源社区而言。

NousCoder-14B 的训练由 Nous Research 的研究员兼前竞争性程序员 Joe Li 领导。Li 的技术报告提供了一个个人视角,将模型的改进轨迹与他在流行的竞争性编程平台 Codeforces 上的个人经历进行了比较。通过估计模型在人类竞争性编程排名中的表现,Li 计算出 NousCoder-14B 从大约 1600-1750 的评分范围跃升至 2100-2200 的范围,这反映了他 14 至 16 岁之间近两年不懈练习所取得的进步。该模型仅用四天时间就实现了同等的进步,Li 将此描述为最后训练运行期间的“超现实体验”。

然而,Li 也强调了学习效率方面的一个关键区别。虽然他在两年练习中解决了大约 1000 个问题,但该模型需要处理 24,000 个问题。这凸显了,尽管取得了快速进展,但就样本效率而言,人类目前仍然是效率更高的学习者。利用 24,000 个竞争性编程问题进行强化学习的训练过程本身,为了解研究人员用于提高 AI 推理能力的复杂技术提供了一个窗口。核心机制依赖于“可验证的奖励”,即模型生成的代码解决方案会针对测试用例执行,并产生一个简单的二进制反馈信号(正确/不正确)。这种反馈循环在规模上执行需要大量的底层基础设施。

Nous Research 利用云平台 Modal 进行并行、沙盒化的代码执行。24,000 个训练问题中的每一个平均包含数百个测试用例,系统需要确保生成的代码在严格的时间(15 秒)和内存(4 GB)限制内产生正确的输出。训练采用了 DAPO(动态采样策略优化)技术,研究人员发现该技术在他们的实验中表现略优于其他方法。一项关键创新是“动态采样”,即丢弃模型在其中所有尝试都成功或所有尝试都失败的训练示例,因为这些示例不提供有用的学习梯度信号。此外,研究人员还采用了“迭代上下文扩展”,首先使用 32,000 个 token 的上下文窗口训练模型,然后将其扩展到 40,000 个 token。在评估期间,将上下文扩展到大约 80,000 个 token 产生了最佳结果,准确率达到了报告的 67.87%。

标签: # 人工智能 # 软件开发 # 编码模型 # NousCoder-14B # Nous Research # 开源 # 竞争性编程 # 强化学习 # Claude Code # Anthropic # Nvidia B200