미국 - 이크바리 뉴스 통신사
Nous Research, NousCoder-14B 출시: 독점 시스템에 도전하는 오픈소스 코딩 모델
AI 기반 소프트웨어 개발의 빠른 속도를 강조하는 움직임으로, 암호화폐 벤처 회사 패러다임(Paradigm)의 지원을 받는 오픈소스 인공지능 스타트업 Nous Research가 NousCoder-14B를 출시했습니다. Nvidia의 최신 B200 그래픽 처리 장치 48개를 사용하여 단 4일 만에 훈련된 이 새로운 경쟁 프로그래밍 모델은 여러 더 큰 독점 시스템과 동등하거나 그 이상이라고 주장합니다. 이 모델의 등장은 이미 포화 상태인 AI 코딩 도우미 분야의 경쟁을 더욱 심화시키고 있으며, 특히 경쟁사인 Anthropic의 에이전트 프로그래밍 도구인 Claude Code가 새해 첫날부터 소셜 미디어 토론을 장악하고 개발자들이 열광적인 추천사를 공유하고 있는 시점입니다.
이러한 고급 AI 코딩 도구들의 동시 등장은 AI 지원 소프트웨어 개발의 빠른 진화를 강조합니다. 또한, 미래 소프트웨어 엔지니어링의 기초 기술이라고 많은 사람들이 믿는 것을 확보하기 위해 노력하는 대기업 및 중소기업 간의 치열한 경쟁을 보여줍니다. 향후 몇 년간 코드가 어떻게 작성되고 프로젝트가 어떻게 관리될지를 정의하기 위한 경쟁이 시작되었습니다.
Read Also
NousCoder-14B는 2024년 8월부터 2025년 5월 사이에 게시된 경쟁 프로그래밍 문제에 대한 표준화된 평가 벤치마크인 LiveCodeBench v6에서 67.87%의 정확도를 달성했습니다. Nous Research가 공개한 기술 보고서에 따르면, 이 성능은 기반 모델인 Alibaba의 Qwen3-14B에 비해 7.08% 포인트의 상당한 개선을 나타냅니다. 기반 모델에서 이렇게 빠른 발전은 사용된 훈련 방법론의 효과를 보여줍니다.
AI 코딩 도구에 대한 열기는 지난주 Gemini API를 책임지는 Google의 수석 엔지니어인 Jaana Dogan이 X에 바이럴 게시물을 공유했을 때 palpable했습니다. 그녀는 Claude Code에 문제 설명을 제공했으며, 단 한 시간 만에 그녀의 팀이 1년 동안 개발한 시스템을 생성했다고 설명했습니다. Dogan은 Claude Code가 3단락 프롬프트에서 근사화할 수 있었던 분산 에이전트 오케스트레이션 시스템을 언급하며, 복잡한 개발 작업을 가속화하는 AI의 잠재력을 보여주었습니다.
이러한 병치는 교육적입니다. Anthropic의 Claude Code가 엔드투엔드 소프트웨어 개발 기능 시연으로 대중의 상상력을 사로잡은 반면, Nous Research는 다른 길을 옹호하고 있습니다. 그들은 성능 격차를 해소하기 위해 검증 가능한 문제에 대해 훈련된 오픈소스 대안에 베팅하고 있습니다. 또한, Nous Research는 모델 구축 및 훈련 과정의 투명성이 원시 능력만큼이나 중요하다는 점을 강조하며 신뢰를 증진하고 커뮤니티 기여를 가능하게 합니다.
Nous Research의 개방성과 재현성에 대한 약속
NousCoder-14B 릴리스의 주요 차별점은 혁신적인 개방성입니다. Nous Research는 모델 가중치뿐만 아니라 전체 강화 학습 환경, 벤치마크 스위트 및 훈련 하드웨어도 공유했습니다. 회사의 Atropos 프레임워크를 기반으로 구축된 이러한 리소스는 충분한 컴퓨팅 성능을 갖춘 모든 연구자가 작업을 복제하거나 구축할 수 있도록 합니다. 개방형 과학에 대한 이러한 헌신은 발전을 가속화하고 더 광범위한 검토 및 개선을 가능하게 합니다.
X의 한 관찰자는 "Atropos 스택을 오픈소스로 만드는 것은 올림픽 수준의 추론 연구를 재현할 수 있는 필요한 인프라를 제공합니다"라고 언급하며, 학계 및 오픈소스 커뮤니티 모두에 대한 중요성을 강조했습니다. 이러한 움직임은 최첨단 AI 연구 도구 및 방법론에 대한 접근성을 민주화합니다.
이 모델은 Nous Research의 상주 연구원이자 전직 경쟁 프로그래머인 Joe Li가 훈련했습니다. Li의 기술 보고서는 인기 있는 경쟁 프로그래밍 플랫폼인 Codeforces에서의 자신의 경험과 모델의 학습 궤적을 비교하는 개인적인 관점을 제공합니다. 그는 LiveCodeBench 점수를 Codeforces 등급과 매핑하여, NousCoder-14B의 개선—약 1600-1750 등급 범위에서 2100-2200까지—이 14세에서 16세 사이의 거의 2년간의 지속적인 연습으로 달성한 도약을 반영한다고 추정했습니다. AI 모델은 불과 4일 만에 이 동등한 발전을 반복했습니다.
Li는 기술 보고서에서 "최종 훈련 실행이 진행되는 것을 지켜보는 것은 매우 초현실적인 경험이었습니다"라고 썼습니다. 그러나 그는 AI 효율성에 관한 중요한 주의사항을 즉시 추가했습니다. 그는 2년간의 연습 동안 약 1,000개의 문제를 해결했지만, 모델은 24,000개의 문제가 필요했습니다. 이는 현재로서는 인간이 샘플 효율성 측면에서 훨씬 더 효율적인 학습자로 남아 있다는 점을 강조하며, 이는 미래 AI 연구의 핵심 영역입니다.
강화 학습 시스템 내부
NousCoder-14B의 훈련 과정은 연구자들이 강화 학습을 통해 AI 추론 능력을 향상시키기 위해 사용하는 정교한 기술에 대한 귀중한 통찰력을 제공합니다. 이 방법론은 "검증 가능한 보상"에 의존하는데, 여기서 AI는 코드 솔루션을 생성하고, 이러한 솔루션은 테스트 사례에 대해 실행되며, 모델은 올바르거나 잘못된 간단한 이진 피드백을 받습니다. 이 피드백 루프는 개념적으로 간단하지만, 대규모 구현을 위해서는 상당한 인프라가 필요합니다.
Nous Research는 클라우드 컴퓨팅 플랫폼인 Modal을 사용하여 샌드박스화된 코드 실행을 병렬로 실행했습니다. 24,000개의 훈련 문제 각각은 평균적으로 수백 개의 테스트 사례를 포함합니다. 시스템은 생성된 코드가 엄격한 시간(15초) 및 메모리(4기가바이트) 제약 내에서 올바른 출력을 생성하는지 엄격하게 확인해야 합니다.
훈련에는 DAPO(Dynamic Sampling Policy Optimization)라는 기술이 사용되었으며, 연구원들은 이 기술이 대안보다 약간 더 효과적이라는 것을 발견했습니다. 핵심 혁신은 "동적 샘플링"으로, 모델이 모든 시도에서 성공하거나 모든 시도에서 실패하는 훈련 예제를 폐기하는 것을 포함합니다. 이러한 예제는 학습에 유용한 기울기 신호를 제공하지 않기 때문입니다. 또한, 연구원들은 "반복적 컨텍스트 확장"을 채택하여, 먼저 32,000 토큰의 컨텍스트 창으로 모델을 훈련한 다음 40,000 토큰으로 확장했습니다. 평가 중에는 컨텍스트를 약 80,000 토큰으로 확장했을 때 67.87%에 달하는 최고의 정확도 결과를 얻었습니다.
가장 중요한 것은, 훈련 파이프라인이 추론과 검증을 효율적으로 중첩한다는 것입니다. 모델이 솔루션을 생성하자마자, 이전 솔루션이 확인되는 동안 다음 문제 작업을 시작합니다. 이러한 파이프라이닝은 여러 모델 인스턴스가 병렬로 작동하는 비동기 훈련과 결합되어 값비싼 GPU 클러스터의 하드웨어 활용도를 극대화합니다.
Related News
AI 개발의 임박한 데이터 부족
Li의 기술 보고서에 포함된 중요한 발견은 향후 AI 개발의 잠재적 병목 현상을 지적합니다. NousCoder-14B의 훈련 데이터 세트는 "표준화된 데이터 세트 형식으로 쉽게 구할 수 있고 검증 가능한 모든 경쟁 프로그래밍 문제의 상당 부분을" 포함합니다. 즉, 경쟁 프로그래밍이라는 특정 영역에서 고품질 훈련 데이터의 가용성이 한계에 도달하고 있습니다.
Li는 훈련에 사용된 24,000개의 문제에 대해 언급하며 "인터넷상의 경쟁 프로그래밍 문제의 총 수는 대략 같은 규모"라고 말했습니다. "이는 경쟁 프로그래밍 영역 내에서 고품질 데이터의 한계에 도달했음을 시사합니다." 이 관찰은 데이터 제약에 대한 AI 산업 전반의 광범위한 우려를 반영합니다. 컴퓨팅 성능은 예측 가능한 경제 및 엔지니어링 원칙에 따라 계속 확장되지만, 훈련 데이터는 점점 더 유한해지고 있습니다.
Li는 "미래에 수행되어야 할 가장 중요한 연구 중 일부는 합성 데이터 생성 및 데이터 효율적인 알고리즘 및 아키텍처 분야에 있을 것으로 보입니다"라고 결론지었습니다. 경쟁 프로그래밍의 경우 이 문제는 특히 심각한데, 이는 자연어 처리와 달리 명확한 모호성과 여러 유효한 해석이 일반적인 경우와 달리, 알려진 올바른 솔루션이 자동으로 검증 가능한 문제들을 요구하기 때문입니다.