에크바리
Wednesday, 04 March 2026
Breaking

Nous Research의 NousCoder-14B, AI 코딩 분야의 오픈소스 도전자로서 부상

Nvidia 하드웨어에서 신속하게 훈련된 새 모델은 치열한 경쟁 속에서 독점 시스템에 필적하거나 능가하는 것

Nous Research의 NousCoder-14B, AI 코딩 분야의 오픈소스 도전자로서 부상
7DAYES
3 hours ago
3

미국 - 이크바리 뉴스 통신사

Nous Research의 NousCoder-14B, AI 코딩 분야의 오픈소스 도전자로서 부상

AI 지원 소프트웨어 개발 환경을 재편할 것으로 예상되는 움직임으로, 암호화폐 벤처 캐피탈 회사 패러다임의 지원을 받는 오픈소스 인공지능 스타트업 Nous Research는 NousCoder-14B라는 새로운 경쟁 프로그래밍 모델을 공개했습니다. Nvidia의 최신 B200 그래픽 프로세서 48개를 사용하여 단 4일 만에 훈련된 이 모델은 여러 대형 독점 시스템의 기능을 동등하게 하거나 능가한다고 주장합니다. 이 출시는 AI 코딩 도우미 주변의 상당한 관심, 특히 경쟁업체인 Anthropic의 도구인 Claude Code에 의해 특징지어지는 매우 중요한 시점에 이루어졌습니다.

Claude Code는 새해 첫날부터 소셜 미디어 토론을 지배해 왔으며, 개발자들은 그 성능에 대한 열정적인 후기를 공유하고 있습니다. 이러한 동시적 발전은 AI 지원 소프트웨어 개발의 빠른 발전과, 많은 사람들이 미래의 소프트웨어 작성 방식에 대한 근본적인 기술이 될 것이라고 믿는 분야를 장악하기 위한 대기업과 소기업 간의 치열한 경쟁을 강조합니다.

NousCoder-14B는 2024년 8월부터 2025년 5월 사이에 게시된 경쟁 프로그래밍 문제에 대한 모델을 테스트하는 표준화된 평가인 LiveCodeBench v6에서 67.87%의 정확도를 기록했습니다. Nous Research의 기술 보고서에 따르면 이 수치는 Alibaba의 Qwen3-14B 모델에 비해 7.08% 포인트의 상당한 개선을 나타냅니다.

이러한 발전은 활발한 활동 속에서 이루어지고 있습니다. Gemini API를 담당하는 Google의 수석 엔지니어인 Jaana Dogan은 지난주 X에서 바이럴된 게시물에서 "Claude Code에게 문제 설명을 주었더니, 1년 전에 우리가 구축한 것을 한 시간 만에 생성했다"고 언급했습니다. Dogan은 그녀의 팀이 1년 동안 개발한 분산 에이전트 오케스트레이션 시스템을 언급했으며, Claude Code는 세 문단의 프롬프트에서 이를 근사화했습니다. 이러한 병치는 교육적입니다. Anthropic의 Claude Code가 종단 간 개발 시연으로 상상력을 사로잡는 동안, Nous Research는 검증 가능한 문제에 대해 훈련된 오픈소스 대안이 격차를 메울 수 있다고 내다보고 있습니다. 또한 회사는 모델 개발의 투명성이 원시 능력만큼이나 중요하다는 점을 강조합니다.

개방성과 투명성에 대한 헌신

NousCoder-14B 릴리스를 진정으로 차별화하는 것은 바로 그 급진적인 개방성으로, 수많은 경쟁사 발표와 차별화됩니다. Nous Research는 모델 가중치뿐만 아니라 회사의 Atropos 프레임워크를 기반으로 구축된 완전한 강화 학습 환경, 벤치마크 제품군 및 훈련 도구를 모두 출시했습니다. 이 포괄적인 릴리스는 충분한 컴퓨팅 리소스를 가진 모든 연구자가 작업을 재현하거나 기반으로 구축할 수 있도록 합니다. X의 한 관찰자는 이를 학술 및 오픈소스 커뮤니티에 대한 중요성을 적절하게 요약했습니다. "Atropos 스택의 오픈소스화는 재현 가능한 올림픽 수준의 추론 연구에 필요한 인프라를 제공합니다."

이 모델은 Nous Research의 상주 연구원이자 전직 경쟁 프로그래머인 Joe Li가 훈련했습니다. Li의 기술 보고서는 참가자들이 경쟁 성과에 따라 순위를 얻는 플랫폼인 Codeforces에서의 자신의 여정과 모델의 개선 궤적을 비교함으로써 개인적인 차원을 더합니다. LiveCodeBench 점수를 Codeforces 순위에 연결하는 대략적인 추정치를 바탕으로 Li는 NousCoder-14B의 도약 – 약 1600-1750 순위 범위에서 2100-2200까지 – 14세에서 16세 사이에 2년 동안의 지속적인 연습으로 얻은 진행 상황을 반영한다고 계산했습니다. 이 모델은 단 4일 만에 이와 동등한 성과를 달성했습니다.

Li는 기술 보고서에서 "마지막 훈련 실행이 진행되는 것을 지켜보는 것은 매우 초현실적인 경험이었습니다."라고 썼습니다. 그러나 그는 AI 효율성에 대한 더 넓은 질문에 답하는 중요한 경고를 신속하게 추가했습니다. 그는 2년 동안 약 1000개의 문제를 해결한 반면, 모델은 24,000개를 처리해야 했습니다. 이는 적어도 현재로서는 인간이 표본 효율성 측면에서 훨씬 더 효율적인 학습자로 남아 있음을 강조합니다.

고급 훈련 방법론 공개

NousCoder-14B의 훈련 과정은 연구자들이 강화 학습을 통해 AI 추론 능력을 향상시키기 위해 사용하는 정교한 기술에 대한 통찰력을 제공합니다. 핵심 접근 방식은 연구자들이 "검증 가능한 보상"이라고 부르는 것을 활용합니다. 이 시스템에서 모델은 코드 솔루션을 생성하고, 이 솔루션은 테스트 사례에 대해 실행됩니다. 모델은 간단한 이진 피드백 신호(정확 또는 부정확)를 받습니다. 개념적으로 간단하지만, 이 피드백 루프는 대규모 실행을 위해 상당한 인프라가 필요합니다.

Nous Research는 클라우드 컴퓨팅 플랫폼인 Modal을 활용하여 샌드박스화된 코드 실행을 병렬로 실행했습니다. 24,000개의 훈련 문제 각각은 평균 수백 개의 테스트 사례를 포함합니다. 시스템은 생성된 코드가 특정 시간(15초) 및 메모리(4기가바이트) 제약 조건 내에서 올바른 출력을 생성하는지 확인해야 합니다. 훈련 방법론은 연구자들이 다른 대안보다 약간 더 나은 성능을 보인다고 발견한 DAPO(Dynamic Sampling Policy Optimization)라는 기술을 통합했습니다. 주요 혁신은 모델이 모든 시도를 완벽하게 해결하거나 모든 시도에서 실패하는 훈련 예제를 폐기하는 "동적 샘플링"으로, 이는 유용한 학습 기울기 신호를 제공하지 않기 때문입니다. 연구자들은 또한 "반복적 컨텍스트 확장"을 채택하여, 모델을 32,000 토큰 컨텍스트 창으로 먼저 훈련한 다음 40,000 토큰으로 확장했습니다. 평가 중에 컨텍스트를 약 80,000 토큰으로 더 확장하면 67.87%의 정확도로 최고의 결과가 나왔습니다.

가장 중요하게도, 훈련 파이프라인은 추론과 검증을 중첩합니다. 모델이 솔루션을 생성하자마자, 이전 솔루션이 확인되는 동안 다음 문제에 대한 작업을 시작합니다. 이 파이프라이닝은 여러 모델 인스턴스가 병렬로 작동하는 비동기 훈련과 결합되어 값비싼 GPU 클러스터의 하드웨어 활용도를 극대화합니다.

임박한 데이터 부족 문제

Li의 기술 보고서에 숨겨진 한 가지 발견은 미래 AI 개발에 중요한 함의를 가지고 있습니다. NousCoder-14B의 훈련 데이터 세트는 "표준화된 데이터 세트 형식으로 쉽게 사용할 수 있고 검증 가능한 모든 경쟁 프로그래밍 문제의 상당 부분을" 포함합니다. 즉, 이 특정 영역에 대해 연구자들은 고품질 훈련 데이터의 한계에 접근하고 있습니다.

Li는 훈련에 사용된 24,000개의 문제에 대해 언급하며 "인터넷상의 경쟁 프로그래밍 문제의 총 수는 대략 같은 규모"라고 언급했습니다. "이는 경쟁 프로그래밍 분야 내에서 우리가 고품질 데이터의 한계에 도달했음을 시사합니다." 이 관찰은 데이터 제약에 대한 AI 업계 전반의 증가하는 우려를 반영합니다. Li의 말에 따르면, 컴퓨팅 성능은 잘 이해된 경제적, 공학적 원리에 따라 계속 확장되지만, 훈련 데이터는 "점점 더 제한적"이 되고 있습니다.

그는 "앞으로 수행되어야 할 가장 중요한 연구 중 일부는 합성 데이터 생성 및 데이터 효율적인 알고리즘 및 아키텍처 분야에 있을 것으로 보입니다."라고 결론지었습니다. 경쟁 프로그래밍의 경우, 이는 자동 검증 가능한 알려진 올바른 솔루션이 있는 문제가 필요하기 때문에 특히 중요합니다. 인간 평가 또는 대리 지표가 충분한 자연어 작업과 달리, 코드는 정확하게 작동해야 합니다. 이는 합성 데이터 생성을 훨씬 더 어렵게 만듭니다. Li는 잠재적인 경로를 다음과 같이 식별했습니다. 모델을 문제 해결뿐만 아니라 해결 가능한 문제 생성을 훈련하여 게임 플레이 AI 시스템에서 성공적인 것으로 입증된 기술과 유사한 자체 플레이 형태를 가능하게 합니다. 그는 "합성 문제 생성이 해결되면 자체 플레이는 매우 흥미로운 방향이 됩니다."라고 썼습니다.

6,500만 달러의 투자를 받은 Nous Research는 오픈소스 AI가 빅테크와 효과적으로 경쟁할 수 있다는 대담한 내기를 하고 있으며, 빠르게 발전하는 AI 코딩 도구 분야에서 투명하고 재현 가능한 대안을 제공하고 있습니다.

Keywords: # NousCoder-14B # Nous Research # AI 코딩 # 오픈소스 AI # 경쟁 프로그래밍 # 머신러닝 # 인공지능 # Nvidia B200 # Claude Code # Anthropic # 소프트웨어 개발 # 강화 학습 # 데이터 부족 # 합성 데이터 생성