Nous Research, NousCoder-14B 공개: 오픈소스 코딩 모델, 상용 모델에 도전

미국 - 이크바리 뉴스 통신사

Nous Research, NousCoder-14B 공개: 오픈소스 코딩 모델, 상용 모델에 도전

AI 보조 소프트웨어 개발의 빠른 진화를 강조하는 움직임으로, 암호화폐 벤처 캐피털 회사 패러다임(Paradigm)의 지원을 받는 오픈소스 인공지능 스타트업 Nous Research가 새로운 경쟁 프로그래밍 모델을 출시했습니다. NousCoder-14B라는 이름의 이 모델은 여러 대형 상용 시스템과 동등하거나 그 이상의 성능을 발휘하며, Nvidia의 최첨단 B200 그래픽 처리 장치 48개를 사용하여 단 4일 만에 훈련되었다고 합니다.

NousCoder-14B는 빠르게 확장되는 AI 코딩 도우미 분야에 매우 시기적절하게 진입하고 있습니다. 경쟁사인 Anthropic의 에이전트형 프로그래밍 도구 Claude Code는 새해 첫날부터 소셜 미디어 토론을 지배했으며, 개발자들은 그 기능에 대한 열정적인 추천사를 공유하고 있습니다. 이러한 동시적인 발전은 AI 기반 소프트웨어 개발의 가속화되는 속도와, 소프트웨어 제작의 근본적인 기술이 될 것으로 많은 사람들이 기대하는 이 분야를 장악하기 위한 대기업과 소기업 간의 치열한 경쟁을 보여줍니다.

Read Also

2024년 8월부터 2025년 5월 사이에 게시된 경쟁 프로그래밍 문제에 대한 표준화된 평가인 LiveCodeBench v6에서 NousCoder-14B는 67.87%의 정확도를 달성했습니다. Nous Research의 기술 보고서에 따르면 이 수치는 Alibaba의 Qwen3-14B라는 기본 모델에 비해 7.08% 포인트의 상당한 개선을 나타냅니다.

AI 코딩 도구에 대한 현재의 분위기는 Gemini API를 담당하는 Google의 수석 엔지니어인 Jaana Dogan에 의해 생생하게 포착되었습니다. 지난주 X에서 바이럴된 게시물에서 Dogan은 자신의 경험을 공유했습니다. "Claude Code에게 문제 설명을 주었더니, 1년 전에 우리가 만들었던 것을 한 시간 만에 생성해냈습니다." 그녀는 자신의 팀이 개발하는 데 1년이 걸린 분산 에이전트 오케스트레이션 시스템을 언급했는데, Claude Code는 세 단락의 프롬프트에서 이를 근사화하는 데 성공했습니다.

이러한 비교는 시사하는 바가 큽니다. Anthropic의 Claude Code가 엔드투엔드 소프트웨어 개발 시연으로 상상력을 사로잡고 있는 반면, Nous Research는 NousCoder-14B를 강력한 오픈소스 대안으로 포지셔닝하고 있습니다. 그들의 전략은 검증 가능한 문제에 대해 훈련된 모델이 능력 격차를 해소할 수 있으며, 모델 구축 과정의 투명성이 원시 성능만큼 중요하다는 믿음에 기반합니다.

투명성과 재현성: NousCoder-14B의 차별점

NousCoder-14B 출시를 다른 경쟁사 발표와 차별화하는 것은 급진적인 개방성에 대한 약속입니다. Nous Research는 모델 가중치뿐만 아니라 회사의 Atropos 프레임워크를 기반으로 구축된 전체 강화 학습 환경, 벤치마크 제품군 및 훈련 도구 체인도 공개했습니다. 이러한 포괄적인 공개는 충분한 컴퓨팅 리소스를 가진 모든 연구자가 작업을 복제하거나 확장할 수 있도록 합니다.

X의 한 관찰자는 "Atropos 스택의 오픈소스화는 올림피아드 수준의 추론 연구를 재현할 수 있는 필수 인프라를 제공합니다."라고 언급하며, 이 접근 방식이 학계 및 오픈소스 커뮤니티에 미치는 깊은 의미를 요약했습니다.

이 모델은 Nous Research의 연구원이자 전직 경쟁 프로그래머인 Joe Li에 의해 훈련되었습니다. Li의 기술 보고서는 모델의 성능 궤적을 인기 있는 경쟁 프로그래밍 플랫폼인 Codeforces에서의 자신의 경험과 비교하여 개인적인 관점을 제공합니다. 그는 LiveCodeBench 점수를 Codeforces 등급과 매핑하여 NousCoder-14B의 개선 – 약 1600-1750 등급 범위에서 2100-2200으로 – 14세에서 16세 사이에 거의 2년 동안의 집중적인 연습으로 달성한 도약을 반영한다고 추정했습니다. 이 모델은 단 4일 만에 이와 동등한 발전을 달성했습니다.

Li는 기술 보고서에서 "마지막 훈련 실행이 펼쳐지는 것을 지켜보는 것은 매우 초현실적인 경험이었습니다."라고 썼습니다. 그러나 그는 AI 효율성에 관한 중요한 주의 사항도 지적했습니다. 그는 2년 동안 약 1,000개의 문제를 해결했지만, 모델은 24,000개의 문제가 필요했습니다. 이는 현재로서는 인간이 샘플 수 측면에서 훨씬 더 효율적인 학습자임을 강조합니다.

강화 학습 시스템 내부: 24,000개 문제에 대한 훈련

NousCoder-14B의 훈련 과정은 연구원들이 강화 학습을 통해 AI 추론 능력을 향상시키기 위해 사용하는 정교한 기술을 엿볼 수 있게 합니다. 핵심 방법론은 연구자들이 '검증 가능한 보상'이라고 부르는 것에 의존합니다. 이 시스템에서 모델은 코드 솔루션을 생성하고, 이 솔루션은 테스트 케이스에 대해 실행됩니다. 모델은 올바르거나 틀린 간단한 이진 피드백 신호를 받습니다. 개념적으로는 간단하지만, 이 피드백 루프는 대규모 실행을 위해 상당한 인프라를 필요로 합니다.

Nous Research는 클라우드 컴퓨팅 플랫폼인 Modal을 사용하여 샌드박스 처리된 코드 실행을 병렬로 실행했습니다. 24,000개의 훈련 문제 각각에는 평균 수백 개의 테스트 케이스가 포함되어 있습니다. 시스템은 생성된 코드가 엄격한 시간 및 메모리 제한(각각 15초 및 4GB) 내에서 올바른 출력을 생성하는지 엄격하게 확인해야 합니다.

훈련에는 DAPO(Dynamic Sampling Policy Optimization)라는 기술이 사용되었으며, 연구원들은 이 기술이 실험에서 다른 대안보다 약간 더 나은 성능을 보인다고 밝혔습니다. 주요 혁신은 '동적 샘플링'으로, 모델이 모든 시도를 해결하거나 모든 시도에서 실패하는 훈련 예제를 폐기하는 것입니다. 이는 학습에 유용한 기울기 신호를 제공하지 않기 때문입니다.

연구원들은 또한 '반복적 컨텍스트 확장'을 채택하여, 먼저 32,000 토큰의 컨텍스트 창으로 모델을 훈련한 다음 40,000 토큰으로 확장했습니다. 평가 중에 컨텍스트를 약 80,000 토큰으로 확장하자 67.87%의 정확도에 도달하는 최상의 결과를 얻었습니다.

가장 중요한 것은, 훈련 파이프라인이 추론과 검증을 중첩시킨다는 것입니다. 모델이 솔루션을 생성하는 즉시, 이전 솔루션이 확인되는 동안 다음 문제로 넘어갑니다. 이 파이프라이닝은 여러 모델 인스턴스가 병렬로 작동하는 비동기 훈련과 결합되어 값비싼 GPU 클러스터의 하드웨어 활용도를 극대화합니다.

Related News

다가오는 데이터 부족: AI 발전을 위한 잠재적 병목 현상

Li의 기술 보고서에는 AI 개발의 미래 궤적에 중대한 영향을 미치는 중요한 발견이 숨겨져 있습니다. NousCoder-14B의 훈련 데이터셋은 "표준화된 데이터셋 형식으로 쉽게 구할 수 있고 검증 가능한 모든 경쟁 프로그래밍 문제의 상당 부분을 포함합니다."

본질적으로, 이 특정 분야에서 연구원들은 고품질 훈련 데이터의 한계에 접근하고 있습니다. Li는 훈련에 사용된 24,000개의 문제를 언급하며 "인터넷의 경쟁 프로그래밍 문제 총 수는 대략 같은 규모입니다."라고 썼습니다. "이는 경쟁 프로그래밍 분야 내에서 우리가 고품질 데이터의 한계에 도달했음을 시사합니다."

이 관찰은 특히 전문 분야에서 데이터 부족에 대한 AI 커뮤니티의 증가하는 우려를 반영합니다. 투명성과 공개 액세스는 집단적 발전에 필수적이지만, 고품질 훈련 데이터의 가용성은 곧 고급 AI 개발의 주요 제약이 될 수 있습니다.

이크바리 뉴스 통신사

Nous Research, NousCoder-14B 공개: 오픈소스 코딩 모델, 상용 모델에 도전

기록적인 시간 안에 훈련된 새로운 경쟁 프로그래밍 모델, 투명성을 제공하고 폐쇄형 AI 개발의 지배력에 도전