NousCoder-14B da Nous Research emerge como desafiante de código aberto na Arena de Codificação de IA

Estados Unidos - Agência de Notícias Ekhbary

NousCoder-14B da Nous Research emerge como desafiante de código aberto na Arena de Codificação de IA

Em um movimento destinado a remodelar o cenário do desenvolvimento de software assistido por IA, a Nous Research, uma startup de inteligência artificial de código aberto apoiada pela firma de capital de risco de cripto Paradigm, revelou um novo modelo de programação competitiva chamado NousCoder-14B. Este modelo, treinado em apenas quatro dias usando 48 das mais recentes unidades de processamento gráfico Nvidia B200, afirma igualar ou superar as capacidades de vários sistemas proprietários maiores. O lançamento chega em um momento particularmente carregado, marcado por um burburinho significativo em torno dos assistentes de codificação de IA, especialmente a ferramenta rival da Anthropic, Claude Code.

O Claude Code tem dominado as discussões nas redes sociais desde o Dia de Ano Novo, com desenvolvedores compartilhando depoimentos entusiasmados sobre sua proeza. Esses desenvolvimentos simultâneos destacam a rápida evolução do desenvolvimento de software assistido por IA e a feroz competição entre empresas, grandes e pequenas, para capturar o que muitos acreditam que se tornará uma tecnologia fundamental para a forma como o software é escrito.

Leia também

O NousCoder-14B demonstrou uma taxa de precisão de 67,87% no LiveCodeBench v6, uma avaliação padronizada que testa modelos em problemas de programação competitiva publicados entre agosto de 2024 e maio de 2025. De acordo com o relatório técnico da Nous Research, este número representa uma melhoria significativa de 7,08 pontos percentuais em relação ao seu modelo base, o Qwen3-14B da Alibaba.

Esses avanços ocorrem em meio a uma intensa atividade. Jaana Dogan, engenheira principal do Google responsável pela API Gemini, observou em uma postagem viral no X na semana passada: "Dei ao Claude Code a descrição do problema, e ele gerou em uma hora o que levamos um ano para construir." Dogan estava se referindo a um sistema de orquestração de agentes distribuídos que sua equipe desenvolveu ao longo de um ano, um sistema que o Claude Code conseguiu aproximar a partir de um prompt de três parágrafos. Essa justaposição é instrutiva: enquanto o Claude Code da Anthropic cativou a imaginação com demonstrações de desenvolvimento ponta a ponta, a Nous Research aposta que alternativas de código aberto, treinadas em problemas verificáveis, podem preencher a lacuna. A empresa também enfatiza que a transparência no desenvolvimento do modelo é tão crucial quanto a capacidade bruta.

Um Compromisso com a Abertura e a Transparência

O que realmente distingue o lançamento do NousCoder-14B é sua abertura radical, diferenciando-o de muitos anúncios de concorrentes. A Nous Research não publicou apenas os pesos do modelo, mas também o ambiente completo de aprendizado por reforço, o conjunto de benchmarks e o framework de treinamento – tudo construído no framework Atropos da empresa. Esta publicação abrangente permite que qualquer pesquisador com recursos computacionais suficientes reproduza ou construa sobre o trabalho. Um observador no X resumiu apropriadamente a importância para as comunidades acadêmicas e de código aberto: "A abertura do stack Atropos fornece a infraestrutura necessária para pesquisa reproduzível de raciocínio de nível olímpico."

O modelo foi treinado por Joe Li, um pesquisador residente na Nous Research e ex-programador competitivo. O relatório técnico de Li adiciona uma dimensão pessoal ao comparar a trajetória de melhoria do modelo com sua própria jornada no Codeforces, uma plataforma onde os participantes ganham classificações com base no desempenho das competições. Com base em estimativas aproximadas que mapeiam pontuações do LiveCodeBench para classificações do Codeforces, Li calculou que o salto do NousCoder-14B – de uma faixa de classificação aproximada de 1600-1750 para 2100-2200 – reflete um progresso que lhe custou quase dois anos de prática sustentada entre os 14 e 16 anos de idade. O modelo alcançou esse equivalente em apenas quatro dias.

"Observar a execução final do treinamento se desenrolar foi uma experiência bastante surreal", escreveu Li no relatório técnico. No entanto, ele rapidamente acrescentou uma ressalva importante que aborda questões mais amplas sobre a eficiência da IA: ele resolveu cerca de 1.000 problemas durante esses dois anos, enquanto o modelo exigiu 24.000. Isso destaca que, pelo menos por enquanto, os humanos permanecem aprendizes significativamente mais eficientes em termos de amostra.

Metodologias de Treinamento Avançadas Reveladas

O processo de treinamento do NousCoder-14B oferece uma visão das técnicas sofisticadas que os pesquisadores empregam para melhorar as capacidades de raciocínio da IA por meio do aprendizado por reforço. A abordagem central baseia-se no que os pesquisadores chamam de "recompensas verificáveis". Neste sistema, o modelo gera soluções de código, que são então executadas em relação a casos de teste. O modelo recebe um simples sinal de feedback binário: correto ou incorreto. Embora conceitualmente simples, esse loop de feedback requer infraestrutura considerável para execução em larga escala.

A Nous Research utilizou o Modal, uma plataforma de computação em nuvem, para executar execuções de código em ambientes isolados em paralelo. Cada um dos 24.000 problemas de treinamento contém centenas de casos de teste, em média. O sistema deve verificar se o código gerado produz as saídas corretas dentro de restrições específicas de tempo (15 segundos) e memória (4 gigabytes). A metodologia de treinamento empregou uma técnica chamada DAPO (Dynamic Sampling Policy Optimization), que os pesquisadores consideraram ligeiramente melhor do que as alternativas. Uma inovação chave é a "amostragem dinâmica" – que envolve descartar exemplos de treinamento onde o modelo resolve todas as tentativas ou falha em todas as tentativas, pois estes não fornecem nenhum sinal de gradiente útil para o aprendizado. Os pesquisadores também adotaram a "extensão iterativa de contexto", treinando inicialmente o modelo com uma janela de contexto de 32.000 tokens antes de expandi-la para 40.000 tokens. Durante a avaliação, estender o contexto para aproximadamente 80.000 tokens produziu os melhores resultados de precisão.

Mais significativamente, o pipeline de treinamento sobrepõe inferência e verificação – assim que o modelo gera uma solução, ele começa a trabalhar no próximo problema enquanto a solução anterior está sendo verificada. Essa pipeline, combinada com treinamento assíncrono onde múltiplas instâncias de modelo trabalham em paralelo, maximiza a utilização de hardware em clusters de GPU caros.

A Implante Ameaça da Escassez de Dados

Uma descoberta significativa no relatório técnico de Li aponta para um potencial gargalo para o futuro desenvolvimento de IA: o conjunto de dados de treinamento para NousCoder-14B abrange "uma porção significativa de todos os problemas de programação competitiva prontamente disponíveis e verificáveis em um formato de conjunto de dados padronizado." Em outras palavras, para este domínio específico, os pesquisadores estão se aproximando dos limites de dados de treinamento de alta qualidade.

Notícias relacionadas

Li observou: "O número total de problemas de programação competitiva na Internet é aproximadamente da mesma ordem de magnitude", referindo-se aos 24.000 problemas usados para treinamento. "Isso sugere que, dentro do domínio da programação competitiva, atingimos os limites de dados de alta qualidade." Essa observação ecoa as crescentes preocupações em toda a indústria de IA sobre restrições de dados. Enquanto o poder de computação continua a escalar de acordo com princípios econômicos e de engenharia bem compreendidos, os dados de treinamento estão se tornando "cada vez mais finitos", como disse Li.

Ele concluiu: "Parece que algumas das pesquisas mais importantes a serem feitas no futuro estarão nas áreas de geração de dados sintéticos e algoritmos e arquiteturas eficientes em dados." O desafio é particularmente agudo para programação competitiva porque o domínio requer problemas com soluções corretas conhecidas que podem ser verificadas automaticamente. Ao contrário das tarefas de linguagem natural, onde a avaliação humana ou métricas substitutas são suficientes, o código funciona ou não – tornando a geração de dados sintéticos consideravelmente mais difícil. Li identificou um caminho potencial: treinar modelos não apenas para resolver problemas, mas também para gerar problemas solucionáveis, permitindo uma forma de auto-jogo semelhante a técnicas que provaram ser bem-sucedidas em sistemas de IA para jogos. "Uma vez que a geração de problemas sintéticos é resolvida, o auto-jogo se torna uma direção muito interessante", escreveu ele.

Com um investimento de US$ 65 milhões, a Nous Research está fazendo uma aposta ousada de que a IA de código aberto pode competir efetivamente com as Big Tech, oferecendo uma alternativa transparente e reproduzível no campo em rápida evolução das ferramentas de codificação de IA.

Agência de Notícias Ekhbary

NousCoder-14B da Nous Research emerge como desafiante de código aberto na Arena de Codificação de IA

O novo modelo, treinado rapidamente em hardware Nvidia, visa