Nous Research lance NousCoder-14B, un modèle de codage open-source qui rivalise avec les systèmes propriétaires

États-Unis - Agence de presse Ekhbary

Nous Research lance NousCoder-14B, un modèle de codage open-source qui rivalise avec les systèmes propriétaires

Dans une démarche qui souligne le rythme effréné du développement logiciel assisté par l'IA, Nous Research, une startup d'intelligence artificielle open-source soutenue par la société de capital-risque crypto Paradigm, a dévoilé NousCoder-14B. Ce nouveau modèle de programmation compétitive, entraîné en quatre jours seulement à l'aide de 48 processeurs graphiques Nvidia B200 de dernière génération, prétend égaler ou surpasser plusieurs systèmes propriétaires plus importants. Son arrivée intensifie un domaine déjà très concurrentiel des assistants de codage IA, particulièrement à un moment où l'outil de programmation agentique de rival Anthropic, Claude Code, a dominé les discussions sur les réseaux sociaux depuis le Jour de l'An, les développeurs partageant des témoignages enthousiastes.

L'émergence simultanée de ces outils avancés d'aide au codage IA met en lumière l'évolution rapide du développement logiciel assisté par l'IA. Elle signale également la concurrence acharnée entre les entreprises, grandes et petites, qui s'efforcent de s'emparer de ce que beaucoup considèrent comme une technologie fondamentale pour l'avenir de l'ingénierie logicielle. La course est lancée pour définir comment le code sera écrit et les projets gérés dans les années à venir.

L'engagement de Nous Research envers l'ouverture et la reproductibilité

Un différenciateur clé pour le lancement de NousCoder-14B est son ouverture radicale. Nous Research n'a pas seulement partagé les poids du modèle, mais aussi l'environnement complet d'apprentissage par renforcement, la suite d'évaluation et le cadre d'entraînement. Construits sur le framework Atropos de l'entreprise, ces ressources permettent à tout chercheur disposant d'une puissance de calcul suffisante de reproduire ou de s'appuyer sur leur travail. Cet engagement envers la science ouverte accélère le progrès et permet un examen et une amélioration plus larges.

"L'ouverture de la pile Atropos fournit l'infrastructure nécessaire à la recherche sur le raisonnement de niveau olympique et reproductible", a noté un observateur sur X, soulignant l'importance pour les communautés académiques et open-source. Cette initiative démocratise l'accès aux outils et méthodologies de pointe en matière de recherche sur l'IA.

Le modèle a été entraîné par Joe Li, chercheur résident chez Nous Research et ancien programmeur compétitif. Le rapport technique de Li offre une perspective personnelle, comparant la trajectoire d'apprentissage du modèle à son propre parcours sur Codeforces, une plateforme populaire de programmation compétitive. Il a mis en correspondance les scores LiveCodeBench avec les classements Codeforces, estimant que l'amélioration de NousCoder-14B - passant d'une fourchette de classement d'environ 1600-1750 à 2100-2200 - reflète un bond qu'il a réalisé en près de deux ans de pratique soutenue entre 14 et 16 ans. Le modèle IA a reproduit cet équivalent de progrès en seulement quatre jours.

"Regarder le déroulement de la dernière session d'entraînement a été une expérience assez surréaliste", a écrit Li dans le rapport technique. Cependant, il a rapidement ajouté une mise en garde cruciale concernant l'efficacité de l'IA : bien qu'il ait résolu environ 1000 problèmes au cours de ses deux années de pratique, le modèle en a nécessité 24 000. Cela souligne que, pour l'instant, les humains restent des apprenants beaucoup plus efficaces en termes d'échantillons, un domaine clé pour la recherche future sur l'IA.

À l'intérieur du système d'apprentissage par renforcement

Le processus d'entraînement de NousCoder-14B fournit des informations précieuses sur les techniques sophistiquées que les chercheurs emploient pour améliorer le raisonnement de l'IA par l'apprentissage par renforcement. La méthodologie repose sur des "récompenses vérifiables", où l'IA génère des solutions de code, ces solutions sont exécutées par rapport à des cas de test, et le modèle reçoit un simple retour binaire : correct ou incorrect. Cette boucle de rétroaction, bien que conceptuellement simple, exige une infrastructure substantielle pour une mise en œuvre à grande échelle.

Nous Research a utilisé Modal, une plateforme de cloud computing, pour exécuter des exécutions de code en bac à sable (sandboxed) en parallèle. Chacun des 24 000 problèmes d'entraînement implique en moyenne des centaines de cas de test. Le système doit vérifier rigoureusement que le code généré produit les résultats corrects dans des contraintes strictes de temps (15 secondes) et de mémoire (4 gigaoctets).

L'entraînement a incorporé une technique connue sous le nom de DAPO (Dynamic Sampling Policy Optimization), que les chercheurs ont trouvée légèrement plus efficace que les alternatives. Une innovation clé est "l'échantillonnage dynamique", qui consiste à éliminer les exemples d'entraînement pour lesquels le modèle réussit toutes les tentatives ou échoue à toutes les tentatives, car ceux-ci ne fournissent aucun signal d'apprentissage utile. De plus, les chercheurs ont mis en œuvre "l'extension de contexte itérative", entraînant initialement avec une fenêtre de contexte de 32 000 jetons et l'étendant à 40 000 jetons. Lors de l'évaluation, l'extension du contexte à environ 80 000 jetons a donné les meilleurs résultats de précision, atteignant les 67,87 % rapportés.

De manière cruciale, le pipeline d'entraînement chevauche efficacement l'inférence et la vérification. Dès que le modèle produit une solution, il commence à travailler sur le problème suivant pendant que la solution précédente est vérifiée. Ce pipelining, couplé à un entraînement asynchrone où plusieurs instances de modèles fonctionnent en parallèle, maximise l'utilisation du matériel sur des clusters GPU coûteux.

Actualités connexes

La pénurie de données imminente dans le développement de l'IA

Une découverte significative dans le rapport technique de Li pointe vers un goulot d'étranglement potentiel pour le développement futur de l'IA : l'ensemble de données d'entraînement pour NousCoder-14B a utilisé "une portion significative de tous les problèmes de programmation compétitive facilement disponibles et vérifiables dans un format de jeu de données standardisé". Cela suggère que, dans le domaine spécifique de la programmation compétitive, la disponibilité de données d'entraînement de haute qualité atteint sa limite.

"Le nombre total de problèmes de programmation compétitive sur Internet est à peu près du même ordre de magnitude", a déclaré Li, faisant référence aux 24 000 problèmes utilisés. "Cela suggère que, dans le domaine de la programmation compétitive, nous avons atteint les limites des données de haute qualité." Cette observation fait écho aux préoccupations plus larges de l'industrie de l'IA concernant les contraintes de données. Alors que la puissance de calcul continue de croître de manière prévisible, les données d'entraînement deviennent de plus en plus limitées.

Li a conclu : "Il semble que certaines des recherches les plus importantes à mener à l'avenir porteront sur les domaines de la génération de données synthétiques et des algorithmes et architectures efficaces en matière de données." Le défi est particulièrement aigu pour la programmation compétitive, car elle nécessite des problèmes avec des solutions correctes connues et vérifiables automatiquement, contrairement au traitement du langage naturel, où l'ambiguïté et les interprétations multiples valides sont courantes.

Agence de presse Ekhbary

Nous Research lance NousCoder-14B, un modèle de codage open-source qui rivalise avec les systèmes propriétaires

Le nouveau modèle d'IA, entraîné en quatre jours, affiche de