Nous Research stellt NousCoder-14B vor: Open-Source-Codierungsmodell fordert proprietäre Giganten heraus

USA - Ekhbary Nachrichtenagentur

Nous Research stellt NousCoder-14B vor: Open-Source-Codierungsmodell fordert proprietäre Giganten heraus

In einem Schritt, der das rasante Tempo der KI-gesteuerten Softwareentwicklung unterstreicht, hat Nous Research, ein Startup für künstliche Intelligenz mit offenem Quellcode, das von der Krypto-Venture-Firma Paradigm unterstützt wird, NousCoder-14B veröffentlicht. Dieses neue Modell für wettbewerbsorientiertes Programmieren, das in erstaunlichen vier Tagen unter Verwendung von 48 der neuesten Nvidia B200 Grafikprozessoren trainiert wurde, behauptet, mit mehreren größeren proprietären Systemen mithalten zu können oder diese zu übertreffen. Seine Ankunft verschärft das bereits überfüllte Feld der KI-Codierungsassistenten, insbesondere zu einem Zeitpunkt, an dem Anthropic's agentisches Programmierwerkzeug Claude Code seit Neujahr die Social-Media-Diskussionen dominiert und Entwickler begeisterte Testimonials austauschen.

Das gleichzeitige Aufkommen dieser fortschrittlichen KI-Codierungswerkzeuge unterstreicht die schnelle Entwicklung der KI-gestützten Softwareentwicklung. Es signalisiert auch den harten Wettbewerb zwischen Unternehmen, sowohl großen als auch kleinen, die bestrebt sind, das zu erobern, was viele als eine grundlegende Technologie für die Zukunft der Softwaretechnik betrachten. Das Rennen darum, wie Code geschrieben und Projekte in den kommenden Jahren verwaltet werden, hat begonnen.

Auch lesen

NousCoder-14B hat auf LiveCodeBench v6 eine Genauigkeitsrate von 67,87 Prozent erreicht, einem standardisierten Bewertungsbenchmark für wettbewerbsorientierte Programmierprobleme, die zwischen August 2024 und Mai 2025 veröffentlicht wurden. Laut dem technischen Bericht von Nous Research, der der Veröffentlichung beiliegt, stellt diese Leistung eine signifikante Verbesserung um 7,08 Prozentpunkte gegenüber dem Basismodell dar, von dem es abgeleitet wurde, nämlich Qwen3-14B von Alibaba. Dieser schnelle Fortschritt von einem Basismodell zeigt die Wirksamkeit der angewandten Trainingsmethodik.

Die Aufregung um KI-Codierungswerkzeuge war letzte Woche spürbar, als Jaana Dogan, eine leitende Ingenieurin bei Google, die für die Gemini API verantwortlich ist, einen viralen Beitrag auf X teilte. Sie beschrieb, wie sie Claude Code eine Problembeschreibung gab und dieser in nur einer Stunde ein System generierte, dessen Entwicklung ihr Team ein Jahr lang gedauert hatte. Dogan bezog sich auf ein verteiltes Agenten-Orchestrierungssystem, das Claude Code aus einem dreiteiligen Prompt approximieren konnte, was das Potenzial von KI zur Beschleunigung komplexer Entwicklungsaufgaben verdeutlicht.

Diese Gegenüberstellung ist lehrreich. Während Anthropic's Claude Code die Fantasie des Publikums mit Demonstrationen von End-to-End-Softwareentwicklungsfähigkeiten gefesselt hat, setzt Nous Research auf einen anderen Weg. Sie setzen auf Open-Source-Alternativen, die auf überprüfbaren Problemen trainiert werden, um die Leistungslücke zu schließen. Darüber hinaus betont Nous Research, dass Transparenz beim Aufbau des Modells und im Trainingsprozess genauso entscheidend ist wie rohe Leistungsfähigkeit, um Vertrauen zu fördern und Community-Beiträge zu ermöglichen.

Nous Researchs Engagement für Offenheit und Reproduzierbarkeit

Ein wichtiges Unterscheidungsmerkmal der Veröffentlichung von NousCoder-14B ist seine radikale Offenheit. Nous Research hat nicht nur die Modellgewichte geteilt, sondern auch die vollständige Reinforcement-Learning-Umgebung, die Benchmark-Suite und das Trainings-Harness. Aufbauend auf dem Atropos-Framework des Unternehmens ermöglichen diese Ressourcen jedem Forscher mit ausreichender Rechenleistung, ihre Arbeit zu reproduzieren oder darauf aufzubauen. Dieses Engagement für offene Wissenschaft beschleunigt den Fortschritt und ermöglicht eine breitere Prüfung und Verbesserung.

"Das Open-Sourcing des Atropos-Stacks bietet die notwendige Infrastruktur für reproduzierbare Forschungsarbeiten auf Olympiade-Niveau", bemerkte ein Beobachter auf X und hob die Bedeutung für akademische und Open-Source-Gemeinschaften hervor. Dieser Schritt demokratisiert den Zugang zu modernsten KI-Forschungswerkzeugen und -methoden.

Das Modell wurde von Joe Li trainiert, einem Researcher-in-Residence bei Nous Research und einem ehemaligen Wettkamp programmierer. Li's technischer Bericht bietet eine persönliche Perspektive und vergleicht die Lernkurve des Modells mit seiner eigenen Reise auf Codeforces, einer beliebten Plattform für wettbewerbsorientiertes Programmieren. Er ordnete LiveCodeBench-Ergebnisse den Codeforces-Ratings zu und schätzte, dass die Verbesserung von NousCoder-14B – von einem ungefähren Ratingbereich von 1600-1750 auf 2100-2200 – einen Sprung widerspiegelt, den er in fast zwei Jahren kontinuierlicher Übung zwischen 14 und 16 Jahren erzielte. Das KI-Modell wiederholte diesen entsprechenden Fortschritt in nur vier Tagen.

"Die Beobachtung des letzten Trainingslaufs war eine ziemlich surreale Erfahrung", schrieb Li im technischen Bericht. Er fügte jedoch schnell eine wichtige Einschränkung bezüglich der KI-Effizienz hinzu: Während er in seinen zwei Jahren Übung etwa 1.000 Probleme löste, benötigte das Modell 24.000 Probleme. Dies unterstreicht, dass Menschen zumindest vorerst deutlich stichprobeneffizientere Lerner bleiben, ein Schlüsselbereich für zukünftige KI-Forschung.

Innerhalb des Reinforcement-Learning-Systems

Der Trainingsprozess von NousCoder-14B liefert wertvolle Einblicke in die ausgefeilten Techniken, die Forscher einsetzen, um die KI-Argumentation durch Reinforcement Learning zu verbessern. Die Methodik basiert auf "verifizierbaren Belohnungen", bei denen die KI Code-Lösungen generiert, diese Lösungen anhand von Testfällen ausgeführt werden und das Modell ein einfaches binäres Feedback erhält: richtig oder falsch. Diese Feedbackschleife, obwohl konzeptionell einfach, erfordert eine erhebliche Infrastruktur für die groß angelegte Implementierung.

Nous Research nutzte Modal, eine Cloud-Computing-Plattform, um sandboxed Code-Ausführungen parallel auszuführen. Jedes der 24.000 Trainingsprobleme umfasst durchschnittlich Hunderte von Testfällen. Das System muss streng überprüfen, ob der generierte Code die richtigen Ausgaben innerhalb strenger Zeit- (15 Sekunden) und Speicherbeschränkungen (4 Gigabyte) liefert.

Das Training verwendete eine Technik namens DAPO (Dynamic Sampling Policy Optimization), die laut den Forschern etwas besser abschnitt als Alternativen. Eine Schlüsselinnovation ist das "dynamische Sampling" – das Verwerfen von Trainingsbeispielen, bei denen das Modell entweder alle Versuche löst oder bei allen Versuchen scheitert, da diese kein nützliches Lernsignal liefern. Darüber hinaus implementierten die Forscher "iterative Kontextverlängerung", wobei sie das Modell zunächst mit einem Kontextfenster von 32.000 Tokens trainierten und es dann auf 40.000 Tokens erweiterten. Während der Evaluierung führte die Erweiterung des Kontexts auf etwa 80.000 Tokens zu den besten Genauigkeitsergebnissen, die die berichteten 67,87 Prozent erreichten.

Entscheidend ist, dass die Trainingspipeline Inferenz und Verifizierung effizient überlappt – sobald das Modell eine Lösung generiert, beginnt es mit dem nächsten Problem, während die vorherige Lösung überprüft wird. Dieses Pipelining, kombiniert mit asynchronem Training, bei dem mehrere Modellinstanzen parallel arbeiten, maximiert die Hardwareauslastung auf teuren GPU-Clustern.

Die drohende Datenknappheit könnte den Fortschritt von KI-Codierungsmodellen verlangsamen

Eine bedeutende Erkenntnis aus Li's technischem Bericht weist auf einen potenziellen Engpass für die zukünftige KI-Entwicklung hin: Der Trainingsdatensatz für NousCoder-14B umfasste "einen erheblichen Teil aller leicht verfügbaren, überprüfbaren wettbewerbsorientierten Programmierprobleme in einem standardisierten Datensatzformat". Mit anderen Worten, in der spezifischen Domäne der wettbewerbsorientierten Programmierung nähert sich die Verfügbarkeit hochwertiger Trainingsdaten ihrer Grenze.

Li sagte unter Bezugnahme auf die 24.000 verwendeten Probleme: "Die Gesamtzahl der wettbewerbsorientierten Programmierprobleme im Internet ist ungefähr von der gleichen Größenordnung." "Dies deutet darauf hin, dass wir im Bereich der wettbewerbsorientierten Programmierung die Grenzen hochwertiger Daten erreicht haben." Diese Beobachtung spiegelt breitere Bedenken in der gesamten KI-Branche hinsichtlich Datenbeschränkungen wider. Während die Rechenleistung weiterhin nach gut verstandenen wirtschaftlichen und technischen Prinzipien skaliert, werden Trainingsdaten "zunehmend endlich".

Li schloss: "Es scheint, dass einige der wichtigsten Forschungsarbeiten, die in Zukunft durchgeführt werden müssen, in den Bereichen der Generierung synthetischer Daten und dateneffizienter Algorithmen und Architekturen liegen werden." Die Herausforderung ist besonders akut für die wettbewerbsorientierte Programmierung, da sie Probleme mit bekannten, automatisch überprüfbaren korrekten Lösungen erfordert, im Gegensatz zur Verarbeitung natürlicher Sprache, bei der Mehrdeutigkeit und mehrere gültige Interpretationen üblich sind.

Ekhbary Nachrichtenagentur

Nous Research stellt NousCoder-14B vor: Open-Source-Codierungsmodell fordert proprietäre Giganten heraus

Das in vier Tagen trainierte neue KI-Modell zeigt wettbewerb