Reasoning-Sprachmodell

Reasoning-Sprachmodell (LRM) (auf Deutsch: „schlussfolgerndes Sprachmodell“ oder „denkendes Sprachmodell“) ist eine spezielle Kategorie von großen Sprachmodellen (LLMs), die darauf ausgelegt sind, komplexe Denkaufgaben („Multi-Step Reasoning“) zu lösen. Sie werden als künstliche-Intelligenz-Systeme beschrieben, die natürliche Sprachverarbeitung mit strukturierten Inferenzfähigkeiten kombinieren. Diese Modelle werden üblicherweise durch Prompting, Supervised Finetuning (SFT) und Bestärkendes Lernen (RL) konstruiert, die mit vortrainierten Sprachmodellen initialisiert werden.[1] Ein Sprachmodell ist ein generatives Modell eines Trainingsdatensatzes von Texten. Prompting bedeutet die Konstruktion einer Texteingabe, sodass das Sprachmodell, konditioniert auf diese Eingabe, eine Lösung für die gestellte Aufgabe generiert. Prompting kann auf ein vortrainiertes Modell ("Basismodell"), ein Basismodell nach SFT oder RL oder beides angewendet werden.[1]

Eigenschaften und Technik

Diese Modelle zeichnen sich, als Weiterentwicklung zu den bisherigen LLMs, durch folgende Merkmale aus:

  • Sie zerlegen Aufgaben in mehrere logische Teilschritte („Chain of Thought Reasoning“).
  • Sie verwenden während der Laufzeit zusätzliche, in Testversionen auch unlimitiert, Rechenressourcen für Nachdenken und Problemlösung.
  • Neue Belohnungsmodelle helfen, die Qualität und Nachvollziehbarkeit der Lösungen zu erhöhen.
  • Reasoning LLMs liefern im Vergleich zu klassischen LLMs wie GPT-3/4 robustere, nachvollziehbarere und oft exaktere Antworten, insbesondere bei mathematischen und Programmieraufgaben.

Prompting-Techniken

Chain of Thought Prompting

Chain of Thought Prompting (CoT) fordert das Modell auf, eine Frage zu beantworten, indem es zunächst eine "Gedankenkette" generiert, das sind Inferenzschritte, die einen logischen Gedankengang nachahmen.[2] Dieser Ansatz wurde 2022 vom Google-Brain-Team am PaLM-540B-Modell veröffentlicht.[3] Beim CoT-Prompting hat die Eingabe die Form "<input> Lass uns Schritt für Schritt denken", das Modell antwortet mit einer Kette von Inferenzschritten, die mit einer Antwort enden.[4]

Tree of Thought Prompting

Tree of Thought Prompting verallgemeinert CoT, indem das Modell aufgefordert wird, einen oder mehrere "mögliche nächste Schritte" zu generieren. Darauf exekutiert das Modell auf jedem der möglichen nächsten Schritte Breitensuchen, Beam Search oder durchläuft eine andere Methode von Baumsuchen.[5][6]

Graph of Thought

Graph of Thought verallgemeinert CoT so, dass die Inferenzschritte einen gerichteten azyklischen Graphen bilden.[7]

Self-Consistency Decoding

Self-Consistency Decoding exekutiert mehrere Chain-of-Thought-Durchläufe und wählt die am häufigsten erreichte Schlussfolgerung aus allen Durchläufen aus.[8]

Retrieval-Augmented Generation

Ein Sprachmodell kann eine Anfrage beantworten, indem es zuerst eine Datenbank von Dokumenten mit der Anfrage abfragt. Der Dokumentenabruf kann über eine Vektordatenbank, einen Zusammenfassungsindex, Baumindex oder Schlüsselworttabellenindex erfolgen.[9]

Tool-Use und externe Methodenaufrufe

Sprachmodelle können lange Inferenzschritte durchführen, indem sie externe Methoden aufrufen, wie numerische Rezepte, Programminterpreter, API-Aufrufe und weiteres. Dies kann durch Prompt-Engineering beschrieben werden, indem die externen Methoden im Kontext beschrieben werden (ein Beispiel für In-Context-Learning) oder in das Modell hineintrainiert werden.[10]

Supervised Fine-Tuning (SFT)

Ein Basismodell kann auf einem Datensatz von Inferenzaufgaben mit Beispiellösungen und Inferenzspuren feingetuned werden. Dieses Modell wäre dann in der Lage, Inferenzspuren für ein gegebenes Problem zu generieren.[11]

Rejection Sampling Fine-tuning (RFT)

Da es teuer ist, wenn Menschen Inferenzspuren für einen SFT-Datensatz schreiben, gibt es Vorschläge für Methoden, SFT-Datensätze automatisch zu konstruieren. Beim Rejection Sampling Fine-tuning (RFT) werden so neue Inferenzspuren über eine Schleife gesammelt:[12]

  • 1. Stichprobe einer Aufgabeneingabe
  • 2. Generierung vieler Inferenzspuren für die Eingabe
  • 3. Verwendung eines Verifizierers zur Entfernung von Inferenzspuren mit falscher Endantwort
  • 4. Für jede verbleibende Spur: Extraktion der darin erscheinenden Gleichungen, Deduplizierung der Spuren und Hinzufügung zum Datensatz

Reinforcement Learning (RL)

Ein vortrainiertes Sprachmodell kann durch RL weiter trainiert werden. In der RL-Formalisierung ist ein generatives Sprachmodell eine Policy π. Eine Eingabe, die eine zu lösende Aufgabe spezifiziert, ist ein Umgebungszustand s, und die Antwort des Sprachmodells auf die Eingabe ist eine Aktion a. Das Training eines Reasoning-Sprachmodells durch RL besteht dann aus der Konstruktion eines Belohnungsmodells zur Steuerung des RL-Prozesses. Intuitiv beschreibt ein Belohnungsmodell, wie wünschenswert/angemessen/gut die Antwort für die Eingabe ist.[13]

Outcome Reward Model (ORM)

Das Outcome Reward Model oder outcome-supervised RM (ORM) ist ein "Belohnungsmodell", das die Belohnung eines Schrittes bestimmt, der durch die endgültige Antwort bestimmt wird. Sie werden auch "Verifizierer" genannt.[14] Für Aufgaben mit einer leicht zu überprüfenden Antwort, wie Textaufgaben in der Mathematik, kann die Outcome-Belohnung einfach binär sein: 1, wenn die endgültige Antwort korrekt ist, und 0 andernfalls.

Process Reward Model (PRM)

Das Process Reward Model oder process-supervised RM (PRM) ist ein Belohnungsmodell, das die Belohnung eines Schrittes bestimmt, der durch die bisherigen Schritte bestimmt wird.[14] Für eine partielle "Denkspur" können Menschen befragt werden, ob die bisherigen Schritte korrekt sind, unabhängig davon, ob die endgültige Antwort korrekt wäre. Dies kann dann als binäres Belohnungssignal verwendet werden.

Anwendungen bei der Inferenz

Test-Time Compute Scaling

Ein trainiertes ORM kann die beste Antwort auswählen. Die Policy würde mehrere Antworten generieren, und ein trainiertes ORM wählt aus. Dies wäre eine einfache Form des Test-Time Compute Scaling ("best-of-N").[15]

Ein trainiertes PRM kann verwendet werden, um das Reasoning durch ausufernde "Baumsuche" zu leiten. Das heißt, das Policy-Modell generiert mehrere mögliche nächste Inferenzschritte, und das PRM wählt den besten aus, und der Prozess wiederholt sich.[16]

Bewertung und Benchmarks

Reasoning-Fähigkeiten von Sprachmodellen werden üblicherweise an Problemen mit eindeutigen Lösungen getestet, die kostengünstig überprüft werden können und menschlich generierte Lösungen beim Reasoning erfordern. Solche Problemlösungvorlagen sind in der Mathematik und bei kompetitiven Programmierungsaufgaben üblich. Beispielsweise:

  • GSM8K (Grade School Math): 8,5K sprachlich diverse Grundschul-Textaufgaben in Mathematik, die 2 bis 8 grundlegende arithmetische Operationen zur Lösung erfordern.[17]
  • MMLU (Measuring Massive Multitask Language Understanding): 16.000 Multiple-Choice-Fragen aus 57 akademischen Fächern einschließlich Mathematik, Philosophie, Recht und Medizin.[18]
  • GPQA (Google-Proof Q&A): 448 Multiple-Choice-Fragen, geschrieben von Domänenexperten in Biologie, Physik und Chemie, und erfordern PhD-Level-Experten zur Lösung.[19]
  • HumanEval: Programmierproblemen, bei denen die Lösung immer eine Python-Funktion ist, oft nur wenige Zeilen lang.[20]

Bewertungsmetriken

Die Benchmark-Werte sind von folgenden Arten:

  • pass@n: Das Modell erhält n Versuche zur Lösung jedes Problems. Wenn ein Versuch korrekt ist, erhält das Modell einen Punkt.
  • cons@n: Das Modell erhält n Versuche zur Lösung jedes Problems. Wenn die häufigste Antwort korrekt ist, erhält das Modell einen Punkt.

Geschichte

Reasoning Language Models wurden um 2024 von führenden KI-Unternehmen wie OpenAI, DeepSeek, Alibaba und Google auf den Markt gebracht. Zu den ersten wichtigen Modellen zählen:

  • OpenAI o1/o1-preview, nachfolgend o3 und o3-mini
  • DeepSeek R1
  • Qwen (Alibaba)
  • Google Gemini/Deep Research

Kennzeichnend sind bei den genannten Modellen die beschriebenen Trainingsmethoden wie „Knowledge Distillation“ und der Einsatz von Prozess- und Ergebnis-Belohnungsmodellen (PRM/ORM).

Prompt Engineering wurde in GPT-3 als "Few-Shot-Learning" entdeckt,[21] das hat eine Periode der Forschung zur "Entlockung" weiterer Fähigkeiten vortrainierter Sprachmodelle eingeleitet. Es wurde dann festgestellt, dass ein Modell dazu gebracht werden konnte, CoT-Reasoning durchzuführen, was seine Leistung bei Reasoning-Aufgaben verbesserte.[22]

Anwendungen

Reasoning Language Models werden eingesetzt in:

  • mathematischen Aufgaben (z. B. American Invitational Mathematics Examination / AIME)
  • Programmierwettbewerben
  • wissenschaftlicher Textgenerierung und Analyse
  • Retrieval-Augmented Generation (RAG)-Systemen
  • Medizin, Recht, komplexer Entscheidungsfindung

In Benchmarks wie AIME erzielen Reasoning-Modelle Erfolgsraten von 50 bis über 80 %, während ältere LLMs meist unter 30 % bleiben.

Herausforderungen

  • Aktuelle LRMs zeigen zwar bessere Leistungen in Reasoning-Benchmarks, aber ihre fundamentalen Fähigkeiten und Grenzen sind noch unzureichend verstanden. Das zeigten Untersuchungen mittels kontrollierbarer Puzzle-Umgebungen, die präzise Manipulation der Komplexität bei konsistenten logischen Strukturen ermöglichen:
  • Vollständiger Genauigkeitskollaps: LRMs versagen komplett bei Problemen jenseits bestimmter Komplexitätsschwellen
  • Paradoxes Skalierungsverhalten: Der Reasoning-Aufwand steigt zunächst mit der Problemkomplexität, nimmt dann aber wieder ab – trotz ausreichendem Token-Budget
  • Schwächen bei exakter Berechnung: LRMs verwenden keine expliziten Algorithmen und zeigen inkonsistentes Reasoning zwischen verschiedenen Puzzles
  • Strukturanalyse: Detaillierte Untersuchung der Reasoning-Spuren zeigt Muster in der Lösungsfindung und wirft grundlegende Fragen zu den wahren Reasoning-Fähigkeiten auf
  • Evaluationsproblematik: Bisherige Bewertungen fokussieren zu stark auf finale Antwortgenauigkeit und leiden unter Datenkontamination[23]

Drei Performance-Bereiche im Vergleich zu Standard-LLMs

  • Niedrige Komplexität: Standard-Modelle übertreffen überraschenderweise LRMs
  • Mittlere Komplexität: LRMs zeigen Vorteile durch zusätzliches "Denken"
  • Hohe Komplexität: Beide Modelltypen versagen vollständig[23]

Ausblicke

Die neuen Modellgenerationen (z. B. OpenAI o4-mini, DeepSeek R1, Google Gemini 2.0 Flash Thinking) lassen zwar erwarten, dass Reasoning und Erklärbarkeit bei KI weiter verbessert werden. Wichtige Forschungsfelder werden die Verbindung von Reasoning LLMs mit KI-Agentensystemen sein. Deren breite Einsatz in Agentensystemen oder Echtzeitumgebungen ist noch in Entwicklung.

Nachteile

  • Mangelnde Transparenz in den Prozessen, daher wenig Vertrauenswürdigkeit
  • Signifikant höherer Rechen- und Zeitaufwand bei der Generierung der Antworten
  • Bisherige Vorteile nur in klar verifizierbaren Lösungsbereichen (Mathematik, Logik)
  • Datenschutz und Urheberrechtsproblematik bleiben ungelöst
  • Bereichsübergreifende Zugriffe von Agentensystemen unterlaufen Sicherheitsschranken in Betriebssystemen[24]

Deutsche Forschung

Weitere Quellen

(2023–2025)

Siehe auch

Einzelnachweise

  1. a b Qiao, Shuofei; Ou, Yixin; Zhang, Ningyu; Chen, Xiang; Yao, Yunzhi; Deng, Shumin; Tan, Chuanqi; Huang, Fei; Chen, Huajun (2023): Reasoning with Language Model Prompting: A Survey, arXiv:2212.09597
  2. Wei, Jason; Wang, Xuezhi; Schuurmans, Dale; Bosma, Maarten; Ichter, Brian; Xia, Fei; Chi, Ed H.; Le, Quoc V.; Zhou, Denny (2022): Chain-of-Thought Prompting Elicits Reasoning in Large Language Models, NeurIPS 2022, arXiv:2201.11903
  3. Narang, Sharan; Chowdhery, Aakanksha (2022): Pathways Language Model (PaLM): Scaling to 540 Billion Parameters for Breakthrough Performance, Google AI Blog
  4. Deutsches Forschungszentrum für Künstliche Intelligenz (DFKI) (2024): Arten von Prompting - Chain of Thought Prompting, Technische Hochschule Augsburg
  5. Yao, Shunyu; Yu, Dian; Zhao, Jeffrey; Shafran, Izhak; Griffiths, Thomas L.; Cao, Yuan; Narasimhan, Karthik (2023): Tree of Thoughts: Deliberate Problem Solving with Large Language Models, arXiv:2305.10601
  6. The Decoder (2023): Tree of Thoughts verbessert GPT-4s logische Fähigkeiten, Mai 2023
  7. Besta, Maciej; Blach, Nils; Kubicek, Ales; Gerstenberger, Robert; Podstawski, Michal; Gianinazzi, Lukas; Gajda, Joanna; Lehmann, Tomasz; Niewiadomski, Hubert; Nyczyk, Piotr; Hoefler, Torsten (2024): Graph of Thoughts: Solving Elaborate Problems with Large Language Models, AAAI 2024, arXiv:2308.09687
  8. Wang, Xuezhi; Wei, Jason; Schuurmans, Dale; Le, Quoc; Chi, Ed; Narang, Sharan; Chowdhery, Aakanksha; Zhou, Denny (2022): Self-Consistency Improves Chain of Thought Reasoning in Language Models, arXiv:2203.11171
  9. Lewis, Patrick; Perez, Ethan; Piktus, Aleksandra; Petroni, Fabio; Karpukhin, Vladimir; Goyal, Naman; Küttler, Heinrich; Lewis, Mike; Yih, Wen-tau; Rocktäschel, Tim; Riedel, Sebastian; Kiela, Douwe (2020): Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks, NeurIPS 2020, arXiv:2005.11401
  10. Schick, Timo; Dwivedi-Yu, Jane; Dessi, Roberto; Raileanu, Roberta; Lomeli, Maria; Hambro, Eric; Zettlemoyer, Luke; Cancedda, Nicola; Scialom, Thomas (2023): Toolformer: Language Models Can Teach Themselves to Use Tools, NeurIPS 2023, arXiv:2302.04761
  11. Uesato, Jonathan; Kushman, Nate; Kumar, Ramana; Song, Francis; Siegel, Noah; Wang, Lisa; Creswell, Antonia; Irving, Geoffrey; Higgins, Irina (2022): Solving math word problems with process- and outcome-based feedback, arXiv:2211.14275
  12. Yuan, Zheng; Yuan, Hongyi; Li, Chengpeng; Dong, Guanting; Lu, Keming; Tan, Chuanqi; Zhou, Chang; Zhou, Jingren (2023): Scaling Relationship on Learning Mathematical Reasoning with Large Language Models, arXiv:2308.01825
  13. Science Media Center Germany (2024): Skalierung und Reasoning: Wie geht es mit Sprachmodellen weiter?, Wissenschaftsjournalismus
  14. a b Lightman, Hunter; Kosaraju, Vineet; Burda, Yura; Edwards, Harri; Baker, Bowen; Lee, Teddy; Leike, Jan; Schulman, John; Sutskever, Ilya (2023): Let's Verify Step by Step, arXiv:2305.20050
  15. Snell, Charlie; Lee, Jaehoon; Xu, Kelvin; Kumar, Aviral (2024): Scaling LLM Test-Time Compute Optimally can be More Effective than Scaling Model Parameters, arXiv:2408.03314
  16. Ma, Qianli; Zhou, Haotian; Liu, Tingkai; Yuan, Jianbo; Liu, Pengfei; You, Yang; Yang, Hongxia (2023): Let's reward step by step: Step-Level reward model as the Navigators for Reasoning, arXiv:2310.10080
  17. Cobbe, Karl; Kosaraju, Vineet; Bavarian, Mohammad; Chen, Mark; Jun, Heewoo; Kaiser, Lukasz; Plappert, Matthias; Tworek, Jerry; Hilton, Jacob (2021): Training Verifiers to Solve Math Word Problems, arXiv:2110.14168
  18. Hendrycks, Dan; Burns, Collin; Basart, Steven; Zou, Andy; Mazeika, Mantas; Song, Dawn; Steinhardt, Jacob (2021): Measuring Massive Multitask Language Understanding, arXiv:2009.03300
  19. Rein, David; Hou, Betty Li; Stickland, Asa Cooper; Petty, Jackson; Pang, Richard Yuanzhe; Dirani, Julien; Michael, Julian; Bowman, Samuel R. (2023): GPQA: A Graduate-Level Google-Proof Q&A Benchmark, arXiv:2311.12022
  20. Chen, Mark; Tworek, Jerry; Jun, Heewoo; Yuan, Qiming; Pinto, Henrique Ponde de Oliveira; Kaplan, Jared; Edwards, Harri; Burda, Yuri; Joseph, Nicholas (2021): Evaluating Large Language Models Trained on Code, arXiv:2107.03374
  21. Brown, Tom B.; Mann, Benjamin; Ryder, Nick; Subbiah, Melanie; Kaplan, Jared; Dhariwal, Prafulla; Neelakantan, Arvind; Shyam, Pranav; Sastry, Girish; Askell, Amanda; Agarwal, Sandhini; Herbert-Voss, Ariel; Krueger, Gretchen; Henighan, Tom; Child, Rewon (2020): Language models are few-shot learners, NeurIPS 2020
  22. Talmeier, Martin (2025): Reasoning in Large Language Models: Die nächste KI-Evolution, KI.Logbuch
  23. a b Parshin Shojaee, Iman Mirzadeh, Keivan Alizadeh, Maxwell Horton, Samy Bengio, Mehrdad Farajtabar: The Illusion of Thinking: Understanding the Strengths and Limitations of Reasoning Models via the Lens of Problem Complexity. (PDF; 13,2 MB) In: cdn-apple.com. Abgerufen am 10. August 2025 (englisch).
  24. https://www.youtube.com/watch?v=jE_CNezjV7o
  25. DFKI NLP Group (2024): Natural Language Processing Research, Deutsches Forschungszentrum für Künstliche Intelligenz Berlin
  26. DFKI Speech and Language Technology Lab (2024): KI zur Analyse, Generierung und Interaktion von gesprochener und geschriebener Sprache, DFKI
  27. Ludwig-Maximilians-Universität München (2024): Forschung zur Künstlichen Intelligenz, LMU München
  28. Technische Universität München (2024): Künstliche Intelligenz und Maschinelles Lernen, TU München
  29. Plattform Lernende Systeme (2024): Große Sprachmodelle - Chancen und Herausforderungen für Forschung und Anwendung, Bundesministerium für Bildung und Forschung