Reasoning-Sprachmodell

Reasoning-Sprachmodell (LRM) (auf Deutsch: „schlussfolgerndes Sprachmodell“ oder „denkendes Sprachmodell“) ist eine spezielle Kategorie von großen Sprachmodellen (LLMs), die darauf ausgelegt sind, komplexe Denkaufgaben („Multi-Step Reasoning“) zu lösen. Sie werden als künstliche-Intelligenz-Systeme beschrieben, die natürliche Sprachverarbeitung mit strukturierten Inferenzfähigkeiten kombinieren. Diese Modelle werden üblicherweise durch Prompting, Supervised Finetuning (SFT) und Bestärkendes Lernen (RL) konstruiert, die mit vortrainierten Sprachmodellen initialisiert werden.^[1] Ein Sprachmodell ist ein generatives Modell eines Trainingsdatensatzes von Texten. Prompting bedeutet die Konstruktion einer Texteingabe, sodass das Sprachmodell, konditioniert auf diese Eingabe, eine Lösung für die gestellte Aufgabe generiert. Prompting kann auf ein vortrainiertes Modell ("Basismodell"), ein Basismodell nach SFT oder RL oder beides angewendet werden.^[1]

Eigenschaften und Technik

Diese Modelle zeichnen sich, als Weiterentwicklung zu den bisherigen LLMs, durch folgende Merkmale aus:

Sie zerlegen Aufgaben in mehrere logische Teilschritte („Chain of Thought Reasoning“).
Sie verwenden während der Laufzeit zusätzliche, in Testversionen auch unlimitiert, Rechenressourcen für Nachdenken und Problemlösung.
Neue Belohnungsmodelle helfen, die Qualität und Nachvollziehbarkeit der Lösungen zu erhöhen.
Reasoning LLMs liefern im Vergleich zu klassischen LLMs wie GPT-3/4 robustere, nachvollziehbarere und oft exaktere Antworten, insbesondere bei mathematischen und Programmieraufgaben.

Prompting-Techniken

Chain of Thought Prompting

Chain of Thought Prompting (CoT) fordert das Modell auf, eine Frage zu beantworten, indem es zunächst eine "Gedankenkette" generiert, das sind Inferenzschritte, die einen logischen Gedankengang nachahmen.^[2] Dieser Ansatz wurde 2022 vom Google-Brain-Team am PaLM-540B-Modell veröffentlicht.^[3] Beim CoT-Prompting hat die Eingabe die Form "<input> Lass uns Schritt für Schritt denken", das Modell antwortet mit einer Kette von Inferenzschritten, die mit einer Antwort enden.^[4]

Tree of Thought Prompting

Tree of Thought Prompting verallgemeinert CoT, indem das Modell aufgefordert wird, einen oder mehrere "mögliche nächste Schritte" zu generieren. Darauf exekutiert das Modell auf jedem der möglichen nächsten Schritte Breitensuchen, Beam Search oder durchläuft eine andere Methode von Baumsuchen.^[5]^[6]

Graph of Thought

Graph of Thought verallgemeinert CoT so, dass die Inferenzschritte einen gerichteten azyklischen Graphen bilden.^[7]

Self-Consistency Decoding

Self-Consistency Decoding exekutiert mehrere Chain-of-Thought-Durchläufe und wählt die am häufigsten erreichte Schlussfolgerung aus allen Durchläufen aus.^[8]

Retrieval-Augmented Generation

Ein Sprachmodell kann eine Anfrage beantworten, indem es zuerst eine Datenbank von Dokumenten mit der Anfrage abfragt. Der Dokumentenabruf kann über eine Vektordatenbank, einen Zusammenfassungsindex, Baumindex oder Schlüsselworttabellenindex erfolgen.^[9]

Tool-Use und externe Methodenaufrufe

Sprachmodelle können lange Inferenzschritte durchführen, indem sie externe Methoden aufrufen, wie numerische Rezepte, Programminterpreter, API-Aufrufe und weiteres. Dies kann durch Prompt-Engineering beschrieben werden, indem die externen Methoden im Kontext beschrieben werden (ein Beispiel für In-Context-Learning) oder in das Modell hineintrainiert werden.^[10]

Supervised Fine-Tuning (SFT)

Ein Basismodell kann auf einem Datensatz von Inferenzaufgaben mit Beispiellösungen und Inferenzspuren feingetuned werden. Dieses Modell wäre dann in der Lage, Inferenzspuren für ein gegebenes Problem zu generieren.^[11]

Rejection Sampling Fine-tuning (RFT)

Da es teuer ist, wenn Menschen Inferenzspuren für einen SFT-Datensatz schreiben, gibt es Vorschläge für Methoden, SFT-Datensätze automatisch zu konstruieren. Beim Rejection Sampling Fine-tuning (RFT) werden so neue Inferenzspuren über eine Schleife gesammelt:^[12]

1. Stichprobe einer Aufgabeneingabe
2. Generierung vieler Inferenzspuren für die Eingabe
3. Verwendung eines Verifizierers zur Entfernung von Inferenzspuren mit falscher Endantwort
4. Für jede verbleibende Spur: Extraktion der darin erscheinenden Gleichungen, Deduplizierung der Spuren und Hinzufügung zum Datensatz

Reinforcement Learning (RL)

Ein vortrainiertes Sprachmodell kann durch RL weiter trainiert werden. In der RL-Formalisierung ist ein generatives Sprachmodell eine Policy π. Eine Eingabe, die eine zu lösende Aufgabe spezifiziert, ist ein Umgebungszustand s, und die Antwort des Sprachmodells auf die Eingabe ist eine Aktion a. Das Training eines Reasoning-Sprachmodells durch RL besteht dann aus der Konstruktion eines Belohnungsmodells zur Steuerung des RL-Prozesses. Intuitiv beschreibt ein Belohnungsmodell, wie wünschenswert/angemessen/gut die Antwort für die Eingabe ist.^[13]

Outcome Reward Model (ORM)

Das Outcome Reward Model oder outcome-supervised RM (ORM) ist ein "Belohnungsmodell", das die Belohnung eines Schrittes bestimmt, der durch die endgültige Antwort bestimmt wird. Sie werden auch "Verifizierer" genannt.^[14] Für Aufgaben mit einer leicht zu überprüfenden Antwort, wie Textaufgaben in der Mathematik, kann die Outcome-Belohnung einfach binär sein: 1, wenn die endgültige Antwort korrekt ist, und 0 andernfalls.

Process Reward Model (PRM)

Das Process Reward Model oder process-supervised RM (PRM) ist ein Belohnungsmodell, das die Belohnung eines Schrittes bestimmt, der durch die bisherigen Schritte bestimmt wird.^[14] Für eine partielle "Denkspur" können Menschen befragt werden, ob die bisherigen Schritte korrekt sind, unabhängig davon, ob die endgültige Antwort korrekt wäre. Dies kann dann als binäres Belohnungssignal verwendet werden.

Anwendungen bei der Inferenz

Test-Time Compute Scaling

Ein trainiertes ORM kann die beste Antwort auswählen. Die Policy würde mehrere Antworten generieren, und ein trainiertes ORM wählt aus. Dies wäre eine einfache Form des Test-Time Compute Scaling ("best-of-N").^[15]

Guided Tree Search

Ein trainiertes PRM kann verwendet werden, um das Reasoning durch ausufernde "Baumsuche" zu leiten. Das heißt, das Policy-Modell generiert mehrere mögliche nächste Inferenzschritte, und das PRM wählt den besten aus, und der Prozess wiederholt sich.^[16]

Bewertung und Benchmarks

Reasoning-Fähigkeiten von Sprachmodellen werden üblicherweise an Problemen mit eindeutigen Lösungen getestet, die kostengünstig überprüft werden können und menschlich generierte Lösungen beim Reasoning erfordern. Solche Problemlösungvorlagen sind in der Mathematik und bei kompetitiven Programmierungsaufgaben üblich. Beispielsweise:

GSM8K (Grade School Math): 8,5K sprachlich diverse Grundschul-Textaufgaben in Mathematik, die 2 bis 8 grundlegende arithmetische Operationen zur Lösung erfordern.^[17]

MMLU (Measuring Massive Multitask Language Understanding): 16.000 Multiple-Choice-Fragen aus 57 akademischen Fächern einschließlich Mathematik, Philosophie, Recht und Medizin.^[18]

GPQA (Google-Proof Q&A): 448 Multiple-Choice-Fragen, geschrieben von Domänenexperten in Biologie, Physik und Chemie, und erfordern PhD-Level-Experten zur Lösung.^[19]

HumanEval: Programmierproblemen, bei denen die Lösung immer eine Python-Funktion ist, oft nur wenige Zeilen lang.^[20]

Bewertungsmetriken

Die Benchmark-Werte sind von folgenden Arten:

pass@n: Das Modell erhält n Versuche zur Lösung jedes Problems. Wenn ein Versuch korrekt ist, erhält das Modell einen Punkt.
cons@n: Das Modell erhält n Versuche zur Lösung jedes Problems. Wenn die häufigste Antwort korrekt ist, erhält das Modell einen Punkt.

Geschichte

Reasoning Language Models wurden um 2024 von führenden KI-Unternehmen wie OpenAI, DeepSeek, Alibaba und Google auf den Markt gebracht. Zu den ersten wichtigen Modellen zählen:

OpenAI o1/o1-preview, nachfolgend o3 und o3-mini
DeepSeek R1
Qwen (Alibaba)
Google Gemini/Deep Research

Kennzeichnend sind bei den genannten Modellen die beschriebenen Trainingsmethoden wie „Knowledge Distillation“ und der Einsatz von Prozess- und Ergebnis-Belohnungsmodellen (PRM/ORM).

Prompt Engineering wurde in GPT-3 als "Few-Shot-Learning" entdeckt,^[21] das hat eine Periode der Forschung zur "Entlockung" weiterer Fähigkeiten vortrainierter Sprachmodelle eingeleitet. Es wurde dann festgestellt, dass ein Modell dazu gebracht werden konnte, CoT-Reasoning durchzuführen, was seine Leistung bei Reasoning-Aufgaben verbesserte.^[22]

Anwendungen

Reasoning Language Models werden eingesetzt in:

mathematischen Aufgaben (z. B. American Invitational Mathematics Examination / AIME)
Programmierwettbewerben
wissenschaftlicher Textgenerierung und Analyse
Retrieval-Augmented Generation (RAG)-Systemen
Medizin, Recht, komplexer Entscheidungsfindung

In Benchmarks wie AIME erzielen Reasoning-Modelle Erfolgsraten von 50 bis über 80 %, während ältere LLMs meist unter 30 % bleiben.

Herausforderungen

Aktuelle LRMs zeigen zwar bessere Leistungen in Reasoning-Benchmarks, aber ihre fundamentalen Fähigkeiten und Grenzen sind noch unzureichend verstanden. Das zeigten Untersuchungen mittels kontrollierbarer Puzzle-Umgebungen, die präzise Manipulation der Komplexität bei konsistenten logischen Strukturen ermöglichen:
Vollständiger Genauigkeitskollaps: LRMs versagen komplett bei Problemen jenseits bestimmter Komplexitätsschwellen
Paradoxes Skalierungsverhalten: Der Reasoning-Aufwand steigt zunächst mit der Problemkomplexität, nimmt dann aber wieder ab – trotz ausreichendem Token-Budget
Schwächen bei exakter Berechnung: LRMs verwenden keine expliziten Algorithmen und zeigen inkonsistentes Reasoning zwischen verschiedenen Puzzles
Strukturanalyse: Detaillierte Untersuchung der Reasoning-Spuren zeigt Muster in der Lösungsfindung und wirft grundlegende Fragen zu den wahren Reasoning-Fähigkeiten auf
Evaluationsproblematik: Bisherige Bewertungen fokussieren zu stark auf finale Antwortgenauigkeit und leiden unter Datenkontamination^[23]

Drei Performance-Bereiche im Vergleich zu Standard-LLMs

Niedrige Komplexität: Standard-Modelle übertreffen überraschenderweise LRMs
Mittlere Komplexität: LRMs zeigen Vorteile durch zusätzliches "Denken"
Hohe Komplexität: Beide Modelltypen versagen vollständig^[23]

Ausblicke

Die neuen Modellgenerationen (z. B. OpenAI o4-mini, DeepSeek R1, Google Gemini 2.0 Flash Thinking) lassen zwar erwarten, dass Reasoning und Erklärbarkeit bei KI weiter verbessert werden. Wichtige Forschungsfelder werden die Verbindung von Reasoning LLMs mit KI-Agentensystemen sein. Deren breite Einsatz in Agentensystemen oder Echtzeitumgebungen ist noch in Entwicklung.

Nachteile

Mangelnde Transparenz in den Prozessen, daher wenig Vertrauenswürdigkeit
Signifikant höherer Rechen- und Zeitaufwand bei der Generierung der Antworten
Bisherige Vorteile nur in klar verifizierbaren Lösungsbereichen (Mathematik, Logik)
Datenschutz und Urheberrechtsproblematik bleiben ungelöst
Bereichsübergreifende Zugriffe von Agentensystemen unterlaufen Sicherheitsschranken in Betriebssystemen^[24]

Deutsche Forschung

Das Deutsche Forschungszentrum für Künstliche Intelligenz (DFKI) beschäftigt sich intensiv mit Sprachtechnologien und natürlicher Sprachverarbeitung.^[25]^[26]
Die Ludwig-Maximilians-Universität München und die Technische Universität München forschen an Algorithmen für maschinelles Lernen und deren Anwendung auf Sprachmodelle.^[27]^[28]
Die Plattform Lernende Systeme veröffentlicht regelmäßig Berichte über große Sprachmodelle und deren gesellschaftliche Auswirkungen.^[29]

Weitere Quellen

(2023–2025)

https://www.uibk.ac.at/de/fsp-kultur/activities/blog/positionen-der-forschung/chatgpt_rath/ Auswirkungen von grossen Sprachmodellen auf Linguistik und Geisteswissenschaften. veröffentlicht: 18.04.2023
https://www.detectora.de/blog/ubersicht-sprachmodelle, Übersicht über die neuesten Entwicklungen bei Sprachmodellen inkl LRMs. veröffentlicht: Februar 2025
https://www.plattform-lernende-systeme.de/files/Downloads/Publikationen/AG1_WP_Grosse_Sprachmodelle_Forschung.pdf Überblick über die Technologie, ethischen Dimensionen und gesellschaftlichen Implikationen grosser Sprachmodelle. veröffentlicht: 2023
https://www.infosperber.ch/gesellschaft/technik/eine-schweizer-pionierleistung-fuer-ki-sprachmodelle/ offenes, mehrsprachiges Schweizer Sprachmodells durch die ETHZ und EPFL. veröffentlicht: 18.07.2025
https://www.researchgate.net/publication/379273866_Large_Language_Models_Are_Clinical_Reasoners_Reasoning-Aware_Diagnosis_Framework_with_Prompt-Generated_Rationales Studie, die einen "Reasoning-Aware" Ein Diagnose-Ansatz mit LLMs. veröffentlicht: März 2024
https://arxiv.org/abs/2501.11223 Analyse von RLM-Komponenten. veröffentlicht: 20.01.2025
https://sciencemediacenter.de/angebote/skalierung-und-reasoning-wie-geht-es-mit-sprachmodellen-weiter-25014 Weiterentwicklung von Sprachmodellen durch Skalierung und Reasoning-Ansätze. veröffentlicht: 03.02.2025
https://ista.ac.at/de/news/kausale-ki-die-zukunft-des-maschinellen-lernens/ , Institute of Science and Technology Austria, der sich mit kausaler KI befasst, einem grundlegenden Element des schlussfolgernden Denkens. veröffentlicht: 11.12.2023
https://journals.univie.ac.at/index.php/mp/article/view/9280, Nutzung von generativer KI im Schreibprozess, mit Bezug auf akademische Integrität und kritisches Denken. veröffentlicht: 2025

Weblinks

Awesome-LLM-Reasoning – Sammlung von Ressourcen zu Reasoning in großen Sprachmodellen
Reasoning Language Models: A Blueprint – Aktuelle Übersichtsarbeit (2025)
DFKI Speech and Language Technology – Deutsche Forschung zu Sprachtechnologien
mindsquare.de: Reasoning Models – Einführungmindsquare
506.ai: Reasoning-Modelle einfach erklärt506
Science Media Center: Skalierung und Reasoning – Sprachmodelle im Fokussciencemediacenter
Digitalzentrum Chemnitz: DeepSeek, o1 und Co.: Was steckt hinter Reasoning-Modellen?digitalzentrum-chemnitz
Biteno: Reasoning AI-Model – Intelligente KI-Lösungenbiteno
Chatopenai.de Reasoning-Modelle vs. GPT-Modelle: Ein Vergleichchatopenai
Arana-AI Glossar

Siehe auch

Einzelnachweise

↑ ^a ^b Qiao, Shuofei; Ou, Yixin; Zhang, Ningyu; Chen, Xiang; Yao, Yunzhi; Deng, Shumin; Tan, Chuanqi; Huang, Fei; Chen, Huajun (2023): Reasoning with Language Model Prompting: A Survey, arXiv:2212.09597
↑ Wei, Jason; Wang, Xuezhi; Schuurmans, Dale; Bosma, Maarten; Ichter, Brian; Xia, Fei; Chi, Ed H.; Le, Quoc V.; Zhou, Denny (2022): Chain-of-Thought Prompting Elicits Reasoning in Large Language Models, NeurIPS 2022, arXiv:2201.11903
↑ Narang, Sharan; Chowdhery, Aakanksha (2022): Pathways Language Model (PaLM): Scaling to 540 Billion Parameters for Breakthrough Performance, Google AI Blog
↑ Deutsches Forschungszentrum für Künstliche Intelligenz (DFKI) (2024): Arten von Prompting - Chain of Thought Prompting, Technische Hochschule Augsburg
↑ Yao, Shunyu; Yu, Dian; Zhao, Jeffrey; Shafran, Izhak; Griffiths, Thomas L.; Cao, Yuan; Narasimhan, Karthik (2023): Tree of Thoughts: Deliberate Problem Solving with Large Language Models, arXiv:2305.10601
↑ The Decoder (2023): Tree of Thoughts verbessert GPT-4s logische Fähigkeiten, Mai 2023
↑ Besta, Maciej; Blach, Nils; Kubicek, Ales; Gerstenberger, Robert; Podstawski, Michal; Gianinazzi, Lukas; Gajda, Joanna; Lehmann, Tomasz; Niewiadomski, Hubert; Nyczyk, Piotr; Hoefler, Torsten (2024): Graph of Thoughts: Solving Elaborate Problems with Large Language Models, AAAI 2024, arXiv:2308.09687
↑ Wang, Xuezhi; Wei, Jason; Schuurmans, Dale; Le, Quoc; Chi, Ed; Narang, Sharan; Chowdhery, Aakanksha; Zhou, Denny (2022): Self-Consistency Improves Chain of Thought Reasoning in Language Models, arXiv:2203.11171
↑ Lewis, Patrick; Perez, Ethan; Piktus, Aleksandra; Petroni, Fabio; Karpukhin, Vladimir; Goyal, Naman; Küttler, Heinrich; Lewis, Mike; Yih, Wen-tau; Rocktäschel, Tim; Riedel, Sebastian; Kiela, Douwe (2020): Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks, NeurIPS 2020, arXiv:2005.11401
↑ Schick, Timo; Dwivedi-Yu, Jane; Dessi, Roberto; Raileanu, Roberta; Lomeli, Maria; Hambro, Eric; Zettlemoyer, Luke; Cancedda, Nicola; Scialom, Thomas (2023): Toolformer: Language Models Can Teach Themselves to Use Tools, NeurIPS 2023, arXiv:2302.04761
↑ Uesato, Jonathan; Kushman, Nate; Kumar, Ramana; Song, Francis; Siegel, Noah; Wang, Lisa; Creswell, Antonia; Irving, Geoffrey; Higgins, Irina (2022): Solving math word problems with process- and outcome-based feedback, arXiv:2211.14275
↑ Yuan, Zheng; Yuan, Hongyi; Li, Chengpeng; Dong, Guanting; Lu, Keming; Tan, Chuanqi; Zhou, Chang; Zhou, Jingren (2023): Scaling Relationship on Learning Mathematical Reasoning with Large Language Models, arXiv:2308.01825
↑ Science Media Center Germany (2024): Skalierung und Reasoning: Wie geht es mit Sprachmodellen weiter?, Wissenschaftsjournalismus
↑ ^a ^b Lightman, Hunter; Kosaraju, Vineet; Burda, Yura; Edwards, Harri; Baker, Bowen; Lee, Teddy; Leike, Jan; Schulman, John; Sutskever, Ilya (2023): Let's Verify Step by Step, arXiv:2305.20050
↑ Snell, Charlie; Lee, Jaehoon; Xu, Kelvin; Kumar, Aviral (2024): Scaling LLM Test-Time Compute Optimally can be More Effective than Scaling Model Parameters, arXiv:2408.03314
↑ Ma, Qianli; Zhou, Haotian; Liu, Tingkai; Yuan, Jianbo; Liu, Pengfei; You, Yang; Yang, Hongxia (2023): Let's reward step by step: Step-Level reward model as the Navigators for Reasoning, arXiv:2310.10080
↑ Cobbe, Karl; Kosaraju, Vineet; Bavarian, Mohammad; Chen, Mark; Jun, Heewoo; Kaiser, Lukasz; Plappert, Matthias; Tworek, Jerry; Hilton, Jacob (2021): Training Verifiers to Solve Math Word Problems, arXiv:2110.14168
↑ Hendrycks, Dan; Burns, Collin; Basart, Steven; Zou, Andy; Mazeika, Mantas; Song, Dawn; Steinhardt, Jacob (2021): Measuring Massive Multitask Language Understanding, arXiv:2009.03300
↑ Rein, David; Hou, Betty Li; Stickland, Asa Cooper; Petty, Jackson; Pang, Richard Yuanzhe; Dirani, Julien; Michael, Julian; Bowman, Samuel R. (2023): GPQA: A Graduate-Level Google-Proof Q&A Benchmark, arXiv:2311.12022
↑ Chen, Mark; Tworek, Jerry; Jun, Heewoo; Yuan, Qiming; Pinto, Henrique Ponde de Oliveira; Kaplan, Jared; Edwards, Harri; Burda, Yuri; Joseph, Nicholas (2021): Evaluating Large Language Models Trained on Code, arXiv:2107.03374
↑ Brown, Tom B.; Mann, Benjamin; Ryder, Nick; Subbiah, Melanie; Kaplan, Jared; Dhariwal, Prafulla; Neelakantan, Arvind; Shyam, Pranav; Sastry, Girish; Askell, Amanda; Agarwal, Sandhini; Herbert-Voss, Ariel; Krueger, Gretchen; Henighan, Tom; Child, Rewon (2020): Language models are few-shot learners, NeurIPS 2020
↑ Talmeier, Martin (2025): Reasoning in Large Language Models: Die nächste KI-Evolution, KI.Logbuch
↑ ^a ^b Parshin Shojaee, Iman Mirzadeh, Keivan Alizadeh, Maxwell Horton, Samy Bengio, Mehrdad Farajtabar: The Illusion of Thinking: Understanding the Strengths and Limitations of Reasoning Models via the Lens of Problem Complexity. (PDF; 13,2 MB) In: cdn-apple.com. Abgerufen am 10. August 2025 (englisch).
↑ https://www.youtube.com/watch?v=jE_CNezjV7o
↑ DFKI NLP Group (2024): Natural Language Processing Research, Deutsches Forschungszentrum für Künstliche Intelligenz Berlin
↑ DFKI Speech and Language Technology Lab (2024): KI zur Analyse, Generierung und Interaktion von gesprochener und geschriebener Sprache, DFKI
↑ Ludwig-Maximilians-Universität München (2024): Forschung zur Künstlichen Intelligenz, LMU München
↑ Technische Universität München (2024): Künstliche Intelligenz und Maschinelles Lernen, TU München
↑ Plattform Lernende Systeme (2024): Große Sprachmodelle - Chancen und Herausforderungen für Forschung und Anwendung, Bundesministerium für Bildung und Forschung

[reasoning-survey-1] Qiao, Shuofei; Ou, Yixin; Zhang, Ningyu; Chen, Xiang; Yao, Yunzhi; Deng, Shumin; Tan, Chuanqi; Huang, Fei; Chen, Huajun (2023): Reasoning with Language Model Prompting: A Survey, arXiv:2212.09597

[wei-cot-2] Wei, Jason; Wang, Xuezhi; Schuurmans, Dale; Bosma, Maarten; Ichter, Brian; Xia, Fei; Chi, Ed H.; Le, Quoc V.; Zhou, Denny (2022): Chain-of-Thought Prompting Elicits Reasoning in Large Language Models, NeurIPS 2022, arXiv:2201.11903

[palm-blog-3] Narang, Sharan; Chowdhery, Aakanksha (2022): Pathways Language Model (PaLM): Scaling to 540 Billion Parameters for Breakthrough Performance, Google AI Blog

[dfki-prompting-4] Deutsches Forschungszentrum für Künstliche Intelligenz (DFKI) (2024): Arten von Prompting - Chain of Thought Prompting, Technische Hochschule Augsburg

[tot-5] Yao, Shunyu; Yu, Dian; Zhao, Jeffrey; Shafran, Izhak; Griffiths, Thomas L.; Cao, Yuan; Narasimhan, Karthik (2023): Tree of Thoughts: Deliberate Problem Solving with Large Language Models, arXiv:2305.10601

[tot-decoder-6] The Decoder (2023): Tree of Thoughts verbessert GPT-4s logische Fähigkeiten, Mai 2023

[got-7] Besta, Maciej; Blach, Nils; Kubicek, Ales; Gerstenberger, Robert; Podstawski, Michal; Gianinazzi, Lukas; Gajda, Joanna; Lehmann, Tomasz; Niewiadomski, Hubert; Nyczyk, Piotr; Hoefler, Torsten (2024): Graph of Thoughts: Solving Elaborate Problems with Large Language Models, AAAI 2024, arXiv:2308.09687

[self-consistency-8] Wang, Xuezhi; Wei, Jason; Schuurmans, Dale; Le, Quoc; Chi, Ed; Narang, Sharan; Chowdhery, Aakanksha; Zhou, Denny (2022): Self-Consistency Improves Chain of Thought Reasoning in Language Models, arXiv:2203.11171

[rag-9] Lewis, Patrick; Perez, Ethan; Piktus, Aleksandra; Petroni, Fabio; Karpukhin, Vladimir; Goyal, Naman; Küttler, Heinrich; Lewis, Mike; Yih, Wen-tau; Rocktäschel, Tim; Riedel, Sebastian; Kiela, Douwe (2020): Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks, NeurIPS 2020, arXiv:2005.11401

[toolformer-10] Schick, Timo; Dwivedi-Yu, Jane; Dessi, Roberto; Raileanu, Roberta; Lomeli, Maria; Hambro, Eric; Zettlemoyer, Luke; Cancedda, Nicola; Scialom, Thomas (2023): Toolformer: Language Models Can Teach Themselves to Use Tools, NeurIPS 2023, arXiv:2302.04761

[sft-math-11] Uesato, Jonathan; Kushman, Nate; Kumar, Ramana; Song, Francis; Siegel, Noah; Wang, Lisa; Creswell, Antonia; Irving, Geoffrey; Higgins, Irina (2022): Solving math word problems with process- and outcome-based feedback, arXiv:2211.14275

[rft-12] Yuan, Zheng; Yuan, Hongyi; Li, Chengpeng; Dong, Guanting; Lu, Keming; Tan, Chuanqi; Zhou, Chang; Zhou, Jingren (2023): Scaling Relationship on Learning Mathematical Reasoning with Large Language Models, arXiv:2308.01825

[smc-reasoning-13] Science Media Center Germany (2024): Skalierung und Reasoning: Wie geht es mit Sprachmodellen weiter?, Wissenschaftsjournalismus

[prm-orm-14] Lightman, Hunter; Kosaraju, Vineet; Burda, Yura; Edwards, Harri; Baker, Bowen; Lee, Teddy; Leike, Jan; Schulman, John; Sutskever, Ilya (2023): Let's Verify Step by Step, arXiv:2305.20050

[test-time-compute-15] Snell, Charlie; Lee, Jaehoon; Xu, Kelvin; Kumar, Aviral (2024): Scaling LLM Test-Time Compute Optimally can be More Effective than Scaling Model Parameters, arXiv:2408.03314

[step-reward-16] Ma, Qianli; Zhou, Haotian; Liu, Tingkai; Yuan, Jianbo; Liu, Pengfei; You, Yang; Yang, Hongxia (2023): Let's reward step by step: Step-Level reward model as the Navigators for Reasoning, arXiv:2310.10080

[gsm8k-17] Cobbe, Karl; Kosaraju, Vineet; Bavarian, Mohammad; Chen, Mark; Jun, Heewoo; Kaiser, Lukasz; Plappert, Matthias; Tworek, Jerry; Hilton, Jacob (2021): Training Verifiers to Solve Math Word Problems, arXiv:2110.14168

[mmlu-18] Hendrycks, Dan; Burns, Collin; Basart, Steven; Zou, Andy; Mazeika, Mantas; Song, Dawn; Steinhardt, Jacob (2021): Measuring Massive Multitask Language Understanding, arXiv:2009.03300

[gpqa-19] Rein, David; Hou, Betty Li; Stickland, Asa Cooper; Petty, Jackson; Pang, Richard Yuanzhe; Dirani, Julien; Michael, Julian; Bowman, Samuel R. (2023): GPQA: A Graduate-Level Google-Proof Q&A Benchmark, arXiv:2311.12022

[humaneval-20] Chen, Mark; Tworek, Jerry; Jun, Heewoo; Yuan, Qiming; Pinto, Henrique Ponde de Oliveira; Kaplan, Jared; Edwards, Harri; Burda, Yuri; Joseph, Nicholas (2021): Evaluating Large Language Models Trained on Code, arXiv:2107.03374

[gpt3-21] Brown, Tom B.; Mann, Benjamin; Ryder, Nick; Subbiah, Melanie; Kaplan, Jared; Dhariwal, Prafulla; Neelakantan, Arvind; Shyam, Pranav; Sastry, Girish; Askell, Amanda; Agarwal, Sandhini; Herbert-Voss, Ariel; Krueger, Gretchen; Henighan, Tom; Child, Rewon (2020): Language models are few-shot learners, NeurIPS 2020

[reasoning-evolution-22] Talmeier, Martin (2025): Reasoning in Large Language Models: Die nächste KI-Evolution, KI.Logbuch

[the_illusion_of_thinking-23] Parshin Shojaee, Iman Mirzadeh, Keivan Alizadeh, Maxwell Horton, Samy Bengio, Mehrdad Farajtabar: The Illusion of Thinking: Understanding the Strengths and Limitations of Reasoning Models via the Lens of Problem Complexity. (PDF; 13,2 MB) In: cdn-apple.com. Abgerufen am 10. August 2025 (englisch).

[24] ttps://www.youtube.com/watch?v=jE_CNezjV7o

[dfki-nlp-25] DFKI NLP Group (2024): Natural Language Processing Research, Deutsches Forschungszentrum für Künstliche Intelligenz Berlin

[dfki-slt-26] DFKI Speech and Language Technology Lab (2024): KI zur Analyse, Generierung und Interaktion von gesprochener und geschriebener Sprache, DFKI

[lmu-ki-27] Ludwig-Maximilians-Universität München (2024): Forschung zur Künstlichen Intelligenz, LMU München

[tum-ki-28] Technische Universität München (2024): Künstliche Intelligenz und Maschinelles Lernen, TU München

[pls-sprachmodelle-29] Plattform Lernende Systeme (2024): Große Sprachmodelle - Chancen und Herausforderungen für Forschung und Anwendung, Bundesministerium für Bildung und Forschung

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]

[22]

[23]

[24]

[25]

[26]

[27]

[28]

[29]