Normierung (Psychologische Diagnostik)

Normierung bezeichnet in der Psychologischen Diagnostik den Prozess, bei dem eine Umrechnungsskala von Rohwerten zu Normwerten erstellt wird, um die Vergleichbarkeit eines individuellen Testergebnisses mit einer repräsentativen Vergleichsgruppe zu gewährleisten.^[1]^[2]

Dies bedeutet, dass die Testergebnisse einer einzelnen Person mit den Ergebnissen einer größeren, repräsentativen Gruppe verglichen werden, um die Leistung in einen breiteren Kontext einzuordnen. Beispielsweise können die Ergebnisse eines Intelligenztests einer bestimmten Personengruppe, wie etwa der Abiturienten, mit der in der Normtabelle abgebildeten Intelligenzverteilung dieser Gruppe verglichen und entsprechend interpretiert werden.^[1]^[2]

Grundsätzlich geht man in der Normierung von der Annahme aus, dass psychologische Merkmale, wie Intelligenz oder andere Eigenschaften, in der Allgemeinbevölkerung einer Normalverteilung folgen. Das bedeutet, dass die Mehrheit der Testpersonen im mittleren Bereich der Skala liegen, während die extremen Ausprägungen eher selten sind. Die Abweichung eines individuellen Ergebnisses vom Mittelwert der Referenzgruppe ist dabei ein wichtiges Kriterium für die Interpretation des Ergebnisses. Diese Abweichungen werden oft in Kategorien wie „überdurchschnittlich“, „durchschnittlich“ oder „unterdurchschnittlich“ eingeordnet, wobei die genaue Bewertung je nach dem spezifischen Merkmal variiert (z. B. bei Intelligenztests im Vergleich zu Tests für Aggressivität).^[1]^[2]

In der Regel umfasst der „Durchschnittsbereich“ die Werte innerhalb einer Standardabweichung um den Mittelwert der Vergleichsgruppe. Diese Grenze hat jedoch keine tiefere psychologische Begründung. In einigen Fällen werden deshalb auch größere Abweichungen von zwei oder drei Standardabweichungen als Indikatoren für besonders extreme Ausprägungen betrachtet. Die genaue Festlegung von Grenzwerten hängt jedoch oft von der jeweiligen Fragestellung und der spezifischen Anwendung des Tests ab. Beispielsweise wird im Rahmen der Validierung eines Tests präzise festgelegt, bei welchem Wert eine diagnostische Entscheidung getroffen werden muss – etwa, ab welchem Konzentrationswert die Fahrtauglichkeit einer Person aufgrund eines erhöhten Unfallrisikos verneint werden sollte, um die Sicherheit auf der Straße zu gewährleisten.^[1]^[2]

Die Durchführung einer Normierung ist ein wesentliches Gütekriterium für ein ausgereiftes Testverfahren und seine praktische Brauchbarkeit.^[3] Bei Papier-Bleistift-Tests muss die Normierungstafel (Umrechnung Rohwert zu Normwert im Test-Handbuch verfügbar sein. Bei computerunterstützten Verfahren oder Auswerteprogrammen, wo eine automatische Umrechnung erfolgt, müssen mindestens Angaben zur Stichprobe (und der Unterteilung der Norm z. B. nach Alter, Geschlecht u. a.), Erhebungsmethodik und dem Erhebungszeitraum veröffentlicht sein (vgl. z. B. DIN 33430). Hier wird auf die direkte Verfügbarkeit der Normtabellen häufig aus Gründen des Test- bzw. Investitionsschutzes verzichtet, da die Erhebung repräsentativer Normierungsstichproben meist der teuerste Einzelposten einer Testentwicklung ist und so ein Nachbau durch Dritte verhindert werden soll.

Für jeden psychologischen Test ist anzugeben, für welche Zielgruppe und welche diagnostische Entscheidung dieser Test ein gültiges Messinstrument sein soll und durch empirische Ergebnisse im Test-Manual zu belegen. Art, Aktualität und Güte der Normierung sind mitbestimmend für die sogenannte Utilität (Nützlichkeit) des Testverfahrens.

Normierung als Gütekriterium

Die wissenschaftliche Bedeutung und der praktische Gebrauchswert eines Testverfahrens werden an sogenannten Gütekriterien gemessen. Die Verfügbarkeit von Normentafeln ist solch ein Gütekriterium. Die Normierung wird auf der Basis von Testdurchführungen an einer repräsentativen Stichprobe vorgenommen und statistisch aufgearbeitet. Dies benötigt eine längere Zeit der Erprobung und Ausreifung, bis das Testverfahren den an es zu stellenden Anforderungen genügt. Zahlreiche der gehandelten Tests kranken am Fehlen dieses Gütekriteriums und sind insofern nur sehr begrenzt aussagekräftig und einsetzbar:

Tests erbringen als unmittelbares Ergebnis zunächst lediglich Rohwerte. Diese lassen sich nur über einen Vergleich beurteilen. So ist zwar bei der Auswertung eines 100-Meter-Laufs feststellbar, dass eine Zeit von 11,6 Sekunden erzielt und diese eine höhere Leistung darstellt als 12,0 Sekunden. Ohne einen Vergleichsmaßstab ist aber nicht zu beurteilen, ob dieses Ergebnis für die entsprechende Vergleichsgruppe (Kinder, Männer, Frauen, Hochleistungssportler, Behinderte) ein herausragendes, ein schwaches oder ein durchschnittliches Ergebnis darstellt. Ohne eine Vergleichsmöglichkeit mit einer an einer größeren Vergleichsgruppe gewonnenen Normentafel eignen sich die Ergebnisse nur für den „Hausgebrauch“, etwa innerhalb einer Schulklasse oder einer Vereinsabteilung. Eine darüber hinausgehende Bewertung der Rohscores bedarf eines Maßstabs, an dem sich ablesen lässt, was als „durchschnittlich“, „überdurchschnittlich“ oder unter dem Durchschnitt der betreffenden Population liegend zu gelten hat.

Die Normierung und die aus ihr hervorgegangenen Normentabellen stellen daher eine wichtige Voraussetzung dar, um ein spezielles Testergebnis nach der erfolgten Auswertung auch interpretieren und bewerten zu können.^[4]

Normierungsbeispiele

Der Progressive Matrizentest von John C. Raven ist ein sprachfreies Testverfahren zur Messung der Intelligenz. Es arbeitet mit der Methode Multiple Choice und wurde, -zunächst im Dienst der britischen Armee entwickelt-, in drei unterschiedlichen Formen für unterschiedliche Intelligenz-Levels publiziert.^[5] Die Auswertung der Rohscores erfolgt über Folien. Für jede der Fassungen mussten außer der Normierung für das Ausgangsland Großbritannien speziell für Deutschland gültige Normentabellen erstellt werden.^[6] Da die Matrizen von Raven in die Öffentlichkeit gerieten und missbräuchlich auch als Übungsmaterial genutzt wurden, mussten mehrfach Parallelversionen gestaltet und angepasste Normierungen vorgenommen werden.

Der Wiener Koordinationsparcours von Siegbert A. Warwitz ist ein ausgereiftes Prüfverfahren zur Erfassung der Bewegungskoordination. Für ihn wurden zunächst aus einer repräsentativen Stichprobe Normentafeln für beide Geschlechter der 17- bis 21-jährigen Gymnasialschüler erarbeitet.^[7] Speziell experimentalpsychologisch ausgebildete Studierende erweiterten nach und nach in zusätzlichen Testabnahmen die Tabellen für die Altersstufen ab dem zwölften Lebensjahr sowie für die speziellen Populationen der männlichen und weiblichen Sportstudenten.^[8] Die Normierungen wurden zehn Jahre später nochmals mit einer Population von N = 2778 wiederholt und auf dem Signifikanzniveau von p = 1 % in ihren Resultaten bestätigt. Der WKP kommt wegen der objektiven Vergleichbarkeit der Leistungen heute vor allem bei den Eignungsprüfungen für das Sportstudium an Universitäten sowie bei Prüfungen zur Polizei- und Militärlaufbahn zum Einsatz. Die differenzierten Normentafeln lassen neben dem überregionalen auch einen Generationen-Vergleich zu. Die der einzelnen Testleistung zugeordneten Prozentränge ermöglichen dabei eine Leistungszuordnung innerhalb einer fünfstufigen Bewertungsskala von „unzureichend“ über „mängelbehaftet“, „durchschnittlich“ und „gut“ bis „hervorragend“.^[9]

Kulturabhängigkeit der Normierung

Neben den Faktoren Alter, Geschlecht etc. muss ein psychodiagnostisches Instrument auch für unterschiedliche Kulturen genormt werden. Ein Test, der in Mitteleuropa zutreffend das Konstrukt „soziale Unterwürfigkeit“ misst, kann bei der Anwendung in Fernost unbrauchbare Indizes ausgeben, da viele soziale Interaktionen aus dem asiatischen Raum in Zentraleuropa als übertriebene Höflichkeit oder gar Unterwerfungsgesten gedeutet würden. Weitere Dimensionen, die in den Normierungsprozess einbezogen werden müssen, sind denkbar.

In der Entstehungsphase des Testverfahrens bedient sich der Forscher typischerweise eines großen Itempools, also einer umfassenden Sammlung eventuell passender Fragestellungen („Items“ genannt), von denen er einige für den ersten Prototyp auswählen wird. Daraufhin wird die repräsentative Versuchsgruppe mit dem Test konfrontiert. Wird (in diesem Falle) die Gaußsche Normalverteilung nicht erreicht, sondern sprechen die Ergebnisse eher für einen Deckeneffekt, ist eine Änderung der Items aus dem Pool hin zu anspruchsvolleren Problemstellungen nötig. Dieses Verfahren – die Normierung – muss eventuell mehrfach wiederholt werden.

Einfluss der Zeit auf Normierungsprozesse

Psychodiagnostische Messinstrumente sind nicht ohne weiteres über einen unbegrenzten Zeitraum anwendbar. Insbesondere die oben erwähnten Intelligenztests müssen regelmäßig überprüft und gegebenenfalls neu normiert werden. Ein Grund dafür ist der häufig zitierte sogenannte Flynn-Effekt.

Einfluss von gesellschaftlichen Änderungen auf Normierungsprozesse

Insbesondere psychologische Tests, die nicht den projektiven, sondern den objektiven (Leistungs)tests zugeordnet werden, müssen regelmäßig „gewartet“ werden. So ist die Frage in einem Wissenstest nach Politikernamen aus dem Zweiten Weltkrieg in den 1950er Jahren sicherlich eine als einfach einzustufende Frage. Würde sie dagegen heute gestellt, wäre sie wegen des zeitlichen Zwischenraums bereits schwieriger zu beantworten. Der betreffende Test würde also anteilig komplizierter und das Maximum der Verteilungsfunktion würde geringfügig zu kleineren Werten verschoben. Gesellschaftlicher Wandel kann also eine „Neujustierung“ eines psychologischen Verfahrens erzwingen.

Einfluss der internationalen Verbreitung von Tests

Ausgereifte Testverfahren, die den hohen Ansprüchen möglichst zahlreicher Gütekriterien entsprechen, werden über die Scientific Community in der ganzen Fachwelt populär. Dies bedeutet für die Normierung zusätzlichen Aufwand:

Bereits kleine Veränderungen an der Frage- bzw. Aufgabenstellung können die Ergebnisse erheblich verzerren. Diese Tatsache wird insbesondere bei sprachbasierten Tests und der Notwendigkeit einer Übersetzung in eine andere Sprache problematisch und kann eine völlige Neunormierung nötig machen.

Literatur

R. Horn (Hrsg.): Standard Progressive Matrices (SPM). (Deutsche Bearbeitung und Normierung nach J. C. Raven.) 2. Auflage. Pearson Assessment, Frankfurt 2009.
H. W. Krohne & M. Hock: Psychologische Diagnostik – Intelligenztests. Kohlhammer, Stuttgart 2007.
Gustav A. Lienert, Ulrich Raatz: Testaufbau und Testanalyse. 6. Auflage. Beltz, Weinheim 1998, ISBN 3-621-27424-3
J. Raven, John C. Raven, J. H. Court: Raven’s Progressive Matrices und Vocabulary Scales. Grundlagenmanual. Pearson Assessment, Frankfurt 2003
N. Schirach: Die Erstellung von Normentabellen zu einer sportmotorischen Testbatterie (Wiener Koordinationsparcours). Wiss. Staatsexamensarbeit GHS, Karlsruhe 1979
Siegbert Warwitz: Der Wiener Koordinationsparcours. In: Siegbert Warwitz: Das sportwissenschaftliche Experiment. Planung-Durchführung-Auswertung-Deutung. Verlag Hofmann, Schorndorf 1976, S. 48–62
Siegbert Warwitz: Normentafeln zum Wiener Koordinationsparcours (WKP). In: Sportunterricht (Lehrhilfen) 4 (1982) S. 59–64

Einzelnachweise

↑ ^a ^b ^c ^d Psychologische Diagnostik. Springer Berlin Heidelberg, Berlin, Heidelberg 2021, ISBN 978-3-662-61642-0, doi:10.1007/978-3-662-61643-7 (springer.com).
↑ ^a ^b ^c ^d Heinz Walter Krohne, Michael Hock: Psychologische Diagnostik: Grundlagen und Anwendungsfelder. 2. Auflage. W. Kohlhammer GmbH, Stuttgart 2015, ISBN 978-3-17-025256-1, doi:10.17433/978-3-17-025256-1 (kohlhammer.de).
↑ Gustav A. Lienert, Ulrich Raatz: Testaufbau und Testanalyse. 6. Auflage. Beltz, Weinheim 1998
↑ Siegbert Warwitz: Das sportwissenschaftliche Experiment. Planung-Durchführung-Auswertung-Deutung. Verlag Hofmann, Schorndorf 1976
↑ J. Raven, J. C. Raven, J. H. Court: Raven’s Progressive Matrices und Vocabulary Scales. Grundlagenmanual. Pearson Assessment, Frankfurt 2003
↑ R. Horn (Hrsg.): Standard Progressive Matrices (SPM). (Deutsche Bearbeitung und Normierung nach J. C. Raven.) 2. Auflage. Pearson Assessment, Frankfurt 2009
↑ Siegbert Warwitz: Normentafeln zum Wiener Koordinationsparcours (WKP). In: Sportunterricht (Lehrhilfen) 4 (1982) S. 59–64
↑ N. Schirach: Die Erstellung von Normentabellen zu einer sportmotorischen Testbatterie (Wiener Koordinationsparcours). Wiss. Staatsexamensarbeit GHS, Karlsruhe 1979
↑ Siegbert Warwitz: Der Wiener Koordinationsparcours. In: Siegbert Warwitz: Das sportwissenschaftliche Experiment. Planung-Durchführung-Auswertung-Deutung. Verlag Hofmann, Schorndorf 1976, S. 48–62

[:0-1] Psychologische Diagnostik. Springer Berlin Heidelberg, Berlin, Heidelberg 2021, ISBN 978-3-662-61642-0, doi:10.1007/978-3-662-61643-7 (springer.com).

[:1-2] Heinz Walter Krohne, Michael Hock: Psychologische Diagnostik: Grundlagen und Anwendungsfelder. 2. Auflage. W. Kohlhammer GmbH, Stuttgart 2015, ISBN 978-3-17-025256-1, doi:10.17433/978-3-17-025256-1 (kohlhammer.de).

[3] Gustav A. Lienert, Ulrich Raatz: Testaufbau und Testanalyse. 6. Auflage. Beltz, Weinheim 1998

[4] Siegbert Warwitz: Das sportwissenschaftliche Experiment. Planung-Durchführung-Auswertung-Deutung. Verlag Hofmann, Schorndorf 1976

[5] J. Raven, J. C. Raven, J. H. Court: Raven’s Progressive Matrices und Vocabulary Scales. Grundlagenmanual. Pearson Assessment, Frankfurt 2003

[6] R. Horn (Hrsg.): Standard Progressive Matrices (SPM). (Deutsche Bearbeitung und Normierung nach J. C. Raven.) 2. Auflage. Pearson Assessment, Frankfurt 2009

[7] Siegbert Warwitz: Normentafeln zum Wiener Koordinationsparcours (WKP). In: Sportunterricht (Lehrhilfen) 4 (1982) S. 59–64

[8] N. Schirach: Die Erstellung von Normentabellen zu einer sportmotorischen Testbatterie (Wiener Koordinationsparcours). Wiss. Staatsexamensarbeit GHS, Karlsruhe 1979

[9] Siegbert Warwitz: Der Wiener Koordinationsparcours. In: Siegbert Warwitz: Das sportwissenschaftliche Experiment. Planung-Durchführung-Auswertung-Deutung. Verlag Hofmann, Schorndorf 1976, S. 48–62

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]