Tests (psychologische) Testgütekriterien

Ein psychologischer Test ist ein wissenschaftliches Routineverfahren (standardisiert, möglichst unabhängig vom Untersucher) zur Untersuchung eines oder mehrerer empirisch abgrenzbarer Persönlichkeitsmerkmale mit dem Ziel einer möglichst quantitativen Aussage über den relativen Grad der individuellen Merkmalsausprägung. Man kann Test nach der Zielvorgabe in Leistungstests, Entwicklungstests, Intelligenztests, Persönlichkeitstests, Eignungstests, Einstellungs- und Interessentests, Tests zum vorliegen bestimmter psychischer Störungen wie Depression, Demenz, etc, unterscheiden, oder dem Verfahren z.B. in projektive Verfahren, Eigen oder Fremdbeurteilung, Formdeuteverfahren, sprachfrei oder sprachgebunden, Einzel- oder. Gruppentests etc. unterscheiden. Bei Anwendung des Tests muss bekannt sein, ob der Test auf die spezielle Personengruppe geeicht wurde, bzw. eine Verallgemeinerung der Testkriterien zulässig ist. Die Testanweisungen sind zu beachten.

Objektivität: ist ein Maß für die Durchführer-, Auswerter- u. Interpetationsunabhängigkeit. Gemessen wird die Objektivität, indem die Ergebnisse verschiedener Auswerter korreliert werden. Wenn ein Test standardisiert wurde, d.h. Fragen und Antwortkategorien vorgegeben sind, so ist er jederzeit wiederholbar und objektiv (d.h. auswerterunabhängig).

Reliabilität: ist ein Maß für die Genauigkeit eines Testes. Reliabilität bezieht sich auf den unsystematischen Fehler. Zuverlässig (reliabel) ist ein Test dann, wenn eine Testperson immer wieder das gleiche Ergebnis zeigt (Retestreliabilität), oder wenn ein Proband in verschiedenen Tests bzw. Testteilen ein gleiches Ergebnis bekommt (Paralleltest, Splithalf, innere Konsistenz). Verbessern kann man die Reliabiltität, indem man den Test verlängert (mehr Items hinzunimmt), die das gleiche messen. Standardmessfehler: entspricht dem „relativen Messfehler“ bei physikalischen Messinstrumenten. Der „absolute Messfehler“ lässt sich aus der Reliabilität berechnen und wird in Beziehung zum Messbereich des Instrumentes (Varianz des Merkmals) gesetzt. Der Standardmessfehler wird kleiner, je höher die Reliabilität ist.

Validität: Gültig (valide) ist ein Test dann, wenn er das misst, was er vorgibt zu messen. Die Validität bezieht sich auf den systematischen Fehler. Quantifiziert wird die Validität durch die Korrelation mit einem Außenkriterium. Man kann die Validität verbessern, indem man die Objektivität oder Reliabilität verbessert. Außerdem verbessert sich die Validität wenn die Genauigkeit des Außenkriteriums verbessert wird. Die Validität ist am schwersten zu realisieren, da man kaum nachweisen kann, ob ein Test z.B. auch wirklich Angst erfasst. Beziehung der Testgütetegkiterien Die Valididät eines Tests hängt von der Reliabilität des Tests, die Reliabilität wiederum von der Objektivität des Tests ab. Die Validität eines Tests kann nicht größer werden als dessen Reliabilität, die wiederum nicht größer sein kann als dessen Objektivität. (O > R > V) Testnormierung Die Interpetation eines Testrohwertes von einem 20 jährigen Mann hängt von den Testergebnissen einer Vergleichspopulation (Alter, Geschlecht homogen) ab. Es wird zunächst beurteilt, ob ein Testergebnis über- od. unterdurchschnittlich ausgefallen ist. Hierzu benötigt man selbstverständlich den Mittelwert einer Normstichprobe (20 jährige Männer). Soll in einem weiteren Schritt ausgesagt werden, ob ein Testergebnis sehr weit über oder unterdurchschnittlich ist, muss man die Standardabweichung des Merkmals (ein Maß für die Streuung) der Normstichprobe kennen. Man kann nun die Abweichung vom Mittelwert durch die Standardabweichung dividieren und aussagen, wie viel Standardabweichungen ein individuelles Testergebnis vom Mittelwert der Normpopulation abweicht. Um einen Test zu normieren, benötigt man also die Verteilung (Mittelwert, Standardabweichung) des Merkmals in einer Normstichprobe. Aus den Abweichungswerten lassen sich Prozentränge berechnen. Prozentränge sagen aus, wie viel Prozent der Vergleichsstichprobe einen niedrigeren Testwert haben. Ein Standardabweichungswert von 0 (Testwert = Mittelwert der Normpopulation) entspricht einem Prozentrang von 50. Ein Standardabweichungswert von -2 (Testwert liegt 2 Standardabweichungen unterhalb des Mittelwertes) entspricht einem Prozentrang von 2. Ein Standardabweichungswert von +2 (Testwert liegt 2 Standardabweichungen oberhalb des Mittelwertes) entspricht einem Prozentrang von 98 (100-2) Ein Standardabweichungswert von -1 (Testwert liegt 1 Standardabweichung unterhalb des Mittelwertes) entspricht einem Prozentrang von 16 Ein Standardabweichungswert von +1 (Testwert liegt 1 Standardabweichung oberhalb des Mittelwertes) entspricht einem Prozentrang von 84 (100-16)

Wohl berechtigterweise wird in der testbasierten diagnostischen Praxis des Öfteren der Verdacht geäußert, einzelne Items von dabei eingesetzten intelligenzdiagnostischen Verfahren seien subkulturell unfair. Die Ausgangsposition für einen empirischen Nachweis dessen war bislang allerdings problematisch: innerhalb des Rahmens probabilistischer Testmodelle (Prüfung auf Rasch-Skalierung) sind dazu ausgesprochen große Stichproben – wie sie selten vorhanden sind – nötig; zudem ist eine gezielte Überprüfung itemspezifischer Hypothesen auch dann nur eingeschränkt möglich. Eine neue Klasse von verteilungsfreien exakten Rasch-Modelltests, deren Software-Implementierung nun vorliegt (T-Rasch; Ponocny & Ponocny-Seliger, 1999), ermöglicht erstmals die Identifizierung einzelner nicht modellkonformer (z. B. subkulturell unfairer) Items auch anhand von kleinen Stichproben (n<100). Diese Vorgangsweise wird anhand von mehreren Testskalen für kristallisierte Intelligenz sensu Cattell (´Wortschatz-Intelligenztests´: MWT-A, MWT-B und WST) demonstriert. Der Nachweis von darin als subkulturell unfair verdächtigten Items (medizinische Fachtermini sowie Fremdwörter mit lateinischer Wurzel) erfolgte über ein quasi-experimentelles Design von zwei unabhängigen und geschlechtsproportionierten Stichproben mit jeweils n=72 erstsemestrigen Studierenden (Medizin-Studium vs. andere Studienrichtungen sowie mit Latein- vs. ohne Lateinkenntnisse). Was Leistungstests betrifft, wird das Problem in Praxis und Wissenschaft mit dem Argument zumeist ignoriert, Verfälschen zum Guten ist nicht möglich, Verfälschen zum Schlechten für die Testperson nicht zweckmäßig - nur wenige Forscher widmen sich der im Zusammenhang mit Versicherungsansprüchen relevanten Simulantendiagnostik.

Viele Tests sind willentlich relativ einfach zu verfälschen und auch für Laien gut durchschaubar. Zitat: „In der Psychopathologie muss die Äußerung eines Patienten gegen den Eindruck des Untersuchers abgewogen werden. Das soll nicht heißen, dass man dem Patienten nicht traut, sondern es soll nur heißen, dass man auf alles zu achten hat, nicht nur auf den Inhalt der sprachlichen Äußerungen. Das unterscheidet die Untersuchung der Psychopathologie vom Ausfüllen lassen eines Interviewzettels“. ( Psychopathologie Merkmale psychischer Krankheitsbilder und klinische Neurowissenschaft Springer 2007 Kap 1, Seite 10, DOI 10.1007/978-3-540-37254-7) Hinzu kommt der nicht zu unterschätzende Übungseffekt »Jede Tätigkeit verbessert sich durch Üben«. Das gilt auch für psychologische Tests, für die Behandler wie Anwälte mit berechtigter Erfolgsaussicht coachen können. Alleine die Übung durch vielfältige Untersuchungen fördert den Erfolg zum gewünschten Ergebnis zu kommen. Psychologische Tests sind teuer und müssen auch vom Untersucher gelernt werden. Das Repertoire einzelner Untersucher aber auch von Kliniken ist begrenzt. In dem Referat auf dem Psychologen Kongress in Jena 2000 (Kubinger) werden nun erstens jüngst durchgeführte Untersuchungen bzw. Experimente zum Thema Verfälschbarkeit von Persönlichkeitsfragebogen vorgestellt. Problematisch ist derzeit immer noch der Einsatz psychologischer Tests bei sozialmedizinischen Gutachten oder allgemein bei versicherungsrechtlichen Fragestellungen, eine optimal motivierte Versuchsperson, die der Test eigentlich erwartet, würde hier geradezu den eigenen Interessen zuwider handeln. In einer holländischen Studie wurden Patienten mit einem Schleudertrauma einem neu entwickelten Test auf Simulation unterzogen. Bei diesem Test der vordergründig Gedächtnis und Konzentration testet, schneiden Hirnverletzte Patienten und Patienten mit nachgewiesenen organischen Gedächtnisstörungen in der Regel gut ab. Sie haben keine Schwierigkeiten die Aufgaben zu bewältigen. 61% der Schleudertraumapatienten zeigte in diesem Test eine weit unterdurchschnittliche Leistung als Hinweis auf eine Simulation oder eine wenig motivierte Mitarbeit. Besonders traf dies auf Patienten zu, bei denen noch Versicherungsansprüche zu klären waren. Ein wesentlicher Teil der Versuchspersonen schnitt dabei deutlich schlechter in diesem Test wie auch in gleichzeitig anderen applizierten Tests ab, als es den Fähigkeiten der Versuchspersonen entsprochen hätte. Es wurde ein niedriger Cut off verwendet, wäre ein etwas höherer cut off verwendet worden, wie er bei der Untersuchung von Hirnverletzten nach dem Test gerechtfertigt wäre, wäre der Prozentsatz noch höher ausgefallen. Ob es sich hier um eine bewusste Simulation handelte, oder dieser Vorgang bei zumindest einem Teil der Betroffenen unbewusst war, lassen die Autoren der Studie offen. (J Neurol Neurosurg Psychiatry 1998;64:339–343).

Absichtliche Übertreibungen treten nicht nur in finanziellen Notlagen oder bei der Klärung versicherungsrechtlicher Ansprüche auf. Familie und Freunde sind bei vielen chronischen Krankheitszuständen genervt, die Beweislast für das Einnehmen der Krankenrolle im Rahmen beispielsweise chronischer Schmerzsyndrom drückt oft ganz real schwer. Der Kranke braucht dann auch gegenüber der Familie einen Beweis seiner Erkrankung. (J Neurol Neurosurg Psychiatry 1999;66:273–276) Diese Aussage gilt nicht nur für die eigentliche Situation der Begutachtung, sondern auch für Untersuchungen im Vorfeld, wenn die entsprechenden Befunde im Rechtsstreit gutachtlich verwertet werden sollen. Psychologische Tests sollten auch allgemein nicht unkritisch eingesetzt werden, die Aussagekraft hängt sehr von den Testbedingungen und der Motivation ab. Im Zweifel ist der klinische Eindruck eines erfahrenen Untersuchers meist maßgeblicher, Tests können hier ergänzend wichtig sein und den Untersucher auf Fährten lenken, an die er sonst vielleicht nicht gedacht hätte. „Suboptimales Leistungsverhalten, das unterschiedlichen Ursachen entspringen kann, ist als eine der größten Gefahrenquellen für die Validität neuropsychologischer Testdaten zu benennen und tritt bei einer nicht unerheblichen Anzahl von Untersuchten auf, und zwar nicht nur im Rahmen gutachterlicher, sondern auch bei einer Reihe klinischer Fragestellungen. In den letzten Jahren hat sich die Erkenntnis durchgesetzt, dass eine zuverlässige Erfassung der Leistungsmotivation ein notwendiger Bestandteil neuropsychologischer Untersuchungen ist. “ Merten, Thomas, Begutachtung mangelhaft kooperativer Probanden: Validität psychiatrischer und psychologischer Befunde, DGPPN Kongress 24.11. 2005, Die Leistungsmotivation hat einen größeren Einfluss auf Testergebnisse als die Schwere der Beeinträchtigungen eines Patienten. Matthias Henry Thomas Merten, Suboptimales Leistungsverhalten Risiko und Chance für die klinische Neuropsychologie, psychoneuro 2005; 31 (10): 519–522. Jeder psychologische Test und jede neuropsychologische Untersuchung ist von der Anstrengungsbereitschaft des Probanden abhängig und lässt sich deshalb leicht willentlich
beeinflussen. Ein begründeter Verdacht auf nicht-authentische neuropsychologische Störungen, besteht immer dann wenn,
anmnestische Daten, subjektive Klagen und/oder neuropsychol. Untersuchungsergebnisse nicht übereinstimmen, die vorgebrachten Beschwerden und das Syndrom-Muster neuropsychologisch/neurologisch nicht zu erklären sind und sich grobe Abweichungen von klinischen Erwartungs- oder Normwerten selbst bei einfachsten Anforderungen vorliegen, Inkonsistenzen in Testergebnissen die gleiche der ähnliche Funktionen überprüfen oder bei Verlaufsuntersuchungen vorliegen oder sich Unstimmigkeiten zwischen beklagten oder gezeigten Symptomen und Verhaltensbeobachtungen zeigen.
Auch anamnestische Hinweise auf nicht-authentische neuropsychologische Störungen und auffällige Resultate in Symptomvalidierungsverfahren geben Hinweise dass das im Test gezeigtes Leistungsvermögen nicht dem tatsächlichen Lesitungsvermögen entspricht. Das im Test gezeigtes Leistungsvermögen ist oft infolge der beobachteten Inkonsistenz und Selbstlimitierung kein valides Mass für das zumutbare Leistungsvermögen bei sozialmedizinischen Fragestellungen. Im Zweifel sind zumindest spezielle Tests bezüglich der motivierten Mitarbeit bei Tests für die Beurteilung erforderlich.

Auch bei speziellen Tests zu Prüfung der motivierten Mitarbeit bei Tests ist zu bedenken, dass Untersucher die häufig gutachtliche Untersuchungen machen in der Regel häufig die selben Tests verwenden. Insbesondere bei einem Coaching durch Rentenberater, Anwälte, Selbsthilfegruppen und neuerdings auch Internetforen sind Probanden zunehmend auch auf die speziellen Tests bei speziellen Untersuchern vorbereitet. Ist es für den Betroffenen erkennbar, dass seine Mitarbeit in einem speziellen Test getestet wird, wird er hier immer – und oft im Gegensatz zu anderen Tests- eine gute Mitarbeit zeigen. Manche der einfacheren Tests zu Prüfung der motivierten Mitarbeit sind für differenziertere Probanden leicht in der Untersuchungssituation zu durchschauen. Fehlende Hinweise auf eine Aggravation in Tests zu Prüfung der motivierten Mitarbeit, sind daher nie ein Beweis, dass keine Aggravation oder Simulation vorliegt, wovon aber irrtümlich in manchen Gutachten ausgegangen wird. Auch Tests zu Prüfung der motivierten Mitarbeit haben eine unterschiedliche Sensitivität. Unter Sensitivität versteht man den Prozentsatz richtiger, positiver Ergebnisse eines Untersuchungs-/Testverfahrens beim Vorhandensein der gesuchten Krankheit/Störung, d.h. werden von 100 Erkrankten 90 mittels des Verfahrens erkannt, so hat das Verfahren eine Sensitivität von 90%. Die restlichen 10% sind s.g. falsch-negative. Nach entsprechendem Coaching sinkt die Sensitivität von Tests zu Prüfung der motivierten Mitarbeit gegen Null, je einfacher der Test umso geringer die Sensitivität. Umgekehrt schließ eine auch gravierende Aggravation bei einer testpsychologischen Untersuchung eine vorhandene neuropsychologische Störung nicht aus, macht aber deren zuverlässige Diagnose unmöglich. Allerdings setzt auch Aggravation eine bestimmte Leistungsfähigkeit voraus, so dass je nach Vorgang schon ein bestimmtes Ausmaß an nachgewiesener Aggravation auch einen positiven Leistungsnachweis erbringen kann.

Ungenügende Kooperation und Leistungsbereitschaft sowie Inkonsistenzen die entsprechenden Beobachtungen bzw. Fakten müssen in solchen Fälle im Befundbericht sorgfältig und vollständig aufgeführt werden um Testergebnisse bewerten zu können daraus sozialmedizinisch sinnvolle und zutreffende Schlussfolgerungen zu ziehen. Zitat: „Kognitive Störungen werden im gutachterlichen Kontext häufig nicht adäquat gewürdigt. Obwohl neuropsychologische Diagnostik für viele Fragestellungen die Methode der Wahl für die Erfassung und Quantifizierung von Störungen von Lernen und Gedächtnis, Konzentration und Aufmerksamkeit, visuell-räumlichen und exekutiven Leistungen ist, stellen testpsychologische Ergebnisse nicht automatisch eine „Objektivierung“ von Leistungsstörungen dar. Die größte Einschränkung der Gültigkeit von Testergebnissen ergibt sich aus suboptimalem Leistungsverhalten. Untersuchte verhalten sich im Test nicht immer entsprechend ihren tatsächlichen Leistungsvoraussetzungen. Dem zugrunde liegen können eine zielgerichtete Vortäuschung von Beschwerden, die Übertreibung tatsächlich vorhandener Beschwerden, psychische Störungen oder psychiatrische Erkrankungen, aber auch einfache Unlust, in der Untersuchung angemessen zu kooperieren. Psychologische Tests hängen aber in besonderer Weise von der Mitarbeit des Untersuchten ab. Neuropsychologische Diagnostik muss suboptimales Leistungsverhalten erkennen, wenn sie zu gültigen Aussagen über vorhandene Funktionseinschränkungen gelangen will. Heute liegt ein breites Repertoire moderner Methoden zur Erkennung suboptimalen Leistungsverhaltens vor, das sich allerdings nur zögerlich im deutschsprachigen Raum verbreitet. Zur Durchsetzung dieser Methoden können die Auftraggeber von Gutachten wesentlich beitragen, indem sie psychologische Testergebnisse ohne Überprüfung der Kooperationsbereitschaft entsprechend modernster Standards nicht unkritisch als Störungsnachweis akzeptieren.“ (Merten, Th.)Es ist für jeden offensichtlich, dass Menschen, die sich optimal anstrengen in psychologischen und neuropsychologischen Tests ein besseres Ergebnis erreichen als Menschen, die sich wenig bemühen oder die gar bemüht sind ein schlechtes Resultat zu erzielen. Soweit dies untersucht ist, lassen sich dabei die Ergebnisse von Gedächtnistests auf andere Tests, bei denen andere Variablen überprüft werden übertragen. Eine aktuelle Studie verglich das Ergebnis von 1307 aufeinanderfolgenden Patienten im Word Memory Test (WMT) mit den Ergebnissen anderer Tests. Mit nachgewiesenermaßen nachlassender Testmotivation sank das Ergebnis in allen Tests signifikant und systematisch ab. Die Variable der Mitarbeit beim Test hatte wie bei vielen anderen Untersuchungen einen größeren Einfluss auf das Testergebnis als schwere Hirnverletzungen. Green P ,The pervasive influence of effort on neuropsychological tests. Phys Med Rehabil Clin N Am 2007 Feb; 18(1) :43-68, Siehe auch unter Simulation

 

Quellen / Literatur:

siehe auch unter Bias Doppelblindversuch Kohorte Randomisieren Validität

Testverlage:www.testzentrale.de Testzentrale, Hogrefewww.sewts.nl/sts/sts.html Sweets Test Publisherwww.schuhfried.co.at Schuhfriedwww.v-d-t.de VDT Psychologie- & MedizinvertriebEinzelne Verfahrenwww.unifr.ch/ztd/HTS/welcome.html Hogrefe TestSystem www.schuhfried.co.at/d/wts/w-index.htm Wiener Testsystemwww.v-d-t.de/testverfahren/dia_x.htm DIA-Xhttp://lynx.who.ch/msa/cidi/ www.testzentrale.de/tests/t0410806_indxx.htm CIDI Übersicht, Recherche:http://www.zpid.de/ ZPID, Trier

Merten, Th.Neue Aspekte in der Beurteilung psychoreaktiver und neuropsychologischer Störungen als Leistungsgrund – Nicht-authentische Beschwerden: vorgetäuschte neuropsychologische Störungen MED SACH 102 (2006) No 2 Roee Holtzer; Joe Verghese; Cuiling Wang; Charles B. Hall; Richard B. Lipton Within-Person Across-Neuropsychological Test Variability and Incident Dementia JAMA. 2008;300(7):823-830. ABSTRACT

Dr. Johannes Werle

Dr. med Johannes Werle

Redakteur