Testpsychologische Kriterien

Wie im Buch versprochen, hier der Exkurs in den Bereich der Testpsychologie in Verbindung zur Vorgesetzteneinschätzung.

Testpsychologische Kriterien

Verschiedene Autoren sprechen davon, man müsse auf die Vorgesetzteneinschätzung die Kriterien klassischer, psychologische Testtheorie anwenden. Ich bin hier anderer Meinung, glaube, daß dies bei weitem nicht im Umfang der üblicherweise geforderten «psychometrischen Standards» möglich ist und will dies kurz begründen.

Die klassische Testtheorie besagt, daß ein Meßinstrument, um seriös und wissenschaftlich fundiert zu sein, drei Eigenschaften erfüllen müsse:

Validität (Gültigkeit)

Reliabilität (Verläßlichkeit)

Objektivität

6.1 Validität

Einfach gesagt bedeutet die Frage nach der Validität, ob das Verfahren auch tatsächlich das mißt, was es zu messen vorgibt. «Es geht also um den Grad der Gültigkeit der Messung oder der Aussagefähigkeit des Testergebnisses bezüglich der Meßintention.» (1) Behauptet ein Testverfahren, es messe mathematische Kenntnisse, dann muß es eben diese messen und nicht, wie sauber und übersichtlich die Person die Zahlen niederschreibt.

Es stellt sich also die Frage, ob eine Vorgesetzteneinschätzung tatsächlich die Leistung von Vorgesetzten mißt oder messen kann, bzw. was sie überhaupt mißt?

Hier ist eine erste Einschränkung zu machen, nämlich daß die Vorgesetzteneinschätzung die Führungsleistung lediglich aus der Sicht der Mitarbeiter, nicht jedoch aus der Sicht anderer, gleichgestellter Vorgesetzter oder darüberstehenden Personen betrachtet. Daher darf die Vorgesetzteneinschätzung auch nicht als einziges Mittel zur Beurteilung eines Vorgesetzten zurate gezogen werden. Sie ist Teilaspekt, Indiz.

Die Vorgesetzteneinschätzung soll jedoch messen, wie die Führungsarbeit des Vorgesetzten auf die Mitarbeiter wirkt. Um inhaltsvalide, also inhaltsgültig, zu sein, muß die Vorgesetzteneinschätzung sich mit solchen Aspekten beschäftigen, die ein Mitarbeiter als Führungsarbeit seines Vorgesetzten erlebt, und zu denen er auch Stellung nehmen kann.

Im Sinne der Validität kann man einige Grundbedingungen erfüllen bzw. zu erfüllen suchen:

Erstens: Die Kernkompetenzen der Führung, wie sie in einem Leitbild Führung und Zusammenarbeit erscheinen, sollten mit Sorgfalt gewählt werden. In ihrer Summe sollten Sie die vollständigen Schlüsselfertigkeiten einer Führungskraft enthalten, wie sie aus Sicht der Geführten von Relevanz sind. Mit dieser Aussage ist zugleich aber auch das Problem angesprochen, was denn nun diese Schlüsselfertigkeiten seien? Allgemeinkulturelle Unterschiede (sitzt das Unternehmen in Düsseldorf oder in Luzern?) sowie unternehmenskulturelle Differenzen spielen hier eine Rolle und sorgen für Unterschiedlichkeit von Unternehmen zu Unternehmen. Das ist einer der Gründe, weshalb ich gegen Vorgesetzteneinschätzungen mittels schubladenfertiger Fragebögen bin, mögen diese noch so hoch gelobt, von bedeutenden Kapazitäten entwickelt und weit verbreitet sein.

Im Zentrum des Begriffs Validität (Gültigkeit) für Vorgesetzteneinschätzungen stehen also die Kernkompetenzen. Sie sollten unter anderem die gegenüber Mitarbeitern einzubringenden Fertigkeiten des Vorgesetzten reflektieren. Und eben jene gilt es, für die Vorgesetzteneinschätzung zu nutzen.

Zweitens: Die einzelnen, konkreten Merkmale, welche die Erfüllung (oder Nichterfüllung) der jeweiligen Kernkompetenz repräsentieren, müssen sich auf die jeweilige Kernkompetenz beziehen. Beispiel: Kernkompetenz «Information + Kommunikation». In einem Satz formuliert, könnte diese Fertigkeit so beschrieben sein: «Der Vorgesetzte kommuniziert mit seinen Mitarbeitern regelmäßig in für diese zufriedenstellenden Abständen, er informiert sie rechtzeitig über auf sie zukommende Arbeitsanforderungen, steht für Fragen stets zur Verfügung, er enthält ihnen keine wichtigen Unternehmensinformationen vor und kann sie, wenn er nicht selber Spezialist ihres Fachgebietes ist, an die jeweilig kompetenten Fachkräfte im Unternehmen weiterleiten.»

Wie Sie sehen, beruht die Erfüllung dieser Kernkompetenz auf einer ganzen Reihe von Teilaspekten. Sie alle haben mit der Informations- und Kommunikationsfähigkeit zu tun. Und jeder Teilaspekt kann zu einer separaten Aussage ausformuliert werden, über deren Umsetzungsqualität der Mitarbeiter seine Einschätzung abgeben könnte. Dinge, die nicht in diese Kompetenz gehören, sollen nicht thematisiert werden. Zum Beispiel könnte man geneigt sein, eine Aussage wie «Im Gespräch begegnet er seinen Mitarbeiter mit Respekt» ebenfalls in die Kompetenz Information + Kommunikation einzugliedern. Tatsächlich jedoch paßt sie wesentlich besser in die Rubrik «Soziale Kompetenz». Ein «ruppiger» Chef mag nämlich sehr wohl gleichwertig mit einem «jovialen» Vorgesetzten Informationen vermitteln oder entgegennehmen, und doch unterscheiden sich die beiden. Aber eben im Bereich Sozialkompetenz, in der Disziplin der Zwischenmenschlichkeit.

Zusammenfassung:

1. Die Kernkompetenzen sollten das gesamte auf die Mitarbeiter wirkende Spektrum der Vorgesetztentätigkeit (oder – untätigkeit) abdecken.

2. Zu jeder Kernkompetenz sollten alle diejenigen, konkreten Verhaltenseigenschaften als Items (Einzelaussagen) hinzugefügt werden, die in ihrer Gesamtheit die Erfüllung oder Nichterfüllung der Kompetenz einschätzen helfen.

6.2 Reliabilität (Zuverlässigkeit)

«Mit Reliabilität (Zuverlässigkeit) ist das Ausmaß gemeint, wie genau der Test das mißt, was er mißt (egal, was er mißt). Es ist hier lediglich die Meßgenauigkeit, die numerische Präzision der Messung angesprochen, unabhängig davon, was der Test überhaupt mißt. Als Meßgenauigkeit wird dabei nicht die Zahl der Dezimalstellen der Meßwerte bezeichnet, sondern die Zuverlässigkeit, mit der bei einer wiederholten Messung unter gleichen Bedingungen dasselbe Meßergebnis herauskommt.» (2)

Die Zuverlässigkeit von Meßinstrumenten bezieht sich grundsätzlich auf zwei Arten der Zuverlässigkeit: Erstens, inwieweit das Meßinstrument im Verlauf der Zeit stabil ist, zweitens, inwieweit das Instrument in sich selbst zuverlässig ist. Ich will hier nur den ersten Aspekt herausgreifen: Wenn ein Meßinstrument testtheoretisch zuverlässig ist, dann sollte man, wenn man das gleiche Instrument bei der gleichen Person nach vielleicht etwa drei Monaten erneut zur Anwendung bringt, in etwa die gleichen Resultate wie bei der ersten Anwendung erhalten. Die Zuverlässigkeit wäre etabliert. Aber dies ist theoretisch schön gesagt, wenn wir uns hier mit der Einschätzung von Menschen durch andere Menschen befassen. Der eine mag Herrn Meier als freundschaftlich zugänglich, der andere dies als aufdringlich und die Privatsphäre verletzend betrachten. In einer Abteilung mag Herr Meier als Musterbeispiel eines Vorgesetzten betrachtet werden, in einer anderen würde man ihn, ohne daß er sein Verhalten geändert hat, zur Absetzung vorschlagen. Kommen die unterschiedlichen Personen jedoch nach drei Monaten wieder zum gleichen Ergebnis, dann ist das Instrument in diesem Teilaspekt zuverlässig.

Das große ABER: Wer sagt uns, daß einzelne beurteilende Mitarbeiter nicht an Weiterbildungsseminaren teilnehmen, im Freundeskreis über Managementqualitäten sprechen und zu neuen Erkenntnissen über ihren Vorgesetzten kommen, daß sie in ihrer Persönlichkeitsentwicklung nicht Fortschritte hin zu größerer Toleranz machen, so daß sie aufgrund neuer Erkenntnisse ihren Vorgesetzten in drei Monaten nicht auch entsprechend anders beurteilen würden? Kommt als weiterer Faktor hinzu, daß sich auch der Vorgesetzte in kurzer Zeit in seinem Verhalten grundsätzlich ändern kann. (Kein Mensch ist vor Erkenntnis gefeit!) Gerade die Vorgesetzteneinschätzung hat bei vielen Führungskräften alleine durch die Auseinandersetzung mit dem Inhalt schon zu markanten Wandlungen geführt!

Diese Problematik machen sich einige auf dem Markt angebotene Verfahren zur Einschätzung von Vorgesetzten zu nutze und verweisen darauf, daß sie normiert seien, das heißt daß sie an einer großen Zahl von Personen bereits angewendet worden seien und man dadurch wisse, was ein gutes und was ein schlechtes Resultat sei. Allerdings: Wer wünscht sich nach einem Theoriemodell geformte und normierte Manager? Ich mag sie nicht, diese nach Schema F als gute Manager qualifizierten Menschen. Rost meint:

Das Gütekriterium der Normierung wird oft überbewertet, d.h. man begeht leicht den Fehlschluß anzunehmen, daß ein normierter Test auch etwas Sinnvolles mißt. (3)

Krasser formulieren Schötzau-Fürtwentsches und Grubitzsch:

Normwerte standardisierter Tests sind bestenfalls grobe Orientierungswerte (screenings) und darüber hinaus auch nicht besonders zuverlässig. Ein Blick in Testhandbücher bestätigt dies nur allzu oft …. Dass solch Unsinn überhaupt veröffentlicht wird, liegt aber vor allem auch daran, daß es viele Psychologen gibt, denen das entsprechende Unrechtsbewußtsein einfach fehlt. (4)

Grundsätzlich gilt: Je mehr Mitarbeiter einen Vorgesetzten beurteilen, desto sicherer können wir die Wahrnehmungen als verbindlich betrachten, da wir einzelne Ausreißer zum Positiven oder Negativen eliminieren können (obwohl wir natürlich Pech haben könnten und ausgerechnet einer der Extremwerte sich mit der Eigenmeinung des Vorgesetzten deckt). Andererseits mag ein Vorgesetzter sich gegenüber den verschiedenen Mitarbeitern auch verschieden verhalten. Da die Vorgesetzteneinschätzung im übrigen den Ausgangspunkt für einen Veränderungsprozeß darstellt wünscht man sich, daß die Resultate eben nicht gleich bleiben.

Welche Zuverlässigkeit kann also die Vorgesetzteneinschätzung bieten? Sie ist insofern zuverlässig (Kriterien der Validität wie weiter oben dargestellt vorausgesetzt), als sie bei gewährter Anonymität Wahrnehmungen von Menschen über einen anderen Menschen liefert, die dann für Gruppengespräche und Weiterbildungsmaßnahmen den Ausgangspunkt der Diskussion darstellt. Womit eben erneut unterstrichen wird, daß es sich um ein Instrument der Einschätzung und nicht der Beurteilung handelt!

6.3 Objektivität

Unter Objektivität versteht man die Unabhängigkeit der Resultatfindung vom jeweils die Resultate Erstellenden.

Im einzelnen ist bei der Testentwicklung anzustreben, daß das Testergebnis unabhängig davon ist,

– wer den Test vorgibt (Durchführungsobjektivität),

– wer den Test auswertet (Auswertungsobjektivität) und

– wer den Test interpretiert (Interpretationsobjektivität) (5)

Ich ergänze als viertes Kriterium:

Die Beurteilenden müssen unter den jeweiligen Aussagen das jeweils Gleiche verstehen. Daher ist die Wahl der Formulierungen bei der Erstellung von Einschätzungsbögen von großer Bedeutung. Ebenso die spätere Überlegung, ob einem Mitarbeiter, dessen Muttersprache nicht diejenige der Aussagen ist, das Beurteilen unter diesen Bedingungen ruhigen Gewissens zugemutet werden darf.

Alle diese Bedienungen weisen schon drauf hin, welcher Durchführungsform von Vorgesetzteneinschätzung der Vorzug zu geben ist: Dem klar strukturierten Fragebogen, den der Beurteiler alleine ausfüllen, und bei welchem er aus einer Reihe vorgegebener Antwortmöglichkeiten auswählen kann.

Durchführungsobjektivität bedeutet in der Praxis, daß jeder Teilnehmer die gleichen Informationen zur Durchführung erhält, was üblicherweise dadurch geschieht, daß die Anleitungen in Schriftform vorliegen. Jetzt ist egal, wer dem Mitarbeiter den Bogen vorlegt. Damit keine Rückfragen kommen, sollten solche Anleitungen klar und unzweideutig formuliert sein. Jeder Teilnehmer findet die genau gleichen Bedingungen vor, um seine Beurteilung vorzunehmen, keinem werden zusätzliche, individuelle interpretatorische Hilfestellungen gegeben, die vielleicht vom subjektiven Verständnis eines einzelnen Prozeßverantwortlichen herrühren.

Auswertungsobjektivität entsteht, wenn der Auswerter die Antworten nicht deuten und einem Urteil unterziehen muß, wie zum Beispiel bei Verfahren, bei denen man auf vorgegebene Fragen frei antworten soll. Zum Beispiel: «Welches sind die besten Führungseigenschaften Ihres Vorgesetzten?» Bei solchen Fragen werden die Antworten in der Regel mit anderen zusammengeführt, gebündelt und schließlich summarisch präsentiert. Das Ergebnis hängt in nicht unbeträchtlichem Maß vom Auswerter ab.

Um Auswertungsobjektivität zu erreichen, sollte man die Methode benutzen, die dem Beurteiler ermöglicht, aus einer Reihe vorgegebener Antworten die ihm am geeignetsten erscheinende auszuwählen. Dieses Verfahren nennt man Multiple-Choice-Verfahren. Unabhängig von der Person des Auswerters werden stets die gleichen arithmetischen Ergebnisse resultieren.

Interpretationsobjektivität ist ein Kapitel für sich. Sie erscheint beim Multiple-Choice-Verfahren als grundsätzlich einfach. Schließlich muß man nur die Zahlenwerte der Antworten zusammenzählen und erhält dann zum einen einen Durchschnittswert zum anderen aber auch eine Antwortverteilung. Das würde dann wie folgt aussehen:

Ein Item aus dem Aussagenkatalog zur Kernkompetenz «Motivation»: «Mein Vorgesetzter bringt mir am Morgen meinen Kaffee.»

Antwortmöglichkeiten:

(5) Trifft immer zu

(4) Trifft häufig zu

(3) Trifft manchmal zu

(2) Trifft selten zu

(1) Trifft nicht zu

Aus allen Stellungnahmen, errechne sich zum Beispiel ein Mittelwert von 3. Es handelt sich also offenbar um einen um das Wohl seiner Mitarbeiter sich einigermaßen kümmernden Chef. So weit, so gut.

Aus der Häufigkeitsverteilung der einzelnen Einschätzungen lesen wir dann vielleicht aber ab, daß einige Mitarbeiter regelmäßig in den Genuß dieser Vorgesetztendienstleistung kommen, andere hingegen nie. Es gibt also offenbar unter den Mitarbeitern zwei Lager. Dies könnte wie folgt aussehen:

(5) = 6

(4) = 0

(3) = 2

(2) = 0

(1) = 6

Würde man nun aus der Ferne interpretieren, dann könnte man zu Fehlschlüssen kommen – der Chef hat offenbar seine Lieblingskandidaten und solche, die er lieber nicht um sich hätte. Aus der Nähe betrachtet aber war das Item (die einzelne Aussage) unglücklich gewählt, denn die sechs Personen, die nicht in den Genuß des Kaffees vom Chef kommen, sind eingefleischte Grünteetrinker.

So ergeht es also der Vorgesetzteneinschätzung so wie auch den meisten anderen Verfahren, die sich in irgendeiner Form mit Menschen und ihrem Wirken befassen und diese irgendwie einzuschätzen versuchen: Behutsamkeit ist angesagt, keine vorschnellen Urteile. Erst der Dialog mit den unmittelbar Betroffenen wird zur Erklärung der jeweiligen Einschätzungen führen.

Das hier dargestellte Beispiel zeigt übrigens sehr anschaulich, weshalb es nicht ausreicht, bei einer Aussage einfach den Mittelwert als Maßstab der Einschätzung zu nehmen. Bei kleinen Beurteilergruppen, und dies ist bei Vorgesetzteneinschätzung fast immer der Fall, stellt der Mittelwert in der Regel eine Verfälschung des Bildes dar und macht die Resultate der Vorgesetzteneinschätzung, wenn sie deren Analyse darauf stützt, in weiten Teilen unbrauchbar.

Anders sieht die Sache bei Zusammenfassungen von Resultaten der Vorgesetzteneinschätzung aus, wo man die Resultate von zehn oder mehr Vorgesetzten in einem summarischen Schaubild darstellt. Bei der hier zur Verfügung stehenden Menge an Zahlenmaterial können wir auch mit statistischen Durchschnittswerten arbeiten.

So weit dieser kleine Exkurs in die Testtheorie. Er hat uns gezeigt, daß die Vorgesetzteneinschätzung kein absolut gültiges Urteil über die Leistungen eines Vorgesetzten bieten kann. Vielmehr wurde deutlich, daß sie der Ausgangspunkt für die anschließend erfolgende eigentliche Arbeit ist: Den intensiven Dialog, der zur Ergründung der Einschätzungen führt und damit Veränderungsprozesse in Gang setzen kann und soll.

(1) Rost, J. (1996): Lehrbuch Testtheorie, Testkonstruktion, Bern: Hans Huber, S. 31.
(2) Rost, J. (1996): a.a.O., S. 31.
(3) Rost, J. (1996): a.a.O., S. 41.
(4) Schötzau-Fürtwentsches, P. und Grubitzsch, S. (1978, 1991) in: Testtheorie, Testpraxis, Reinbeck: Rowohlt, S. 304.
(5) Rost, J. (1996) a.a.O., S. 37/38.