Wie unseriöses Fragebogendesign zu Antwortverzerrungen führen kann
In der heutigen Arbeitswelt wird es immer wichtiger für Unternehmen, neben „harten“ Daten wie z.B. dem Alter oder den Fehltagen der Mitarbeiter:innen auch sogenannte „weiche“ Daten zu erheben: Wie hoch ist ihre Arbeitszufriedenheit? Wie motiviert sind sie? Sind sie mit ihrer Führungskraft zufrieden? Oder auch: Welche Gründe haben sie, das Unternehmen zu verlassen?
Um diese „weichen“ Daten zu erheben, müssen die Mitarbeiter:innen meistens direkt befragt werden. Der einfachste Weg, diese Befragungen objektiv, standardisiert und im großen Stil durchzuführen, sind Fragebögen.
Inhalt
Herausforderungen im Fragebogendesign
Einen guten Fragebogen zu erstellen ist kein einfaches Unterfangen. Denn es müssen viele Entscheidungen bezüglich der Formulierung der Fragen, des Designs der Ratingskala und des Gesamtdesigns getroffen werden. Beispielsweise muss entschieden werden, wie viele Punkte die Ratingskala hat und wie diese bezeichnet sind. Auch die Formulierung der Fragen und deren Aufbau innerhalb des Fragebogens sollten gut durchdacht sein.
Diese Aspekte sind wichtig, weil ein schlecht konzipierter Fragebogen unter den Befragten nur Verwirrung stiftet und zu Unzufriedenheit führt. Weitaus bedeutender ist jedoch, dass ein unseriöses Fragebogendesign oftmals Antwortverzerrungen verursacht und somit den Daten schadet. Im schlimmsten Fall führt dies zu gravierenden Fehlinterpretationen und erfolglosen Folgeprozessen.
Best Practice
Fragenkatalog
Erfahren Sie in unserem Whitepaper, worauf es bei der Erstellung Ihres Mitarbeiterfragebogens ankommt – Ihre Starthilfe zur erfolgreichen Mitarbeiterbefragung.
Musterfragebogen
Was sind Antwortverzerrungen?
Das Ziel von Fragebögen ist es, die „wahre“ Einstellung oder Meinung einer Person zu einer bestimmten Frage zu erfassen. Somit wäre es optimal, wenn die Antwort, die die Person auf der Ratingskala gibt, auch exakt ihrer wahren Meinung entspräche.
Insight – Antwortverzerrungen
Antwortverzerrungen (engl. response biases) liegen vor, wenn die Antworten in psychologischen Tests oder Fragebögen systematisch von den tatsächlichen Einstellungen der Befragten abweichen (Paulhus, 1991).
Antwortverzerrungen können aus verschiedenen Gründen entstehen. Zum einen können sie in der (suboptimalen) Gestaltung des Fragebogens begründet sein, zum anderen aber auch im Antwortverhalten der Befragten. Dieser Artikel konzentriert sich allerdings nur auf die Entstehungsgründe innerhalb des Fragebogendesigns.
Wieso schaden Antwortverzerrungen den Daten aus Mitarbeiterbefragungen?
Antwortverzerrungen stellen ein maßgebliches Problem in der Messung von psychologischen Konstrukten durch Fragebögen dar. Im HR Kontext geht es dabei oftmals um die Messung von Meinungen und Einstellungen der Mitarbeiter:innen oder Bewerber:innen, sowie deren Wahrnehmung ihres Arbeitsalltags. Antwortverzerrungen führen nämlich dazu, dass der Fragebogen neben dem zu messenden Konstrukt gleichzeitig auch Einflüsse misst, die nichts mit dem zu messenden Konstrukt zu tun haben.
Dies wirkt sich auf die Interpretierbarkeit der Daten aus. Denn die gefundenen Effekte und Zusammenhänge können nun nicht mehr eindeutig auf die gemessenen Konstrukte zurückgeführt werden. Stattdessen besteht die Möglichkeit, dass die Ergebnisse lediglich durch die Antwortverzerrungen entstanden sind. Daten mit starken Antwortverzerrungen unterliegen somit immer dieser Alternativerklärung. Wenn dies in der Interpretation von Fragebogendaten nicht beachtet wird, besteht die Gefahr irreführende Konklusionen aus den Daten zu ziehen, die zu unpassenden Folgeprozessen führen.
Deshalb ist es äußerst wichtig, die Entstehungsgründe für Antwortverzerrungen zu verstehen. Das schärft nicht nur das Bewusstsein für Alternativerklärungen, sondern ermöglicht es sogar, viele Antwortverzerrungen bereits im Vorhinein zu vermeiden.
Formulierung der Fragestellungen
Geschlossene Fragen des Fragebogens beginnen mit einer Frage oder Aussage, zu der die Befragten ihre Zustimmung auf einer Ratingskala ausdrücken sollen. Offene Fragen können dagegen frei beantwortet werden, beispielsweise in einem Texteingabefeld. Da geschlossene Fragen mit Ratingskalen besonders leicht auszuwerten sind, werden sie in vielen Fällen bevorzugt. Insbesondere im Fall von geschlossenen Fragen ist es allerdings wichtig, dass die Fragen richtig gestellt sind, um interpretierbare Antworten von den Befragten zu erhalten.
Es ist leicht nachvollziehbar, dass die Befragten nicht ihre wahre Meinung auf der Ratingskala angeben können, wenn sie die Frage nicht verstehen. Dies kann zum Beispiel auftreten, wenn in der Frage Fachbegriffe, doppelte Verneinungen oder Abkürzungen verwendet werden. In der Formulierung der Frage (bzw. Aussage) sollten daher die folgenden Aspekte besonders berücksichtigt werden. Die Frage sollte für die Befragten…
1.
2.
3.
einfach verständlich,
eindeutig interpretierbar, sowie
nicht suggestiv formuliert sein.
Ist die Frage nicht eindeutig formuliert, kann nicht sichergestellt werden, dass alle Befragten sie in dem Sinne interpretieren und beantworten, in dem sie ursprünglich gemeint war. Werden beispielsweise Formulierungen wie „in letzter Zeit“ verwendet, kann das für eine Befragte die letzten zwei Wochen bedeuten, für einen anderen Befragten jedoch die letzten drei Monate. Somit können nicht eindeutig formulierte Fragen zu Antwortverzerrungen führen, da sie neben dem zu messenden Konstrukt auch die Interpretation der Frage durch die jeweiligen Befragten beinhalten.
Daneben können suggestive Formulierungen die Befragten dazu verleiten, anstatt ihrer wahren Meinung eine sozial erwünschtere Antwort abzugeben (Beispiel: „Wünschen Sie sich auch eine bessere Vereinbarkeit von Familie und Beruf?“). Somit führen sowohl unverständlich, also auch suggestiv formulierte Fragen zu Antwortverzerrungen.
Mit einer durchdachten Erstellung der Fragen können die ersten Fehlerquellen für Antwortverzerrungen bereits vermieden werden. Dabei sollte immer die jeweilige Zielpopulation im Blick behalten werden. Denn vor allem der Aspekt der „einfachen Verständlichkeit“ hängt maßgeblich vom Vorwissen und Aufgabenbereich der Befragten ab.
Design der Ratingskala
Nachdem passende Formulierungen für die Fragen bzw. Aussagen gefunden wurden, stellt sich die Frage nach einer adäquaten Ratingskala. Insbesondere in diesem Aspekt gibt es einige Fehlerquellen, die zu starken Antwortverzerrungen führen können.
Anzahl und Bezeichnung der Skalenpunkte
In der Anzahl der Skalenpunkte empfiehlt die Fachliteratur für die meisten Anwendungsfälle fünf bis elf Skalenpunkte (Friedman et al, 1999). Die Bezeichnung der Skalenpunkte ist dagegen bereits ein schwierigeres Unterfangen. Denn Bezeichnungen wie „gut“ oder „ausgezeichnet“ können für verschiedene Personen oder Personengruppen leicht unterschiedliche Bedeutungen haben. Zudem sollte darauf geachtet werden, dass positive und negative Beurteilungen auf der Skala ausgeglichen sind. Wenn die Skala nämlich überwiegend positive oder überwiegend negative Bezeichnungen enthält, kann nicht davon ausgegangen werden, dass sie eine angemessene Einschätzung der wahren Meinung der Befragten abgibt. Das folgende Negativ-Beispiel illustriert die Problematik:
Die Begriffe zur Bezeichnung der Skalenpunkte sollten deshalb so ausgewählt werden, dass sie von den meisten Befragten auf dieselbe Art und Weise verstanden werden und die Antwort nicht in eine positivere oder negativere Richtung lenken.
Zusätzliche Nummerierung der Skalenpunkte
Oftmals wird zusätzlich zu der sprachlichen Bezeichnung der Skalenpunkte eine numerische Repräsentation gewählt, sodass die Skalenpunkte beispielsweise von 1 bis 5 durchnummeriert sind. Welche Zahlenwerte konkret verwendet werden, kann allerdings weitreichende Folgen haben. Schwarz et al. (1991) zeigten dies in einer Untersuchung der Frage „Wie erfolgreich waren Sie bisher in Ihrem Leben?“. Wenn die Ratingskala von 0 (überhaupt nicht erfolgreich) bis 10 (außerordentlich erfolgreich) reichte, gaben 34% der Befragten einen Wert zwischen 0 und 5 an. Wenn die Ratingskala die exakt selben verbalen Beschreibungen enthielt, aber von -5 bis 5 reichte, gaben nur 13% der Befragten einen Wert zwischen -5 und 0 an. Die Autoren schlussfolgern daraus, dass die Befragten die Ratingskala unterschiedlich interpretieren, je nachdem, welche Zahlen den verbalen Beschreibungen beigefügt werden.
Dies impliziert, dass im Umgang mit nummerierten Skalen Vorsicht geboten ist. Vergleiche zwischen unterschiedlich nummerierten Skalen sind zum Beispiel nicht ohne weiteres möglich. In diesen Fällen sollte man darüber nachdenken, die zusätzlichen Zahlen entweder anzugleichen oder vollkommen wegzulassen.
Interaktion zwischen Frage und Ratingskala
Zuletzt muss im Auge behalten werden, dass die Ratingskala immer auch eine kommunikative Funktion hat. Wie die Ratingskala gestaltet ist, kann nämlich die Interpretation der dazugehörigen Frage beeinflussen. Dies ist besonders bei der Angabe von Häufigkeiten auf der Ratingskala relevant.
In einer Frage wie „Wie häufig sind Sie während der Arbeit im Homeoffice von technischen Störungen betroffen?“ bleibt nämlich offen, was genau mit „technischen Störungen“ gemeint ist. Viele Befragte nutzen deshalb die Ratingskala, um Rückschlüsse auf den Inhalt der Frage zu ziehen. Reicht die Ratingskala von „mehrmals am Tag“ bis „einmal in der Woche“, ist es vernünftig, anzunehmen, dass damit kleinere Ausfälle im Videochat oder Probleme mit der Internetverbindung gemeint sind. Reicht die Skala allerdings von „einmal in der Woche“ bis „einmal im halben Jahr“, würden die meisten Befragten schlussfolgern, dass es sich um gravierendere technische Störungen handeln muss, zu denen ein kurzfristiges Internetproblem nicht dazugehört.
Somit sind Wechselwirkungen zwischen der Fragestellung und der Antwortskala eine weitere Quelle von Antwortverzerrungen. Um diese weitestgehend einzudämmen, sollten die Fragen möglichst konkret formuliert sein. Zudem kann über eine verbale Verankerung der Skalen nachgedacht werden, sodass die Skalenpunkte nicht nur allgemeine Bezeichnungen, sondern auch konkrete Beispiele enthalten. Wenn Häufigkeiten angegeben werden sollen, lohnt es sich dagegen, anstatt einer geschlossenen Frage mit Ratingskala eine offene Frage zu verwenden. So können die Befragten ihren eingeschätzten Wert direkt angeben, ohne von den Antwortalternativen beeinflusst zu werden.
Fragebogenerstellung für Mitarbeiterbefragungen
Entdecken Sie die Grundlagen eines gelungenen Fragebogens!
Nutzen Sie unsere Checkliste, um Ihre Fragebögen kritisch zu evaluieren und zu verbessern.
Checkliste
Gesamtdesign und Reihenfolge der Fragen
Da die meisten Fragebögen aus einer ganzen Reihe an Fragen bestehen, muss neben den einzelnen Fragestellungen und Ratingskalen auch das Gesamtdesign des Fragebogens beachtet werden, um Antwortverzerrungen zu vermeiden.
Leider stehen die einzelnen Fragen innerhalb des Fragebogens nämlich nicht für sich, sondern werden von den Befragten im Kontext der vorangegangenen Fragen interpretiert und beantwortet. In den folgenden zwei Fällen treten besonders große Antwortverzerrungen durch vorherige Fragen auf:
1.
Zur Beantwortung der betroffenen Frage müssen viele Erinnerungen aus dem Gedächtnis abgerufen werden.
Vorangegangene Fragen können bestimmte Erinnerungen im Vorfeld zugänglicher machen. Wenn sich die vorangegangenen Fragen beispielsweise um Arbeitsunfälle drehen, werden Erinnerungen an vergangene Arbeitsunfälle und gefährliche Situationen aktiviert. Wenn daraufhin gefragt wird, wie sicher sich die Befragten an ihrem Arbeitsplatz fühlen, werden ihre Antworten wahrscheinlich verzerrt sein. Denn im Moment der Beantwortung dieser Frage sind Erinnerungen und Beispiele zu gefährlichen Situationen überrepräsentiert, während die (überwiegend) normalen und sicheren Arbeitserfahrungen in den Hintergrund gedrängt werden.
2.
Die betroffene Frage verlangt ein Gesamturteil aus vielen verschiedenen Teilaspekten.
Im zweiten Fall gibt es eine ähnliche Erklärung. Handeln die vorangehenden Fragen beispielsweise um die Vereinbarkeit von Familie und Beruf, wird dieser Aspekt gedanklich aktiviert. Wenn nachfolgend ein globales Urteil über die allgemeine Arbeitszufriedenheit gefällt werden soll, wird die Vereinbarkeit von Familie und Beruf sicherlich stärker in das Gesamturteil einfließen, als wenn sie nicht vorher erwähnt worden wäre. Im Extremfall beeinflussen die vorangegangenen Fragen nicht nur die Gewichtung der einzelnen Teilaspekte, sondern rücken sogar Aspekte ins Bewusstsein, die unter anderen Umständen gar nicht in das Gesamturteil mit eingeflossen wären.
Die offensichtlichste Maßnahme zur Vermeidung dieser Kontexteffekte ist es, Fragen, die anfällig für Verzerrungen durch vorangegangene Fragen sind, zuerst zu stellen. Dabei sollte allerdings sichergestellt werden, dass die Antwort auf diesen Fragen nicht nachträglich geändert werden kann, sobald die Befragten die weiteren Fragen präsentiert bekommen. Eine andere Möglichkeit wäre, nach der globalen Frage erst einmal Fragen zu stellen, die keinen konkreten Bezug zu ihr haben. Im späteren Verlauf des Fragebogens kann dann näher auf die Teilaspekte des globalen Urteils eingegangen werden.
functionHR Webseminare
Mitarbeiterbefragungen erfolgreich und nachhaltig
umsetzen
functionHR Webseminare
Mitarbeiterbefragungen erfolgreich und nachhaltig
umsetzen
Fazit
Antwortverzerrungen sind ein ernstzunehmendes Problem in der Erstellung von Fragebögen. Denn sie führen dazu, dass die Ergebnisse der Datenauswertung Alternativerklärungen ausgesetzt, oder sogar tatsächlich verzerrt sind. Daten, die starke Antwortverzerrungen beinhalten, sollte man demnach nicht ohne Weiteres trauen. Es ist davon abzuraten, businessrelevante Schlussfolgerungen aus ihnen zu ziehen und auf Basis dessen Folgeprozesse einzuleiten.
Leider sind selbst gut konzipierte Fragebögen nie vollkommen frei von Antwortverzerrungen, da immer ein gewisser Interpretationsspielraum bezüglich der Fragen und Ratingskalen vorhanden ist. Auch die wechselseitige Beeinflussung der verschiedenen Fragen kann nie völlig ausgeschlossen werden. Somit messen die Ratingskalen neben der „wahren“ Meinung der Befragten zu einem gewissen Grad immer auch ihre Interpretation der Fragen und Ratingskalen.
Erfreulicherweise kann ein professionelles Fragebogendesign jedoch bereits im Vorhinein viele Fehler vermeiden, die zu Antwortverzerrungen führen. Wenn die Mitarbeiterbefragung mit Expertise gestaltet, durchgeführt und ausgewertet wird, können starke Antwortverzerrungen gut ausgeschlossen werden. Zudem können während der Datenanalyse nochmals Antwortverzerrungen identifiziert, und kritische Fragen oder Fälle ausgeschlossen werden. Somit ist sichergestellt, dass die Mitarbeiterbefragung ein wertvolles und valides Instrument darstellt, das wichtige Informationen über Einstellungen, Wünsche, Arbeitserfahrungen und vieles mehr der Mitarbeiter:innen liefert.
Zusammenfassung der wichtigsten Konstruktionsaspekte
Quelle für Antwortverzerrung | Konstruktionsempfehlung |
---|---|
Formulierung der Fragen/Aussagen |
|
Design der Ratingskala |
|
Gesamtdesign |
|
Paulhus, D. L. (1991). Measurement and control of response bias. In J. P. Robinson, P. R. Shaver, & L. S. Wrightsman (Hrsg.), Measures of personality and social psychological attitudes. (pp. 17-59). Academic Press; APA PsychInfo.
Schwarz, N., Knäuper, B., Hippler, H.-J., Noelle-Neumann, E., & Clark, L. (1991). Rating scales: Numeric values may change the meanung of scale labels. The Public Opinion Quarterly, 55(4), 570-582.https://www.jstor.org/stable/2749407?seq=2&cid=pdf-reference#references_tab_contents
Entdecken Sie, wie Sie Ihre HR Daten systematisch auswerten und für Ihre tägliche Arbeit einsetzen können.
Weitere Artikel
Experience Analytics – Handbuch HR-Management
Handbuch HR-Management Die TREND-REPORT-Redaktion verfolgt mit dem Handbuch HR das Ziel, die Digitalisierung und ihre Auswirkungen auf das Personalwesen zu beschreiben. Die Beiträge vermitteln, wie
Herausforderungen mit People Analytics? 5 Tipps, wie Sie Führungskräfte unterstützen
„Leadership of Tomorrow“ – Die Frage wie People Analytics die Personalarbeit und Mitarbeiterführung zukünftig erfolgreich unterstützen wird, wird von einer Reihe von Herausforderungen begleitet. Der
6 Gründe, wieso Single-Item Maße besser sind als ihr Ruf
Arbeitszufriedenheit mit nur einer Frage messen? Das klingt nach einem einfachen und effizienten Vorgehen. Tatsächlich sind solche sogenannten Single-Item Maße jedoch in der Wissenschaft ziemlich