Einführung
Visualisierungen spielen eine wichtige Rolle in der statistischen Datenanalyse vor allem in der deskriptiven Analyse und der Qualitätskontrolle von erhobenen Daten. Auch können diese dazu verwendet werden, die Ergebnisse einer statistischen Analyse zu veranschaulichen. Neben dem Box- und Whisker-Plot [1] spielen hierbei das Histogramm [2] und die (Kern-) Dichteschätzung [3,4] eine wichtige Rolle. Diese ermöglichen es uns, die Verteilung von quantitativen Merkmalen grafisch darzustellen und damit Auffälligkeiten wie zum Beispiel Ausreißer, Subgruppen oder schiefe Verteilungen zu erkennen. Der Violinplot [5] vereint die Informationen von Box- und Whisker-Plot und der Dichteschätzung in einer Grafik. Zur Demonstration werden wir verschiedene Varianten dieser Plots anhand realer Daten vorstellen und beschreiben.
Histogramm
Die Idee, quantitative Daten mit Hilfe von Balkendiagrammen zu visualisieren, ist bereits sehr alt. Die Bezeichnung Histogramm geht vermutlich auf Karl Pearson [2] zurück. Die Erstellung eines Histogramms besteht aus mehreren Schritten (vgl. Abschnitt 3.5.1 in [6]):
1) Zunächst wird der Wertebereich lückenlos in halboffene (links- oder rechtsoffene) Intervalle aufgeteilt. Dabei ist es wichtig, dass diese Teilintervalle alle beobachteten Werte, insbesondere auch das Minimum und Maximum, abdecken. Die Teilintervalle werden auch als Klassen bezeichnet. Die Teilintervalle besitzen üblicherweise alle die gleiche Länge, wobei dies nicht zwingend notwendig ist, aber die Interpretation erleichtert.
2) Anschließend werden die beobachteten Werte auf die Klassen aufgeteilt und so die absolute oder relative Häufigkeit jeder Klasse bestimmt. Alternativ kann auch die Häufigkeitsdichte berechnet werden. Diese ergibt sich als Quotient aus der absoluten Häufigkeit und der Intervalllänge der Klasse.
3) Jede Klasse wird dann durch einen Balken repräsentiert, dessen Breite der Länge des Intervalls und dessen Höhe der absoluten/relativen Häufigkeit oder der Häufigkeitsdichte der Klasse entspricht.
Die größte Schwierigkeit beim Histogramm besteht darin, eine geeignete (nicht zu kleine, aber auch nicht zu große) Anzahl an Klassen zu definieren. Hierfür gibt es verschiedene Regeln. Zum Beispiel sind in der Standardfunktion der Statistiksoftware R [7] die Regeln von Sturges [8], Scott [9] und Friedman und Draconis [10] implementiert. Diese Regeln liefern gute Anhaltspunkte für eine geeignete Anzahl von Klassen. Idealerweise sollte man aber jeweils verschiedene Anzahlen testen. Liegen ausreichend Daten vor, so können zusätzlich auch fachliche Überlegungen zu den Klassen angestellt werden und etwa die Messgenauigkeit oder die Größe relevanter Unterschiede bei der Festlegung der Intervalllänge miteinbezogen werden. Ein weiterer Nachteil der Histogramme ist, dass diese nicht stetig sind. Jedoch können wir bei quantitativen Daten meistens davon ausgehen, dass die (theoretische) Verteilung, welche den Daten zugrunde liegt, eine stetige Dichtefunktion besitzt. Folglich ist die Approximation dieser Dichtefunktion, die mit dem Histogramm erreicht werden kann, auch bei einer sehr guten Wahl der Klassen immer eingeschränkt. Eine mögliche Lösung, die zu stetigen Ergebnissen führt, ist die Verwendung von sogenannten Kerndichteschätzern, die wir im Folgenden etwas genauer betrachten wollen.
(Kern-)Dichteschätzung
Der wesentliche Bestandteil der (Kern-)Dichteschätzung [3,4] ist der Kern, wobei man in diesem Zusammenhang unter Kern eine stetige, nicht negative Funktion versteht, deren Integral den Wert 1 liefert (d. h. auf 1 normiert ist). Aufgrund
dieser Eigenschaften kommt als Kern jede beliebige stetige Wahrscheinlichkeitsdichte in Frage. Oft wird als Kern die Dichte der Normalverteilung gewählt. Zum Beispiel ist dies auch die Standardeinstellung der Funktion „density“ in der Statistiksoftware R [7]. Wählt man als Kriterium für die Bestimmung des Kerns die mittlere quadratische Abweichung, so ist der sogenannte Epanechnikov-Kern [11], der in Abbildung 1 dargestellt ist, die optimale Wahl.
Für eine Stichprobe x1, …, xn und einen Kern K ergibt sich die (Kern-)Dichteschätzung an der Stelle x als
wobei die Bandbreite h > 0 von entscheidender Bedeutung für die Schätzung ist, ähnlich wie die Intervalllänge im Fall des Histogramms. Die Dichteschätzung ergibt sich demnach aus Überlagerungen der Kernfunktion, wobei diese jeweils um die Beobachtungen x1, …, xn herum ausgewertet wird. Generell wird man versuchen, die Bandbreite eher klein zu wählen, wo bei es auch hier wieder verschiedene Vorschläge für die Wahl gibt. Die Methode von Sheather und Jones (1991) [13] liefert hierbei in der Regel sehr gute Ergebnisse [14].
Violinplot
Mit Histogramm und (Kern-)Dichteschätzung lässt sich sehr schön die Form der Verteilung darstellen, jedoch sind die genaue Lage des Medians, der Quartile oder auch von Ausreißern nicht direkt ersichtlich. Umgekehrt zeigt der Box- und Whisker-Plot [1] zwar in sehr anschaulicher Form den Median, den Interquartilsabstand, Asymmetrie und Ausreißer an, es ist aber sehr schwer, die genaue Form der Verteilung zu erkennen. Der Violinplot wurde eingeführt, um die zusätzliche Information zur Struktur der vorliegenden Verteilung, welche die Dichteschätzung liefert, zum Box- und Whisker-Plot hin- zuzufügen [5].
EKZ unter Verwendung verschiedener Intervalllängen (erstellt mit R Paket ggplot2 [12])
Patient:innen an der EKZ unter Verwendung verschiedener Intervalllängen (erstellt mit R Paket ggplot2 [12])
Beispiele
Im ersten Beispiel verwenden wir die Daten der venösen Sauerstoffsättigung (SvO2) von 30 erwachsenen Patient:innen an der extrakorporalen Zirkulation (EKZ) (vgl. auch [1]). In Abbildung 2 sind Histogramme mit verschiedenen Intervalllängen zu sehen.
Die Regeln von Sturges [8], Scott [9] und Friedman und Draconis [10] liefern in diesem Fall 6, 4 und 5 Klassen, was Intervalllängen von 3,7, 5,5 und 4,4 entspricht. Auf Basis dieser Ergebnisse haben wir die Intervalllängen 2, 4, 5 und 6 getestet. Die Intervalllänge 2 scheint in der Tat zu kurz zu sein. Was die Intervalllängen 4, 5 und 6 betrifft, ist es jedoch schwer zu entscheiden, welche das beste Ergebnis liefert. Generell deutet sich eine leicht linksschiefe Verteilung (Mittelwert = 77,5 < Median = 79) an. In Abbildung 3 ergänzen wir die Histogramme um Dichteschätzungen, wobei wir anstelle der absoluten Häufigkeiten nun die Häufigkeitsdichte auf der y-Achse auftragen.
Die Bandbreite nach Sheather und Jones (1991) [13] liegt in diesem Fall bei ca. 2,5. Wir sehen, dass wir mit dem Gauß-Kern eine deutlich glattere Dichteschätzung erhalten als mit dem Epanechnikov-Kern, wobei die Unterschiede zwischen den geschätzten Dichten für beide Kerne aber recht gering sind. Die Dichteschätzungen bestätigen den Eindruck, dass eine leicht linksschiefe Verteilung vorliegt, wobei aber unklar bleibt, welche Intervalllänge für das Histogramm das beste Ergebnis liefert. Die beste Übereinstimmung zwischen Histogramm und Dichteschätzung ergibt sich tendenziell mit den Intervalllängen 5 und 6. Die Abbildung 4 zeigt einen Violinplot für die Daten unter Verwendung des Gauß-Kerns und der Bandbreite von Sheather und Jones (1991) [13].
Der Violinplot bestätigt die leicht linksschiefe Verteilung, da der Median in der Box etwas nach rechts verschoben ist und die Werte unterhalb des Medians etwas stärker streuen als oberhalb des Medians. Darüber hinaus erkennen wir, dass offenbar keine Ausreißer vorliegen. Dieses erste Beispiel zeigt, dass es schwierig ist, bei nur 30 Werten eine zuverlässige und gute Schätzung der Dichte einer Verteilung zu erhalten.
Für das zweite Beispiel verwenden wir Daten der glomerulären Filtrationsrate (GFR) nach einer Herzoperation mit EKZ, wobei wir drei Gruppen unterscheiden. Eine Gruppe erhielt für eine bessere Verteilung des Blutes zum „venösen Pooling“ zusätzlich Nitroprussid, eine zweite Gruppe zusätzlich Nitroglycerin und eine Gruppe war ohne Intervention. Es liegen Daten von 614 Patient:innen vor (Nitroprussid: 219, Nitroglycerin: 176, ohne Intervention: 219). Diese Daten wurden von uns in Tutorial 9 [15] bereits einmal genauer statistisch untersucht, wobei sich die Nitroprussid-Gruppe signifikant von den anderen beiden Gruppen unterschied. Die Regeln von Sturges [8], Scott [9] und Friedman und Draconis [10] liefern im Fall der Nitroprussid-Gruppe jeweils 9 Klassen, was einer Intervalllänge von ca. 20 entspricht. Für die Nitroglycerin-Gruppe ergeben sich 9, 8 und 12 Klassen und für die Gruppe ohne Intervention 9, 10 und 14 Klassen. Dies entspricht grob Intervalllängen von 15 bis 25. Wir verwenden daher einheitlich für alle drei Gruppen eine Intervalllänge von 20. Die Bandbreiten nach Sheather und Jones (1991) [13] liegen bei 7,7 (Nitroprussid-Gruppe), 13,2 (Nitroglycerin-Gruppe) und 10,7 (Gruppe ohne Intervention). Wir verwenden für alle drei Gruppen jeweils den Gauß-Kern.
Im Fall der Nitroprussid-Gruppe deutet sich eine bimodale („zwei Berge/Gipfel“) Verteilung an. In etwas abgeschwächter Form trifft die Bimodalität auch auf die Gruppe ohne Intervention zu. Die gefundenen Bimodalitäten deuten darauf hin, dass die beiden Gruppen jeweils aus mindestens zwei bezüglich der GFR überlappenden Subgruppen bestehen. Die erste Subgruppe der Nitroprussid-Gruppe hat eine mittlere GFR im Bereich von 50, die zweite Subgruppe im Bereich von 100. Bei der Gruppe ohne Intervention liegt die mittlere GFR der ersten Subgruppe ebenfalls im Bereich von 50, während die zweite Subgruppe eine mittlere GFR im Bereich von 125 besitzt. Im Unterschied dazu zeigt sich im Fall der Nitroglycerin-Gruppe eine unimodale („ein Berg/Gipfel“) Verteilung, die etwas rechtsschief (Mittelwert = 112 > Median = 108) ist. Hier gibt es demnach keinen klaren Hinweis auf Subgruppen. Die Übereinstimmung zwischen Histogramm und Dichteschätzung ist bei allen drei Gruppen gut, was auf die recht hohen Fallzahlen zurückzuführen sein dürfte. In Abbildung 6 sind die Daten der drei Gruppen nebeneinander unter Verwendung von Violinplots dargestellt.
Die bimodale Verteilung im Fall der Nitroprussid-Gruppe und der Gruppe ohne Intervention wäre in reinen Box- und Whisker-Plots nicht ersichtlich (vgl. auch [15]). Im Fall der Nitroglycerin-Gruppe und der Gruppe ohne Intervention deuten sich einige wenige Ausreißer an. Diese könnten aber durchaus auch auf die speziellen Verteilungsformen zurückzuführen sein. Auch wenn wir in unserer detaillierten Analyse Hinweise auf gewisse Abweichungen von der Symmetrie und der Unimodalität gefunden haben, zeigen die Ergebnisse der verschiedenen statistischen Analysen in Tutorial 9 [15], dass diese Abweichungen offenbar keinen großen oder sogar entscheidenden Einfluss auf die durchgeführten Analysen haben. Dies kann mit großer Sicherheit auf die recht großen Fallzahlen zurückgeführt werden. Je größer die Fallzahl ist, desto weniger Einfluss haben kleine Abweichungen von den notwendigen Voraussetzungen in der Regel auf die statistische Analyse. Vorsicht ist jedoch nahezu immer bei auffälligen Ausreißern geboten. Da es sich in diesem Beispiel um eine Beobachtungsstudie mit retrospektiven Daten handelt, wäre es auf jeden Fall angebracht, die Nitroprussid-Gruppe und die Gruppe ohne Intervention nochmals genauer zu betrachten und nachzuprüfen, ob die gefundenen Bimodalitäten auf klinisch relevante Subgruppen zurückzuführen sind. Sollte dies der Fall sein, sollte man die Ein- und Ausschlusskriterien für die Gruppen nochmals überdenken und gegebenenfalls anpassen.
Zusammenfassung
Histogramme und (Kern-)Dichteschätzungen stellen wichtige grafische Hilfsmittel dar, um die Verteilung vorliegender Daten zu untersuchen. Sie zeigen uns die genaue Form der Verteilung und ermöglichen es uns damit zum Beispiel, Abweichungen von Symmetrie oder Unimodalität zu erkennen. Bei den Histogrammen empfiehlt es sich, Plots mit unterschiedlichen Intervalllängen miteinander zu vergleichen. Bei der (Kern-) Dichteschätzung ist der Gauß-Kern in Kombination mit der Bandbreite nach Sheather und Jones (1991) [13] üblicherweise eine gute Wahl. Insbesondere bei kleinen und moderaten Stichprobengrößen sollte die Erzeugung und Interpretation dieser Plots aber immer mit großer Sorgfalt durchgeführt werden. Aufgrund der limitierten Fallzahl besitzen die erzeugten Plots dann auch nur eine eingeschränkte Aussagekraft und sollten daher nicht überbewertet werden. Der Violinplot kombiniert die Informationen von Box- und Whisker-Plot und Dichteschätzung und stellt damit eine sehr interessante Alternative zum Box- und Whisker-Plot dar.