Statistik Teil 5: Kontingenzkoeffizienten

KARDIOTECHNIK Ausgabe:
01-2023

Autor:innen

Kohl, F. Münch

Hauptautor:in

Prof. Dr. Matthias Kohl

Department of Medical and Life Sciences Institute of Precision Medicine Hochschule Furtwangen

Jakob-Kienzle-Str. 17,

78054 Villingen-Schwenningen (Germany)

E-Mail: kohl@hs-furtwangen.de www.hs-furtwangen.de

www.life-data-science.org

KONTINGENZTAFEL

Der erste Schritt in der Untersuchung des Zusammenhangs zweier nominaler Merkmale besteht in der Aufstellung der sogenannten Kontingenztafel oder Kreuztabelle (vgl. Abschnitt 7.7.11 in [2]). Hierbei handelt es sich um eine Tabelle, welche die (absoluten) Häufigkeiten für die Merkmalskombinationen der beiden Merkmale beinhaltet (vgl. Abb. 1).

Gibt es keinen Zusammenhang zwischen X und Y bzw. mathematisch genauer ausgedrückt, sind X und Y stochastisch unabhängig, so gilt im Fall der r x s-Kontingenztafel aus Abb. 1:

für i = 1, 2, …, r und j = 1, 2, …, s. Hieraus folgt für die erwartete Anzahl von Beobachtungen in Zelle ij

Diese erwartete Anzahl, die man unter der Annahme erhält, dass X und Y stochastisch unabhängig sind, kann nun mit der tatsächlich beobachteten Anzahl nij verglichen werden. Hierfür wird meist die folgende χ2-Statistik herangezogen:

Sind X und Y stochastisch unabhängig, so ist dies äquivalent zu nij = eij für alle i = 1, 2, …, r und j = 1, 2, …, s und folglich auch äquivalent zu χ2 = 0. Ergibt sich demnach für zwei Merkmale X und Y, dass χ2 > 0 ist, so müssen X und Y stochastisch abhängig sein. Hierbei ist zu beachten, dass bei realen Datensätzen gewisse zufällige Abweichungen von den erwarteten Werten auftreten, weshalb wir nahezu immer χ2 > 0 bekommen. Wollen wir uns sicher sein, dass tatsächlich eine stochastische  Abhängigkeit vorliegt, sollten wir zusätzlich ein Konfidenzintervall für die χ2-Statistik oder den zugehörigen χ2-Test berechnen. Ist der linke Rand des 95 %-Konfidenzintervalls größer als 0, so können wir von einem signifikanten Zusammenhang zwischen X und Y sprechen. Der Wert der χ2-Statistik sagt außerdem nichts über die Stärke des Zusammenhangs aus, da der Wert von der vorliegenden Stichprobengröße n abhängt. Ein Ausweg besteht darin, die χ2-Statistik zu standardisieren. Dies führt uns auf die sogenannten Kontingenzkoeffizienten.

Abb. 1: Definition der allgemeinen r x s-Kontingenztafel

KONTINGENZKOEFFIZIENT VON PEARSON

Bereits im Jahr 1904 führte Pearson einen ersten Kontingenzkoeffizienten CC ein [3]. Er definierte seine Koeffizienten wie folgt:

Leider ist auch dieser Koeffizient etwas schwierig zu interpretieren, da das Maximum gleich √(M – 1)/M mit M = min {r, s} ist. Das Maximum hängt somit von der minimalen Anzahl von Merkmalsausprägungen von X und Y ab. Alternativ sollte daher besser der folgende normierte Pearson-Koeffizient verwendet werden (vgl. Abschnitt 7.7.11.1 in [2]):

Damit ergibt sich ein Koeffizient, welcher die Werte von 0 bis 1 annehmen kann, wobei X und Y genau dann stochastisch unabhängig sind, wenn CCnorm = 0 und genau dann vollständig stochastisch abhängig sind, wenn CCnorm = 1.

φ -KOEFFIZIENT

Pearson [3] beschreibt außerdem den folgenden φ-Koeffizienten, welchen man als mittlere quadratische Kontingenz bezeichnen kann (vgl. Abschnitt 7.7.11.1 in [2]):

Der φ-Koeffizient liegt immer im Intervall [0, 1], wobei X und Y genau dann stochastisch unabhängig sind, wenn φ = 0.Der Wert 1 wird aber nur angenommen, falls r = 2 und/oder s = 2. Betrachtet man den Fall r = s = 2 und kodiert die nominalen Variablen mit 0 und 1, so ist der φ-Koeffizient gerade identisch zur Pearson-Korrelation (vgl. [1]) und zum Korrelationskoeffizienten von Matthews (MCC) [4], welcher im Kontext binärer Klassifikationen verwendet wird. Der φ-Koeffizient ist außerdem identisch zu Cohen’s w [5]. Die Effektstärken, die Cohen für sein w und damit für den φ-Koeffizienten vorschlägt, finden sich in Tab. 1.
Tab. 1: Effektstärken für den φ-Koeffizienten

KONTINGENZKOEFFIZIENT VON CRAMÉR

Cramér [6] führt den folgenden Kontingenzkoeffizienten ein, der auch als Cramérs V bezeichnet wird (vgl. Abschnitt 7.7.11.1 in [2]):

wobei M = min{r, s}. Der Nenner n·(M–1) entspricht gerade dem Maximum der χ2-Statistik, weshalb Cramérs V alle Werte zwischen 0 und 1 annehmen kann. X und Y sind genau dann stochastisch unabhängig, wenn V = 0 und genau dann vollständig stochastisch abhängig, wenn V = 1. Obwohl dies auch für den normierten Pearson-Koeffizienten CCnorm gilt, sind V und CCnorm trotzdem nicht identisch und V sollte CCnorm vorgezogen werden. Für die Bewertung der Stärke des Zusammenhangs von X und Y auf der Basis von V gibt es verschiedenste Vorschläge, die wie im Fall der Korrelation auch vom entsprechenden Kontext abhängen. Überträgt man den Vorschlag von Cohen [5] für den φ-Koeffizient auf Cramérs V, so ergeben sich aufgrund des oben dargestellten Zusammenhangs zwischen V und φ die Effektstärken in Tab. 2. Die Bewertung der Effektstärke hängt folglich von der Größe der Kontingenztafel ab. Für größere Kontingenztafeln gelten demnach kleinere Grenzen.

Tab. 2: Effektstärken für Cramérs V mit M = min {r, s}

BEISPIEL

Wir untersuchen den Zusammenhang zwischen dem Operateur (r = 5) und der gewählten Myokardprotektion (s = 4) bei kardioplegischem Herzstillstand auf der Basis von 627 Operationen (eigene Daten). Wir erhalten die in Tab. 3 dargestellte Kontingenztafel.

Tab. 3: Kontingenztafel für die Untersuchung des Zusammenhangs zwischen Operateur und dem gewählten Myokardprotektionsverfahren (Beating Heart, Custodiol, Mikroplegie und Kombiverfahren aus Custodiol + Mikroplegie

Wir veranschaulichen den Zusammenhang mit einem sogenannten Mosaikdiagramm (vgl. Abb. 2).

Auf der linken Seite von Abb. 2 sehen wir ein Mosaikdiagramm der beobachteten Häufigkeiten, auf der rechten Seite ein Mosaikdiagramm der erwarteten Häufigkeiten. Hierbei sind die rechteckigen Felder proportional zu den Häufigkeiten. Den auffälligsten Unterschied sehen wir bei Operateur 3. Insgesamt sehen wir aber nur relativ geringe Verschiebungen zwischen dem linken und dem rechten Diagramm. Wir gehen daher von einem eher schwachen Zusammenhang zwischen dem Operateur und dem Myokardprotektionsverfahren aus. Dies wollen wir nun mit Hilfe der oben vorgestellten Kontingenzkoeffizienten ausdrücken und verwenden hierfür die Statistiksoftware R [7]. Zur Berechnung der 95 %-Konfidenzintervalle (CI95) verwenden wir die Bootstrap-Bca-Methode mit 9999 Wiederholungen (vgl. doi Supplement https://doi.org/10.47624/ kt.031.ZZUR4312 von [10]). Wir erhalten eine χ2-Statistik von χ2 = 33,31 (CI95: 11,96 – 45,61). Da der linke Rand des CI95 größer 0 ist, können wir schließen, dass ein signifikanter Zusammenhang  zwischen dem Operateur und dem Verfahren zur Myokardprotektion besteht. Wir wissen jedoch noch nicht, wie stark dieser Zusammenhang tatsächlich ist. Der Kontingenzkoeffizient von Pearson liegt bei CC = 0,225 (CI95: 0,133 – 0,261) und der normierte Pearson-Koeffizient bei CCnorm = 0,259 (CI95: 0,163 – 0,299). Als φ-Koeffizient ergibt sich φ = 0,230 (CI95: 0,141 – 0,269), was einer kleinen Effektstärke und demnach einem schwachen Zusammenhang entspricht (vgl. Tab. 1). Für Cramérs V schließlich erhalten wir V = 0,133 (CI95: 0,079 – 0,156). Auchdies entspricht einem schwachen Zusammenhang, da es zwischen 0,1/√3 = 0,057 und 0,3/√3 = 0,173 liegt (vgl. Tab.2). Da die linken Ränder der CI95 aller Kontingenzkoeffizienten größer 0 sind, können wir analog zur χ2-Statistik schließen, dass ein signifikanter Zusammenhang zwischen dem Operateur und dem Myokardprotektionsverfahren vorliegt. Aufgrund der Werte des φ-Koeffizienten und von Cramérs V ist dieser Zusammenhang, wie bereits anhandvon Abb. 2 vermutet, aber nur schwach und daher vermutlich ohne klinische Relevanz.

Abb. 2: Mosaikdiagramme der beobachteten (links) und erwarteten (rechts) Häufigkeiten für die nominalen Merkmale Operateur und Myokardprotektionsverfahren auf Basis von 627 Operationen (erstellt mit der Statistiksoftware R [7] und den R Paketen ggplot2 [8] und ggmosaic [9])

Zusammenfassung

Mit Kontingenzkoeffizienten lassen sich auf einfache Weise Zusammenhänge zwischen zwei nominalen Variablen untersuchen. Von den verschiedenen vorgestellten Kontingenzkoeffizienten eignet sich Cramérs V für praktische Anwendungen am besten, da dieser die geeignetste Standardisierung besitzt. Jedoch muss im Fall von Cramérs V für die Bewertung der Effektstärke auch die Größe der Kontingenztafel berücksichtigt werden. Im Unterschied zur Korrelation ist das Vorliegen einer Kontingenz (stochastischen Abhängigkeit) schwierig graphisch zu veranschaulichen. Man kann hierfür zum Beispiel sogenannte Mosaikdiagramme verwenden.

Literatur

  1. Kohl M, Münch F. Statistik Teil 4: Korrelationen. Kardiotechnik 2022; 31(4):146-149.
  2. Hedderich J, Sachs L (2020). Angewandte Statistik. Methodensammlung mit R.Auflage, Springer-Verlag.
  3. Pearson K. On the Theory of Contingency and its Relation to Association and Normal Correlation. London 1904: Drapers’ Co. Memoirs (Biometric Series No. 1; pp 1-35).
  4. Matthews BW. Comparison of the predicted and observed secondary structure of T4 phage lysozyme. Biochim Biophys Acta 1975 Oct 20; 405(2):442-51.
  5. Cohen, J. Statistical Power Analysis for the Social Sciences (2nd. Edition). Hillsdale 1988, New Jersey, Lawrence Erlbaum Associates.
  6. Cramér H. Mathematical Methods of Statistics. Princeton 1946, NJ: Princeton Univ. Press; pp. 592.
  7. R Core Team R: A language and environment for statistical computing. R Foundation for Statistical Computing 2022, Vienna, Austria. URL https://R-project.org/.
  8. Wickham H. ggplot2: Elegant Graphics for Data Analysis. Springer-Verlag 2016,New York.
  9. Jeppson H, Hofmann H, Cook D. ggmosaic: Mosaic Plots in the ‘ggplot2’ Framework. 2021; R package version 0.3.3.
  10. Kohl M, Münch F. Statistik Teil 3: Konfidenzintervalle. Kardiotechnik 2022; 31(3):95-98. doi: 10.47624/kt.031.QQOV9624

Willkommen zur neuen Webseite

Nach über einem ¾ Jahr der Planung, intensiven Meetings, Codierung und Schreibarbeit ist am 13.01.2025 ist unsere neue Website live gegangen und wir sind stolz, hier ein neues Zuhause für unsere Mitglieder geschaffen zu haben. Zukünftig soll sie zur zentralen Plattform des Austauschs in unserer Community werden. Dafür arbeiten wir im Hintergrund an spannenden Erweiterungen.

Ein Highlight wird ein eigener „News“-Bereich sein, der euch stets über aktuelle Entwicklungen rund um Perfusion und technische Medizin informiert. Schaut regelmäßig vorbei und bringt euch ein – wir freuen uns auf eure Anregungen!

Anmeldung

Achtung: Mehrfache Anforderungen beschleunigen die Mailzustellung nicht.
Als Mitglied der DGPTM können Sie sich mit der bei uns hinterlegten Mailadresse oder Ihrem Benutzernamen ganz einfach mit einem Einmalpasswort einloggen. Dieses bekommen Sie per Mail geschickt. Sie werden danach direkt in den Internen Bereich geleitet.
Ihr Benutzername besteht aus den ersten beiden Buchstaben Ihres Vornamens und Ihrem Nachname (ä=ae ect).