KONTINGENZTAFEL
Der erste Schritt in der Untersuchung des Zusammenhangs zweier nominaler Merkmale besteht in der Aufstellung der sogenannten Kontingenztafel oder Kreuztabelle (vgl. Abschnitt 7.7.11 in [2]). Hierbei handelt es sich um eine Tabelle, welche die (absoluten) Häufigkeiten für die Merkmalskombinationen der beiden Merkmale beinhaltet (vgl. Abb. 1).
Gibt es keinen Zusammenhang zwischen X und Y bzw. mathematisch genauer ausgedrückt, sind X und Y stochastisch unabhängig, so gilt im Fall der r x s-Kontingenztafel aus Abb. 1:

für i = 1, 2, …, r und j = 1, 2, …, s. Hieraus folgt für die erwartete Anzahl von Beobachtungen in Zelle ij

Diese erwartete Anzahl, die man unter der Annahme erhält, dass X und Y stochastisch unabhängig sind, kann nun mit der tatsächlich beobachteten Anzahl nij verglichen werden. Hierfür wird meist die folgende χ2-Statistik herangezogen:

Sind X und Y stochastisch unabhängig, so ist dies äquivalent zu nij = eij für alle i = 1, 2, …, r und j = 1, 2, …, s und folglich auch äquivalent zu χ2 = 0. Ergibt sich demnach für zwei Merkmale X und Y, dass χ2 > 0 ist, so müssen X und Y stochastisch abhängig sein. Hierbei ist zu beachten, dass bei realen Datensätzen gewisse zufällige Abweichungen von den erwarteten Werten auftreten, weshalb wir nahezu immer χ2 > 0 bekommen. Wollen wir uns sicher sein, dass tatsächlich eine stochastische Abhängigkeit vorliegt, sollten wir zusätzlich ein Konfidenzintervall für die χ2-Statistik oder den zugehörigen χ2-Test berechnen. Ist der linke Rand des 95 %-Konfidenzintervalls größer als 0, so können wir von einem signifikanten Zusammenhang zwischen X und Y sprechen. Der Wert der χ2-Statistik sagt außerdem nichts über die Stärke des Zusammenhangs aus, da der Wert von der vorliegenden Stichprobengröße n abhängt. Ein Ausweg besteht darin, die χ2-Statistik zu standardisieren. Dies führt uns auf die sogenannten Kontingenzkoeffizienten.

KONTINGENZKOEFFIZIENT VON PEARSON
Bereits im Jahr 1904 führte Pearson einen ersten Kontingenzkoeffizienten CC ein [3]. Er definierte seine Koeffizienten wie folgt:

Leider ist auch dieser Koeffizient etwas schwierig zu interpretieren, da das Maximum gleich √(M – 1)/M mit M = min {r, s} ist. Das Maximum hängt somit von der minimalen Anzahl von Merkmalsausprägungen von X und Y ab. Alternativ sollte daher besser der folgende normierte Pearson-Koeffizient verwendet werden (vgl. Abschnitt 7.7.11.1 in [2]):

φ -KOEFFIZIENT
Pearson [3] beschreibt außerdem den folgenden φ-Koeffizienten, welchen man als mittlere quadratische Kontingenz bezeichnen kann (vgl. Abschnitt 7.7.11.1 in [2]):


KONTINGENZKOEFFIZIENT VON CRAMÉR
Cramér [6] führt den folgenden Kontingenzkoeffizienten ein, der auch als Cramérs V bezeichnet wird (vgl. Abschnitt 7.7.11.1 in [2]):

wobei M = min{r, s}. Der Nenner n·(M–1) entspricht gerade dem Maximum der χ2-Statistik, weshalb Cramérs V alle Werte zwischen 0 und 1 annehmen kann. X und Y sind genau dann stochastisch unabhängig, wenn V = 0 und genau dann vollständig stochastisch abhängig, wenn V = 1. Obwohl dies auch für den normierten Pearson-Koeffizienten CCnorm gilt, sind V und CCnorm trotzdem nicht identisch und V sollte CCnorm vorgezogen werden. Für die Bewertung der Stärke des Zusammenhangs von X und Y auf der Basis von V gibt es verschiedenste Vorschläge, die wie im Fall der Korrelation auch vom entsprechenden Kontext abhängen. Überträgt man den Vorschlag von Cohen [5] für den φ-Koeffizient auf Cramérs V, so ergeben sich aufgrund des oben dargestellten Zusammenhangs zwischen V und φ die Effektstärken in Tab. 2. Die Bewertung der Effektstärke hängt folglich von der Größe der Kontingenztafel ab. Für größere Kontingenztafeln gelten demnach kleinere Grenzen.

BEISPIEL
Wir untersuchen den Zusammenhang zwischen dem Operateur (r = 5) und der gewählten Myokardprotektion (s = 4) bei kardioplegischem Herzstillstand auf der Basis von 627 Operationen (eigene Daten). Wir erhalten die in Tab. 3 dargestellte Kontingenztafel.

Wir veranschaulichen den Zusammenhang mit einem sogenannten Mosaikdiagramm (vgl. Abb. 2).
Auf der linken Seite von Abb. 2 sehen wir ein Mosaikdiagramm der beobachteten Häufigkeiten, auf der rechten Seite ein Mosaikdiagramm der erwarteten Häufigkeiten. Hierbei sind die rechteckigen Felder proportional zu den Häufigkeiten. Den auffälligsten Unterschied sehen wir bei Operateur 3. Insgesamt sehen wir aber nur relativ geringe Verschiebungen zwischen dem linken und dem rechten Diagramm. Wir gehen daher von einem eher schwachen Zusammenhang zwischen dem Operateur und dem Myokardprotektionsverfahren aus. Dies wollen wir nun mit Hilfe der oben vorgestellten Kontingenzkoeffizienten ausdrücken und verwenden hierfür die Statistiksoftware R [7]. Zur Berechnung der 95 %-Konfidenzintervalle (CI95) verwenden wir die Bootstrap-Bca-Methode mit 9999 Wiederholungen (vgl. doi Supplement https://doi.org/10.47624/ kt.031.ZZUR4312 von [10]). Wir erhalten eine χ2-Statistik von χ2 = 33,31 (CI95: 11,96 – 45,61). Da der linke Rand des CI95 größer 0 ist, können wir schließen, dass ein signifikanter Zusammenhang zwischen dem Operateur und dem Verfahren zur Myokardprotektion besteht. Wir wissen jedoch noch nicht, wie stark dieser Zusammenhang tatsächlich ist. Der Kontingenzkoeffizient von Pearson liegt bei CC = 0,225 (CI95: 0,133 – 0,261) und der normierte Pearson-Koeffizient bei CCnorm = 0,259 (CI95: 0,163 – 0,299). Als φ-Koeffizient ergibt sich φ = 0,230 (CI95: 0,141 – 0,269), was einer kleinen Effektstärke und demnach einem schwachen Zusammenhang entspricht (vgl. Tab. 1). Für Cramérs V schließlich erhalten wir V = 0,133 (CI95: 0,079 – 0,156). Auchdies entspricht einem schwachen Zusammenhang, da es zwischen 0,1/√3 = 0,057 und 0,3/√3 = 0,173 liegt (vgl. Tab.2). Da die linken Ränder der CI95 aller Kontingenzkoeffizienten größer 0 sind, können wir analog zur χ2-Statistik schließen, dass ein signifikanter Zusammenhang zwischen dem Operateur und dem Myokardprotektionsverfahren vorliegt. Aufgrund der Werte des φ-Koeffizienten und von Cramérs V ist dieser Zusammenhang, wie bereits anhandvon Abb. 2 vermutet, aber nur schwach und daher vermutlich ohne klinische Relevanz.

Zusammenfassung
Mit Kontingenzkoeffizienten lassen sich auf einfache Weise Zusammenhänge zwischen zwei nominalen Variablen untersuchen. Von den verschiedenen vorgestellten Kontingenzkoeffizienten eignet sich Cramérs V für praktische Anwendungen am besten, da dieser die geeignetste Standardisierung besitzt. Jedoch muss im Fall von Cramérs V für die Bewertung der Effektstärke auch die Größe der Kontingenztafel berücksichtigt werden. Im Unterschied zur Korrelation ist das Vorliegen einer Kontingenz (stochastischen Abhängigkeit) schwierig graphisch zu veranschaulichen. Man kann hierfür zum Beispiel sogenannte Mosaikdiagramme verwenden.