Die Perfusiologie stellt in der Rubrik Tutorials in Folge relevante Methoden für wissenschaftliche Arbeiten zur klinischen Perfusion und technischen Medizin vor.

Statistik Teil 10: Wichtige Tests für nominale Merkmale

Die Perfusiologie stellt in der Rubrik Tutorials in Folge relevante Methoden für wissenschaftliche Arbeiten zur klinischen Perfusion und technischen Medizin vor.

KARDIOTECHNIK Ausgabe:
02-2024

Autor:innen

  1. Kohl, F. Münch

Prof. Dr. Matthias Kohl

Department of Medical and Life Sciences Institute of Precision Medicine Hochschule Furtwangen

Jakob-Kienzle-Str. 17,

78054 Villingen-Schwenningen (Germany)

Phone: +49 (0) 7720 307-4635 · E-Mail: kohl@hs-furtwangen.de www.hs-furtwangen.de · www.life-data-science.org

Einführung

Nachdem wir in den letzten Tutorials statistische Signifikanztests [1] für quantitative und ordinale Merkmale [2,3] behandelt haben, werden wir in diesem Tutorial auf wichtige Tests für nominale Merkmale eingehen, wobei wir den k-Stichprobenfall (k ≥ 1) betrachten. Hierbei unterscheiden wir zwischen Merkmalen mit zwei (binär/dichotom) und mehr Merkmalsausprägungen. Wir werden verschiedene exakte, asymptotische und approximative Tests vorstellen und auch auf Permutations- oder Bootstrap-Alternativen eingehen. Für die Auswahl geeigneter Tests stellen wir Entscheidungsbäume zur Verfügung. Alle Tests werden anhand von realen Daten demonstriert.

Binäre/dichotome Merkmale

Die Betrachtung von binären/dichotomen Merkmalen führt uns auf die Bernoulli- bzw. Binomial-Verteilung und wir vergleichen die sogenannte Erfolgswahrscheinlichkeit von k (k ≥ 1) Gruppen (k-Stichprobenfall). Im Fall k = 1 vergleichen wir die Erfolgswahrscheinlichkeit p mit einem vorgegebenen Wert p0. Im Fall k ≥ 2 führt uns dies auf die folgende Nullhypothese

H0: p1 = … = pk

Die Alternative lautet entsprechend, dass mindestens zwei Gruppen unterschiedliche Erfolgswahrscheinlichkeiten aufweisen. Die Gruppen können hierbei abhängig oder unabhängig sein. Im Fall von abhängigen Gruppen liegen üblicherweise Messwiederholungen von k verschiedenen Zeitpunkten vor. Neben der Erfolgswahrscheinlichkeit werden aber auch das relative Risiko oder das Chancenverhältnis (Odds-Ratio) zum statistischen Vergleich der Gruppen herangezogen. Hierbei können aber immer nur zwei Gruppen verglichen werden. Im Fall k ≥ 3 kann man dies erreichen, indem man die Gruppen paarweise betrachtet oder immer eine Gruppe mit allen anderen vergleicht (Gruppe i vs. nicht Gruppe i). Zur Vereinfachung beschränken wir uns in der Darstellung auf den Fall k = 2. Wir erhalten für das relative Risiko (RR)

Dabei ist zu beachten, dass die Odds-Ratio nicht wie ein relatives Risiko interpretiert werden kann und man sich der unterschiedlichen Bedeutung der beiden Risikomaße bewusst sein sollte [4]. Auch kann aus der geschätzten Odds-Ratio nicht direkt eine Schätzung für das relative Risiko oder für die Wahrscheinlichkeiten p1 oder p2 abgeleitet werden.

Im Fall von mehr als zwei Gruppen ist bei einem signifikanten Testergebnis nicht unmittelbar klar, welche Gruppen sich hinsichtlich ihrer Erfolgswahrscheinlichkeiten, relativen Risiken oder Odds-Ratios unterscheiden. In diesem Fall kommen daher üblicherweise sogenannte Post-hoc-Tests zum Einsatz, bei denen meist alle Gruppen paarweise miteinander verglichen werden. Damit hierbei der Fehler 1. Art unter Kontrolle bleibt, werden die p-Werte in der Regel adjustiert. Wir werden hierfür die Methode von Holm [5] verwenden, wie im letzten Tutorial [3] beschrieben. Bei der Anwendung von Post-hoc-Tests ist unbedingt darauf zu achten, dass die ausgewählten Tests zum globalen Test passen, da es ansonsten zu inkonsistenten Ergebnissen kommen kann. Da die Ergebnisvariable nur zwei Wertemöglichkeiten besitzt, lassen sich die Daten kompakt in einer 2 x k-Kontingenztafel [6] zusammenfassen. Eine Übersicht über die ausgewählten Tests, die wir im Folgenden etwas genauer besprechen werden, findet sich in Abbildung 1.

Abb. 1: Auswahl eines geeigneten Tests für binäre/dichotome Merkmale

Für den Fall k = 1 kann ein exakter Binomialtest oder auch dessen asymptotische Variante basierend auf der Normalverteilung verwendet werden. Darüber hinaus kann auch ein entsprechender Permutations- oder Bootstrap-Test zum Einsatz kommen. Gerade im 1-Stichprobenfall stellen auch Konfidenzintervalle eine sehr interessante Alternative zu statistischen Signifikanztests dar.

Im Fall von k = 2 unabhängigen Gruppen steht eine Vielzahl von Tests zur Auswahl [7], wobei man zwischen bedingten und unbedingten Tests unterscheidet. Diese Unterscheidung der Tests ist auch in den zugehörigen Studiendesigns ersichtlich. Die unbedingten Tests spiegeln das typische parallele Gruppendesign von klinischen Studien wider, in denen üblicherweise die Fallzahl pro Gruppe fixiert ist, aber die Anzahl der Erfolge unbekannt ist. Bei den bedingten Tests wird zusätzlich angenommen, dass auch die Anzahl der Erfolge vorgegeben ist. Eine entsprechend geplante Studie würde also gestoppt, sobald diese Anzahl erreicht ist. Die bedingten Tests sind entsprechend etwas einfacher und schneller zu berechnen und auch wenn das zugehörige Studiendesign nicht der üblichen Situation in klinischen Studien entspricht, halten die bedingten Tests im Fall des unbedingten Studiendesigns trotzdem den Fehler 1. Art ein, wobei sie aber konservativer sind (d. h. größere p-Werte liefern und eher die Nullhypothese beibehalten) und eine schlechtere Power besitzen als die unbedingten Tests [8]. Im dritten möglichen Studiendesign ist außerdem nicht von vorneherein klar, wie sich die Patient:innen auf die Gruppen verteilen. Dies ist bei Beobachtungsstudien, genauer bei Querschnittsstudien, der Fall.In klinischen Studien ist der exakte Test von Fisher üblich, bei dem es sich um einen bedingten Test handelt, was meist dadurch gerechtfertigt wird, dass der Test den Fehler 1. Art einhält, auch wenn er als konservativ bekannt ist. Betrachtet man allerdings die Power und damit verbunden die benötigte Fallzahl, so sollten auch in klinischen Studien besser unbedingte Tests, also der Barnard-Test [9] oder der Boschloo-Test [10], zum Einsatz kommen. Der Barnard-Test ist zudem auch im Fall von Querschnittstudien verwendbar. Bei den exakten bedingten und unbedingten Tests handelt es sich um exakte Permutationstests, bei denen man alle durch Permutation der Daten möglichen Ergebnisse mit den tatsächlich vorliegenden Ergebnissen vergleicht. Da die Anzahl der Permutationen in praktischen Anwendungen sehr groß sein kann, auch für moderne Computer, kommen häufig approximative Permutationstests zum Einsatz, bei denen nur eine Zufallsauswahl (Ziehen ohne 

Zurücklegen) von allen Permutationen in die Berechnungen einbezogen wird. Dies ist ähnlich zur Idee des Bootstraps, wobei beim Bootstrap üblicherweise ein Ziehen mit Zurücklegen vorgenommen wird.

Im Fall von k = 2 abhängigen Gruppen kommt in der Praxis üblicherweise der McNemar-Test [11] zum Einsatz. Auch der Vorzeichentest wäre eine mögliche Option, ist aber recht konservativ. Darüber hinaus können auch wieder Permutations- oder Bootstrap-Varianten der Tests bzw. entsprechende Konfidenzintervalle verwendet werden.

Die Situation im Fall von k ≥ 3 Stichproben ist sehr ähnlich zum 2-Stichprobenfall. Die Verallgemeinerung des McNemar-Tests im Fall von abhängigen Gruppen ist der Cochran Q-Test [12]. Eine weitere Alternative für den Fall von Messwiederholungen wäre eine logistische Regressionsanalyse mit gemischten Effekten. Man spricht in diesem Fall auch von einer Devianzanalyse in Analogie zur Varianzanalyse beim Vergleich von  Mittelwerten. Im unabhängigen Fall kann der exakte Test von Fisher (und seine Varianten) auch für mehr als 2 Gruppen angewendet werden. Den häufig in der Praxis verwendeten X2-Test von Pearsonbetrachten wir als eine Variante des exakten Tests von Fisher. Der Test von Barnard [9] lässt sich auch auf mehr als 2 Gruppen erweitern [13]. Ehwerhemuepha et al. (2019) schlagen einen exakten unbedingten Test für 2 x k-Kontingenztafeln vor, der schneller zu berechnen ist [14]. Leider ist uns keine Implementation dieser beiden exakten unbedingten Tests bekannt. Alternativ kann auch eine logistische Regressionsanalyse verwendet werden. Alle hier für k ≥ 3 vorgestellten Tests lassen sich auch für den Fall k = 2 anwenden und können somit insbesondere als Post-hoc- Tests für die paarweisen Vergleiche der Gruppen verwendet werden.

Wir verwenden die Statistiksoftware R für die Berechnungen [15], wobei wir jeweils angeben, mit welchen R-Paketen die Berechnungen erfolgten. In allen Fällen betrachten wir einen Test als signifikant, falls der (adjustierte) p-Wert kleiner als das vorgegebene Signifikanzniveau von α = 5 % ist. Außerdem verwenden wir zur Demonstration jeweils mehrere Tests. In einer realen Studie sollte der anzuwendende statistische Test bereits bei der Planung der Studie festgelegt werden, um den Fehler 1. Art einzuhalten [1].

Zur Demonstration der Tests für den 1- und 2-Stichprobenfall wählen wir die Daten aus [1]. Es handelt sich um eine hypothetische Studie zum Vergleich der beiden Kardioplegieverfahren Custodiol (CCC) und Calafiore (MBC). Aus einem vorliegenden, größeren Datensatz bestehend aus 542 Patient:innen (187 Patient:innen mit CCC, 355 Patient:innen mit MBC) wurden zufällig 67 Patient:innen für jede Gruppe ausgewählt. Wir werden im Folgenden die 30-Tage-Mortalität der Patient:innen genauer untersuchen. Wir erhalten die 2 x 2-Kontingenztafel in Tabelle 1. Im Fall von 3 Patient:innen (1 x CCC, 2 x MBC) liegt die Information zur 30-Tage-Mortalität nicht vor.

Tab. 1: 2 x 2-Kontingenztafel einer hypothetischen Studie zum Vergleich der
30-Tage-Mortalität von CCC und MBC

In einem ersten Schritt wollen wir den 1-Stichprobenfall demonstrieren und verzichten auf die Unterteilung in die beiden Kardioplegieverfahren. Wir untersuchen, ob die 30-Tage-Mortalität signifikant kleiner als 5 % ist (einseitiger Test). Wir geben jeweils auch das zugehörige 95 %-Konfidenzintervall (CI95) an. Die verwendeten Tests sind im R-Paket stats [15] enthalten. Für den exakten Binomialtest erhalten wir p = 0,211 (CI95: 0,0–6,8 %), für den asymptotischen Test p = 0,206 (CI95: 0,0–7,1 %). In beiden Fällen ist der Test nicht signifikant. Das Bootstrap-Konfidenzintervall mit Hilfe der t-Methode lautet 0,0–7,6 %. Die 30-Tage-Mortalität könnte demnach auch größer oder gleich 5 % sein. Dies ist auch daran ersichtlich, dass 5 % innerhalb der 95 %-Konfidenzintervalle für die 30-Tage-Mortalität liegt. Das Konfidenzintervall des exakten Tests entspricht dem Clopper-Pearson-Konfidenzintervall.

In einem zweiten Schritt vergleichen wir die 30-Tage-Mortalität zwischen CCC und MBC (2 unabhängige Gruppen). Der exakte Test von Fisher aus dem R-Paket stats [15] liefert p = 0,58 (CI95 für OR: [0,0–1,46]), der Boschloo-Test aus dem R-Paket exact2x2 [16] p = 0,054 (CI95 für OR: [0,0–1,02]) und der Barnard-Test aus dem R-Paket Exact [17] p = 0,031 (CI95 für p1 – p2: [–0,144 – 0,005]). Die Berechnungen für den Boschloo-Test dauerten ca. 5 Minuten, für den Barnard-Test waren es mehr als 11 Stunden. Außerdem liefert Bootstrap mit der t-Methode, welches mit Hilfe des R-Pakets MKinfer [18] berechnet wurde, ein CI95 von [–0,116, 0,009] für die Differenz der beiden Mortalitätswahrscheinlichkeiten (p1 – p2). Dies entspricht einem nicht signifikanten Test, da 0 im Intervall enthalten ist. Wir erhalten also mit Ausnahme des Barnard-Tests keinen signifikanten Unterschied zwischen den beiden Verfahren.

Für den k-Stichprobenfall (k ≥ 3) verwenden wir einen Datensatz von 627 Herzoperationen, bei denen insgesamt vier verschiedene Protektionsverfahren dokumentiert wurden [6], wobei wir wieder die 30-Tage-Mortalität untersuchen wollen. Neben den Verfahren CCC und MBC kam eine Kombination von CCC plus MBC sowie eine Operation am schlagenden Herzen (Beating Heart (BH)) zum Einsatz. Bei 11 Patient:innen (1 x CCC, 9 x MBC, 1 x BH) liegt die Information zur 30-Tage-Mortalität nicht vor. Wir erhalten die 2 x 4-Kontingenztafel in Tabelle 2.

Tab. 2: 2 x 4-Kontingenztafel einer Beobachtungsstudie zum Vergleich der
30-Tage-Mortalität von vier Protektionsverfahren

Der exakte Test von Fisher liefert im vorliegenden Fall p = 0,413. Die Devianzanalyse mit Hilfe der logistischen Regression (R-Paket stats [15]) ergibt p = 0,142. Ein Permutationstest aus dem R-Paket pgirmess [19] für die logistische Regression liefert p = 0,202. Es lässt sich demnach kein signifikanter Unterschied bei der 30-Tage-Mortalität für die verschiedenen Protektionsverfahren feststellen, weshalb wir auf Post-hoc-Tests verzichten können.

Für den Fall abhängiger Gruppen betrachten wir nur das Kardioplegieverfahren MBC und vergleichen den Anteil der Laktatwerte, die sich am Zeitpunkt vor der OP (prä OP), nach der extrakorporalen Zirkulation (post EKZ) und am ersten Tag nach EKZ (24 h post EKZ) außerhalb des Referenzbereiches befinden. Als Referenzbereich betrachten wir dabei 0,5–1,8 mmol/l [20]. Es liegen vollständige Daten von 350 Patient:innen vor, die in der 2 x 3-Kontingenztafel in Tabelle 3 dargestellt sind.

Tab. 3: 2 x 3-Kontingenztafel einer Beobachtungsstudie zum Vergleich der
Anteile der Laktatwerte, die sich für MBC im Referenzbereich befinden

Der Cochran Q-Test aus dem R-Paket coin [21] sowie die logistische Regression mit gemischten Effekten aus dem R-Paket lme4 [22] ergeben beide einen signifikanten Unterschied zwischen den Zeitpunkten (jeweils p < 2,2 x 10-16). Wir führen daher paarweise Vergleiche zwischen den Zeitpunkten durch. Wir verwenden hierfür den exakten McNemar-Test aus dem R-Paket exact2x2 [16], den asymptotischen McNemar-Test aus dem R-Paket stats [15] sowie die logistische Regression mit gemischten Effekten aus dem R-Paket lme4 [22]. Die adjustierten p-Werte und die (unadjustierten) CI95 für die OR finden sich in Tabelle 4.

Tab. 4: Adjustierte p-Werte und (unadjustierte) CI95 für paarweise Vergleiche
der Anteile der Laktatwerte, die sich außerhalb des Referenzbereiches
befinden

Zum Zeitpunkt post EKZ befinden sich signifikant mehr Laktatwerte außerhalb des Referenzbereiches als zum Zeitpunkt prä OP. Zum Zeitpunkt 24 h post EKZ ist der Anteil der Laktatwerte außerhalb des Referenzbereiches ebenfalls signifikant größer als zum Zeitpunkt prä OP, wobei der Anteil aber signifikant kleiner ist als zum Zeitpunkt post EKZ. Anhand der Konfidenzintervalle für die Odds-Ratios sehen wir, dass wir den größten Unterschied für den Vergleich prä OP vs. post EKZ erhalten. Der kleinste Unterschied liegt im Fall prä OP vs. 24 h post EKZ vor.

Kategoriale Daten

Wir betrachten Merkmale mit r ≥ 3 möglichen Merkmalsausprägungen, was uns zur Multinomialverteilung führt. In diesem Fall stehen uns deutlich weniger Tests zur Auswahl. Die exakten unbedingten Tests lassen sich zwar im Prinzip auch auf r x k-Kontingenztafeln erweitern, jedoch ist deren Berechnung viel zu zeitaufwändig. Bei großen Kontingenztafeln kann auch die Berechnung der exakten bedingten Tests sehr zeitaufwändig werden, weshalb man auch in diesem Fall auf asymptotische oder approximative Tests ausweichen muss. Eine Übersicht der möglichen Tests findet sich in Abbildung 2. Wir werden die möglichen Tests im Folgenden kurz im Rahmen von Beispielen besprechen. Wir verwenden hierzu den Datensatz aus [6], der in Tabelle 5 enthalten ist.

Tab. 5: 4 x 5-Kontingenztafel einer Beobachtungsstudie zum Einsatz verschiedener Kardioplegieverfahren durch 5 verschiedene Operateur:innen

Wir untersuchen zunächst einmal die Verteilung der Protektionsverfahren, ohne die Operateure zu berücksichtigen. Wir untersuchen, ob die Verteilung der Verfahren dem angenommenen Verhältnis von 2:6:1:1 (CCC:MBC:MBC+CCC:BH) entspricht. Wir wenden hierfür den 1-Stichproben-Multinomialtest aus dem Paket XNomial [23] an. Wir erhalten p = 0,048 für den Likelihood-Ratio-Test, p = 0,0499 für den exakten Test, p = 0,051 für den X2-Test und p = 0,046 für einen approximativen Permutationstest (105 zufällige ausgewählte Permutation). Wir müssen demnach mit einer Ausnahme (X2-Test) davon ausgehen, dass die Verteilung der Protektionsverfahren signifikant vom angenommenen Verhältnis abweicht.

Abb. 2: Auswahl eines geeigneten Tests für kategoriale Merkmale mit mehr als 2 Merkmalsausprägungen

In einem zweiten Schritt wollen wir untersuchen, ob der Einsatz der Protektionsverfahren vom Operateur abhängt. Der exakte Test von Fisher aus dem R-Paket stats [15] liefert p = 0,0013, wobei wir aufgrund der Größe der Kontingenztafel nur eine approximative Version (105 zufällige ausgewählte Permutation) des Tests berechnet haben. Der X2-Test aus dem R-Paket stats [15] ergibt p = 8,7 x 10-4. Im Fall der multinomialen Regression aus dem R-Paket nnet [24] erhalten wir p = 2,4 x 10-4. Die verschiedenen Protektionsverfahren werden folglich von den 5 Operateur:innen unterschiedlich häufig eingesetzt. Wir untersuchen mit entsprechenden Post-hoc-Tests, bei welchen Operateur:innen es signifikante Unterschiede gibt. Die adjustierten p-Werte für die paarweisen Tests finden sich in Tabelle 6.

Tab. 6: Adjustierte p-Werte für paarweise Vergleiche der Operateur:innen
(1–5) hinsichtlich der verwendeten Protektionsverfahren

Operateur:in 2 unterscheidet sich demnach, was den Einsatz der Protektionsverfahren betrifft, signifikant von Operateur:in 5. Bei Operateur:in 3 ergeben sich signifikante Unterschiede zu den Operateur:innen 4 und 5, wobei aber der X2-Test im Fall von 3 vs. 5 kein signifikantes Ergebnis liefert.

Als Beispiel für den abhängigen Fall betrachten wir wieder das obige Beispiel zu den Laktatwerten (vgl. Tabelle 3), wobei wir dieses Mal zusätzlich beachten, ob die Laktatwerte unterhalb oder oberhalb des Referenzbereiches liegen. Wir erhalten die 3 x 3-Kontingenztafel in Tabelle 7.

Tab. 7: 3 x 3-Kontingenztafel einer Beobachtungsstudie zum Vergleich der
Anteile der Laktatwerte, die sich für MBC unterhalb, innerhalb oder oberhalb
des Referenzbereiches befinden

Der Mandansky-Test [25] aus dem R-Paket coin [21] und die multinomiale Regression mit gemischten Effekten aus dem R-Paket mclogit [26] ergeben beide p < 2,2 x 10-16. Wir führen daher paarweise Vergleiche zwischen den Zeitpunkten durch, wobei wir den Stuart-Test [27] aus dem R-Paket coin [21] und die multinomiale Regression mit gemischten Effekten aus dem R-Paket mclogit [26] verwenden. Die Ergebnisse der Analysen sind in Tabelle 8 enthalten.

Tab. 8: Adjustierte p-Werte für paarweise Vergleiche der Anteile der Laktat-
werte, die sich unterhalb, innerhalb oder außerhalb des Referenzbereiches
befinden

Wir erhalten signifikante Unterschiede bei allen paarweisen Vergleichen der Zeitpunkte. Im Unterschied zur binären Situation ist es dieses Mal nicht möglich, die Richtung des Unterschiedes anzugeben.

Zusammenfassung

Für 2 x 2-Kontingenztafeln mit unabhängigen Gruppen steht eine Vielzahl von möglichen Tests zur Auswahl. In den meisten Fällen sollten hier die unbedingten Tests gewählt werden, da diese besser an das typische parallele Gruppendesign von klinischen Studien angepasst sind als die bedingten Tests. Die Berechnung der exakten unbedingten Tests kann jedoch sehr zeitaufwändig sein, weshalb man unter Umständen auf asymptotische oder approximative Varianten der Tests ausweichen muss.

Im Fall von r x k-Kontingenztafeln mit unabhängigen Gruppen sind die unbedingten Tests zu rechenaufwendig und sogar die Berechnung der exakten bedingten Tests kann an Grenzen stoßen. In diesem Fall stehen aber asymptotische oder approximative Tests zur Verfügung.

In allen Fällen stellen Regressionsmodelle eine interessante Alternative dar. Diese ermöglichen es insbesondere noch weitere unabhängige Variablen in die Berechnungen einzubeziehen.

Literatur

  1. Kohl M, Münch F. Statistik Teil 7: Statistische Signifikanztests. Kardiotechnik 2023(3): 93-98. https://doi.org/10.47624/kt.032.RUCI8451
  2. Kohl M, Münch F. Statistik Teil 8: t-Tests und Alternativen. Kardiotechnik 2023(4): 143-147. https://doi.org/10.47624/kt.032.SGPX5686
  3. Kohl M, Münch F. Statistik Teil 9: Die 1-Weg ANOVA. Die Perfusiologie 2024(1): 15-20. https://doi.org/10.47624/dp.033.OPNF5043
  4. A’Court C, Stevens R, Heneghan C. Against all odds? Improving the understanding of risk reporting. Br J Gen Pract 2012; 62(596):e220-3. https://doi.org/10.3399/bjgp12x630223
  5. Holm S. A simple sequentially rejective multiple test procedure. Scandinavian Journal of Statistics 1979; 6, 65-70. https://www.jstor.org/stable/4615733
  6. Kohl M, Münch F. Statistik Teil 5: Kontingenzkoeffizienten. Kardiotechnik 2023(1):12-14. https://doi.org/10.47624/kt.032.JWQA4505
  7. Fay MP, Hunsberger SA. Practical valid inferences for the two-sample binomial problem. Surv. 2021,15: 72-110. https://doi.org/10.1214/21-SS131
  8. Lydersen S, Fagerland MW, Laake P. Recommended tests for association in 2 x 2 tables. Stat Med. 2009; 28(7):1159-75. https://doi.org/10.1002/sim.3531
  9. Barnard GA. A new test for 2 × 2 tables. Nature 156 (3954); 1945: 177. https://doi.org/10.1038/156177a0
  10. Boschloo R. Raised conditional level of significance for the 2×2-table when testing the equality of two probabilities. Neerl. 1970, 24:1.9. https://doi.org/10.1111/j.1467-9574.1970.tb00104.x
  11. McNemar Q. Note on the sampling error of the difference between correlated proportions or percentages. Psychometrika 1947; 12 (2): 153-157. https://doi.org/10.1007/BF02295996
  12. Cochran WG. The comparison of percentages in matched samples. Biometrika 1950; 37 (3/4): 256-266. https://doi.org/10.1093/biomet/37.3-4.256
  13. Klein M, Linton P. On a comparison of tests of homogeneity of binomial proportions. J Stat Theory Appl 2013; 12:208-224. https://doi.org/10.2991/jsta.2013.12.3.1
  14. Ehwerhemuepha L, Sok H, Rakovski C. A more powerful unconditional exact test of homogeneity for 2 × c contingency table analysis. Journal of Applied Statistics 2019; 46(14):2572-2582. https://doi.org/10.1080/02664763.2019.1601689
  15. R Core Team. R: A language and environment for statistical computing. R Foundation for Statistical Computing 2024; Vienna, Austria. URL https://www.R-project.org/
  16. Fay MP, Hunsberger SA, Nason M, Gabriel E, Lumbard K. exact2x2: Exact Tests and Confidence Intervals for 2×2 Tables: 2024; R package version 1.6.9. https://cran.r-project.org/package=exact2x2
  17. Calhoun P. Exact 2022: Unconditional Exact Test.; R package version 3.2. https://cran.r-project.org/ package=Exact
  18. Kohl M. MKinfer 2024: Inferential Statistics. R package version 1.2. https://cran.r-project.org/package= MKinfer
  19. Giraudoux P. pgirmess: Spatial Analysis and Data Mining for Field Ecologists. 2024; R package version 2.0.3. https://cran.r-project.org/package=pgirmess
  20. Oster, O. Pädiatrisch relevante Referenzwerte: klinische Chemie. In: Hoffmann, G., Lentze, M., Spranger, J., Zepp, F. (eds) Pädiatrie. 2015; Springer Reference Medizin. Springer, Berlin, Heidelberg. https://doi.org/10.1007/978-3-642-54671-6_352-1
  21. Hothorn T, Hornik K, van de Wiel MA, Zeileis A. A Lego system for conditional inference. The American Statistician 2006; 60(3):257-263. https://doi.org/10.1198/000313006X118430
  22. Bates D, Maechler M, Bolker B, Walker S. Fitting Linear Mixed-Effects Models Using lme4. Journal of Statistical Software 2015; 67(1):1-48. https://doi.org/10.18637/jss.v067.i01
  23. Engels B. XNomial: Exact Goodness-of-Fit Test for Multinomial Data with Fixed Probabilities. 2015; R package version 1.0.4. https://cran.r-project.org/package=XNomial
  24. Venables WN, Ripley BD. Modern Applied Statistics with S. Fourth Edition 2002, Springer. https://doi.org/10.1007/978-0-387-21706-2
  25. Madansky A. Tests of homogeneity for correlated samples. Journal of the American Statistical Association 1963; 58(301):97-119. https://doi.org/10.1080/01621459.1963.10500835
  26. Elff M. mclogit: Multinomial Logit Models, with or without Random Effects or Overdispersion. R package version 0.9.6. https://cran.r-project.org/package=mclogit
  27. Stuart A. A test for homogeneity of the marginal distributions in a two-way classification. Biometrika 1955; 42(3/4):412-416. https://doi.org/10.1093/biomet/42.3-4.412 repeated measures ANOVA and multi-level linear models (MLM). 2017, Front. Psychol. 8:1841.
Als Mitglied der DGPTM können Sie sich mit der bei uns hinterlegten Mailadresse oder Ihrem Benutzernamen ganz einfach mit einem Einmalpasswort einloggen. Dieses bekommen Sie per Mail geschickt. Sie werden danach direkt in den Internen Bereich geleitet.

Achtung: Mehrfache Anforderungen beschleunigen die Mailzustellung nicht.
Ihr Benutzername besteht aus den ersten beiden Buchstaben Ihres Vornamens und Ihrem Nachname (ä=ae ect).