Statistik Teil 12: Fallzahlplanung

Einführung

In vorangegangenen Tutorien haben wir uns u.a. mit Konfidenzintervallen [1] und verschiedenen statistischen Tests [2-6] befasst. Diese Verfahren kommen aber nicht nur zum Einsatz, nachdem entsprechende Daten erhoben wurden, sondern spielen von Anfang an eine sehr wichtige Rolle. Im Rahmen der Planung der Studie müssen nämlich insbesondere Überlegungen zur primären Fragestellung, der dazugehörigen Hypothese und dem Konfidenzintervall oder dem statistischen Test, mit dem diese Hypothese überprüft werden soll, angestellt werden. Das ausgewählte Verfahren zur statistischen Analyse der primären Hypothese bildet dann die Grundlage für die Fallzahlplanung, in der die Größe der benötigten Stichprobe bestimmt wird. In diesem Tutorial besprechen wir, wie im Fall von Konfidenzintervallen und statistischen Tests die Fallzahl berechnet werden kann und geben hierfür Beispiele an. Wir erweitern damit unsere vorherigen Ausführungen in [1] (Konfidenzintervall) und [2] (statistischer Test).

Konfidenzintervall

Für die Grundlagen zu Konfidenzintervallen verweisen wir auf [1]. In vielen Fällen besitzt ein (1-α)-Konfidenzintervall (CI) die folgende Form:

wobei θ n die Schätzung für den gesuchten Parameter θ (z.B. Effekt) ist und σθn für dessen Standardabweichung, den sogenannten Standardfehler, steht. Die positiven Konstanten k1 und k2 sind geeignete Quantile, die von der Überdeckungswahrscheinlichkeit 1-α, dem verwendeten Schätzer, dem angenommenen Wahrscheinlichkeitsmodell und der Stichprobengröße n abhängen können [1]. Handelt es sich um ein Intervall, welches asymmetrisch um den Schätzer herum ist (d.h., k1 ≠ k2), basiert die Fallzahlberechnung üblicherweise auf der Länge des Intervalls (k1 + k2) σθn. Man kann jedoch auch den maximalen Abstand zum Schätzer, also das Maximum von k1σθn und k2σθn, verwenden. Ist das Konfidenzintervall symmetrisch (d.h., k1 = k2 = k), so ist es äquivalent, entweder die Länge 2kσθn oder den maximalen Abstand zum Schätzer kσθn für die Fallzahlberechnung heranzuziehen.

Für praktische Fragestellungen ist oft auch nur ein einseitiges Konfidenzintervall interessant. Zum Beispiel soll ein diagnostischer Test eine gewisse Sensitivität nicht unterschreiten oder ein Laborwert eine gewisse Obergrenze nicht überschreiten. In diesem Fall basiert die Fallzahlberechnung entweder auf k1σθn oder k2σθn.

Für die Fallzahlplanung müssen wir zunächst das geeignete Wahrscheinlichkeitsmodell für die primäre Hypothese identifizieren sowie die Fehlerwahrscheinlichkeit α und den erwarteten Wert für den gesuchten Parameter θ festlegen. Unter Umständen müssen wir geeignete Werte für weitere Größen vorgeben, um den Standardfehler σθn in Abhängigkeit von der Fallzahl n bestimmen zu können. Schließlich müssen wir noch die Länge L des Konfidenzintervalls bzw. den maximalen Abstand D vom Schätzer zu den Intervallgrenzen festlegen. Nachdem dies geschehen ist, verbleibt einzig die Fallzahl n als Unbekannte und wir können diese berechnen, indem wir die folgende Gleichung in n lösen:

(k1 + k2) σθn – L = 0

bzw. im einseitigen Fall:

kσθn – D = 0

wobei k = k1 oder k = k2 sein kann. Neben einer Lösung mit numerischen Nullstellenverfahren ist es manchmal auch möglich, eine explizite Formel für n anzugeben.

Es empfiehlt sich aber in vielen Fällen, noch eine zusätzliche Sicherheitswahrscheinlichkeit 1-β in die Fallzahlberechnung zu integrieren, ein Ansatz, der zum Beispiel bei der Fallzahlberechnung für die Sensitivität eines diagnostischen Tests empfohlen wird [7]. Dies dient dazu sicherzustellen, dass die Grenzen des Konfidenzintervalls einen gewissen vorgegebenen Wert θ0 mit einer vorgegebenen hohen Wahrscheinlichkeit 1-β nicht unter- bzw. überschreiten.

P (θn – k1 σθn ≥ θ0) ≥ 1-β bzw. P (θn + k2 σθn ≤ θ0) ≥ 1-β (1)

Das ist gleichbedeutend damit, dass die maximale Abweichung D vom geschätzten Wert θn einen gewissen Wert nicht überschreiten soll, und führt auf:

P (-θn ≤ -θo – k1 σθn) ≥ 1-β bzw. P (θn ≤ θo – k2 σθn) ≥ 1-β

womit wir das 1-β Quantil q1-β der Verteilung von -θn bzw. θn erhalten. Es folgt:

q1-β = -θo – k1 σθn bzw. q1-β = θo + k2 σθn

Nach Festlegung von β müssen wir demnach die Gleichung:

q1-β + θo + k1 σθn = 0 bzw. q1-β – θo – k2 σθn = 0

in n lösen.

Wir greifen das Beispiel aus [1] zur venösen Sauerstoffsättigung (SvO2) auf, wobei wir aufgrund der Symmetrie des hergeleiteten (exakten) Konfidenzintervalls anstelle der Länge L den maximalen Abstand D verwenden. Wir erhalten demnach analog zur Herleitung in [1]:

was äquivalent ist zu:

Wollen wir die Fallzahlberechnung zusätzlich absichern und sicherstellen, dass der maximale Abstand D mit einer vorgegebenen hohen Wahrscheinlichkeit 1-β einen gewissen Wert nicht überschreitet, so müssen wir zusätzlich die maximale Obergrenze µ des Konfidenzintervalls festlegen und erhalten aus Formel (1):

Wir können dies umschreiben zu:

wobei µ der erwartete Wert für die mittlere SvO2 ist und μ0 – µ = D. Da AMn normalverteilt ist mit Mittelwert µ und Standardabweichung, erhalten wir das 1-β Quantil der t-Verteilung mit n-1 Freiheitsgraden

und müssen somit die folgende Gleichung in n lösen:

Mit den Parametern µ = 77,5 %, SD = 6,0 %, α = 5 % und D = 1,5 % ergibt sich aus Gleichung (2) eine Fallzahl von n = 64 (vgl. auch [1]). Wählen wir β = 10 %, so ergibt sich aus Gleichung (3) eine Fallzahl von n = 171 wie in Abb. 1 zu sehen ist.

Die zusätzliche Absicherung führt demnach zu einer deutlichen Erhöhung der Fallzahl. Aufgrund der Symmetrie der t-Verteilung können wir damit auch sagen, dass die untere Grenze des 95 %-Konfidenzintervalls mit 90 % Wahrscheinlichkeit eine SvO2 von 76 % nicht unterschreiten wird.

Für β = 50 % liefern die Formeln (2) und (3) die gleiche Fallzahl, da tn-1;0,5 = 0. Folglich ergibt sich bei der Fallzahlberechnung mit Formel (2) mit 50 % Wahrscheinlichkeit ein 95 %-Konfidenzintervall, bei dem die vorgegebene Grenze µ0 für das Konfidenzintervall unter- bzw. überschritten wird.

Abb. 1: Berechnung der Fallzahl auf Basis von Gleichung (3) (erstellt mit der Statistiksoftware R [8] und dem R Paket ggplot2 [9])

In vielen Fällen ist die (exakte) Verteilung von θn nicht bekannt oder es werden Werte für Größen benötigt, die nicht bekannt sind. In diesen Fällen kann man unter Umständen auf einfachere asymptotische Formeln, die sich aus einem zentralen Grenzwertsatz ergeben und damit auf einer Normalverteilung basieren, zurückgreifen. Hierbei sollte man jedoch beachten, dass diese approximativen Formeln oft zu einer leichten Unterschätzung der tatsächlich benötigten Fallzahl führen. Eine weitere Möglichkeit, die immer mehr an Bedeutung gewinnt, sind sogenannte Monte-Carlo-Simulationen. In diesem Fall wird auf Basis der gemachten Annahmen und für eine gewählte Fallzahl n eine Simulation der geplanten Studie am Computer durchgeführt. Dies wird tausende Male mit jeweils neu generierten Zufallszahlen wiederholt, wobei jeweils alle benötigten Größen wie der Schätzer, das Konfidenzintervall, L oder D, 1-β, etc. berechnet werden. Aufgrund des Gesetzes der großen Zahlen stabilisieren sich die Ergebnisse bei einer ausreichend großen Anzahl von Simulationen und indem diese Simulationen für verschiedene Stichprobengrößen durchgeführt werden, kann hieraus die benötigte Fallzahl n empirisch ermittelt werden.

Statistischer Test

Für Details zu statistischen Signifikanztests verweisen wir auf [2]. Die Berechnung der Fallzahl im Fall eines statistischen Tests basiert auf der sogenannten Powerfunktion, die vom angenommenen Wahrscheinlichkeitsmodell, dem verwendeten Test, dem Signifikanzniveau α, der Stichprobengröße n und weiteren Parametern (Effektgröße, Varianz, etc.) abhängt. Die Vorgehensweise ist in gewisser Weise analog zum Fall der Konfidenzintervalle mit zusätzlicher Sicherheitswahrscheinlichkeit 1-β, wobei 1-β im Fall der Tests die angestrebte Power des Tests ist. So ergibt sich für den 1-Stichproben t-Test gerade die Formel (3) (vgl. Abschnitt 7.3.2.2 in [10]). Auch bei der Fallzahlberechnung für statistische Tests gilt, dass in vielen Fällen die exakte Verteilung der Teststatistik nicht bekannt ist oder man Größen benötigt, die nicht bekannt sind und man entsprechend auf Näherungsformeln oder Simulationen ausweichen muss. Da es verschiedenste Software zur Fallzahlberechnung basierend auf statistischen Tests gibt – neben einer Reihe von R Paketen ist zum Beispiel auch die Software G*Power [11] sehr bekannt –, verzichten wir auf die Herleitung von Formeln und betrachten stattdessen ein Beispiel.

Wir greifen das Beispiel aus [2] auf, in dem die postoperativen Troponinwerte betrachtet wurden. Wir gehen wieder von einer Normalverteilung der log10-transformierten Werte aus, wobei wir auf Basis einer Pilotstudie annehmen, dass μ1 = 1,45 und σ1 = 0,3 für das Kardioplegieverfahren Custodiol (CCC) und μ2 = 1,25 und σ2 = 0,4 für die Mikroplegie (MBC) ist. Unter der Annahme von α = 5 %, β = 10 % und gleich großen Gruppen führt uns dies mit dem Welch t-Test auf eine Fallzahl von 67 Patient:innen pro Gruppe (vgl. auch [2]).

Gehen wir davon aus, dass es vereinzelte Ausreißer (≤ 1 % der Daten) geben wird, so ist der Wilcoxon-Mann-Whitney (WMW)-Test dem Welch t-Test vorzuziehen [3]. Formeln zur Fallzahlberechnung für verschiedene Situationen finden sich etwa in [12]. Wir verwenden jedoch für die Berechnung der Fallzahl eine Monte-Carlo-Simulation mit 10.000 Wiederholungen. Diese Vorgehensweise ist im R Paket MKpower [13] implementiert. Wir simulieren die Ausreißer bei den Troponinwerten durch eine uniforme Verteilung auf dem Intervall [100, 1000] ng/ml (entspricht dem Intervall [2,3] auf der log10-Skala). Auf diese Weise erhalten wir eine Fallzahl von 74 Patient:innen pro Gruppe (vgl. Abb. 2).

Abb. 2: Empirische Power des WMW-Tests bei Vorliegen von Normalverteilungen inklusive 1 % Ausreißern; die blaue Kurve stellt eine Splineglättung mittels eines generalisiert additiven Models (GAM) dar (erstellt mit der Statistiksoftware R [8] und den R Paketen ggplot2 [9] und MKpower [12])

Da der WMW-Test ein Rangtest ist, spielt die Größe der Ausreißer keine wesentliche Rolle, solange diese größer sind als die Werte, die von den angenommenen Normalverteilungen zu erwarten sind. In einer weiteren alternativen Fallzahlberechnung gehen wir allgemeiner von einer symmetrischen Verteilung aus, bei der Werte in den Flanken der Verteilung mit größerer Wahrscheinlichkeit als im Fall der Normalverteilung auftreten. Wir verwenden hierzu eine t-Verteilung mit 3 Freiheitsgraden, wobei wir diese Verteilung so standardisieren und zentrieren, dass sich die vorgegeben Werte für die Mittelwerte µ1 und µ2 sowie die Standardabweichungen σ und σ ergeben. Als Tests verwenden wir die Welch-Variante eines Permutations t-Tests sowie eines Bootstrap t-Tests, welche im R Paket MKinfer [14] implementiert sind. Wir verwenden für die Monte-Carlo-Simulation wieder 10.000 Wiederholungen, wobei die Ergebnisse der t-Tests auf Basis von 9.999 Permutationen bzw. Bootstrap-Stichproben ermittelt werden. Im Fall des Permutations t-Tests ergibt sich eine Fallzahl von 64 Patient:innen pro Gruppe, im Fall des Bootstrap t-Tests ist die benötigte Fallzahl etwas größer und liegt bei 72 Patient:innen pro Gruppe (vgl. auch Abb. 3).

Abb. 3: Fallzahlberechnung mittels Monte-Carlo-Simulationen für einen Permutations- und einen Bootstrap t-Test; die blaue Kurve stellt eine Splineglättung mittels eines generalisiert additiven Models (GAM) dar (erstellt mit der Statistiksoftware R [8] und den R Paketen ggplot2 [9] und MKpower [13])

Ein grundlegendes Problem der Fallzahlplanung haben wir bisher noch nicht angesprochen. Die Fallzahlplanung ist immer nur so gut wie die Annahmen, die man dafür verwendet. Sind diese zu optimistisch, wird die tatsächlich benötigte Fallzahl unterschätzt und die tatsächliche Sicherheitswahrscheinlichkeit bzw. Power der geplanten Studie ist deutlich kleiner als angenommen. Daher sollten die Annahmen immer sehr gründlich überdacht und eher konservativ gewählt werden. Man sollte in diesem Zusammenhang zum Beispiel davon ausgehen, dass kleine Studien, wie Pilotstudien, dazu neigen, die tatsächlichen Effekte zu überschätzen [15]. Oftmals gibt es aber gar keine Pilotstudie, die als Grundlage dienen kann und die für die Fallzahlberechnung benötigten Größen müssen aus Studien abgeleitet werden, die als vergleichbar angesehen werden. Es ist daher immer zu empfehlen, eine Sensitivitätsanalyse durchzuführen, in der man untersucht, wie stark die Fallzahl von den zu wählenden Größen abhängt. Am Beginn einer Fallzahlplanung sollten somit verschiedene Grafiken stehen, welche die Abhängigkeit der Fallzahl von den zu machenden Annahmen zeigen. In Abb. 4 sehen wir, wie sehr sich die Fallzahl im Troponinbeispiel verändert, wenn die Differenz der Mittelwerte µ1-µ2 oder die Standardabweichungen σ1 und σ2 um die angenommenen Werte variieren, wobei wir zusätzlich verschiedene Werte für die Power betrachten. Die Berechnungen basieren auf dem Welch t-Test.

Abschließend sollte dann auf Basis der Sensitivitätsanalyse eine plausible und konservative Parameterkonstellation gewählt und hierfür die finale Fallzahl berechnet werden.

Abb. 4: Sensitivitätsanalyse für das Troponinbeispiel, in der untersucht wird, wie sehr die Fallzahl in Abhängigkeit von den zu wählenden Parametern variiert (erstellt mit der Statistiksoftware R [8] und den R Paketen ggplot2 [9] und MKpower [13])

Zusammenfassung

Die Fallzahlplanung ist ein zentraler Bestandteil der Planung von Studien. Diese kann sowohl auf Konfidenzintervallen als auch auf statistischen Tests basieren. Im Fall von Konfidenzintervallen sollte analog zur Power beim statistischen Test eine zusätzliche Sicherheitswahrscheinlichkeit mit einbezogen werden. Wir empfehlen außerdem, zu Beginn der Fallzahlplanung zunächst eine Sensitivitätsanalyse durchzuführen, welche die Abhängigkeit der Fallzahl von den gemachten Annahmen zeigt, und darauf basierend dann die finale Fallzahl zu berechnen.

Nach Möglichkeit sollten für die Berechnungen exakte Gleichungen herangezogen werden, da approximative, auf asymptotischen Ergebnissen basierende Formeln häufig die tatsächlich benötigte Fallzahl etwas unterschätzen. Eine immer wichtiger werdende Alternative stellen Monte-Carlo-Simulationen dar, die insbesondere in komplexen Situationen, in denen es weder exakte noch approximative Formeln gibt, die einzige Möglichkeit darstellen, eine Fallzahlabschätzung durchzuführen.

Preisträger Jahrestagung 2025 und Jubilare der DGPTM

Herzlichen Glückwunsch an die Jubilare der DGPTM und an alle, die einen Preis erhalten haben. Ein ebenfalls großer Dank richtet sich an die Sponsoren der Preise.

Eine Übersicht zu den Abstracts der prämierten Arbeiten befindet sich am Ende des Artikels.

Tagungspreis 2025 der DGPTM (Sponsor: free life medical GmbH)

Preisträger: Nicola Kwapil, Universitätsmedizin der Johannes-Gutenberg-Universität Mainz

Auf dem Foto sind von links nach rechts: Sebastian Tiedge, Nicola Kwapil, Rigobert Schnur (von free life) und PD Dr. Alexander Horke

DGTHG-Preis Fokustagung Herz 2025 (Sponsor: Dr. Franz Köhler Chemie GmbH)

Preisträgerin: Dr. Claudia Arenz, Universitätsklinikum Bonn

Auf dem Foto sind von links nach rechts: Sebastian Tiedge, Dr. Claudia Arenz, PD Dr. Alexander Horke und Dr. Stefan Fritz (von Köhler Chemie)

Nachwuchsförderpreis der Jungen Foren (Sponsor: Dr. Franz Köhler Chemie GmbH)

Preisträgerin: Gloria Nulchis, Universitätsklinikum Tübingen

Auf dem Foto sind von links nach rechts: Sebastian Tiedge, Gloria Nulchis, PD Dr. Alexander Horke und Dr. Stefan Fritz (von Köhler Chemie)

Innovationspreis (Sponsor: Eurosets GmbH Deutschland)

Preisträger: Nicola Kwapil, Universitätsmedizin der Johannes-Gutenberg-Universität Mainz

Auf dem Foto sind von links nach rechts: Sebastian Tiedge, Nicola Kwapil, Martin Schmidthöfer (von Eurosets), PD Dr. Frank Münch, PD Dr. Alexander Horke

Förderpreise (Sponsor: Terumo Deutschland GmbH)

A: bestbewerteter Originalbeitrag

Preisträger: Simon Mayer, Herzzentrum Klinikum Stuttgart

Auf dem Foto von links nach rechts: Dr. Lars Saemann, Simon Mayer und Tilo Barth (von Terumo)

B: beste Erstveröffentlichung

Preisträger: Lukas Fiebig, Hochschule Furtwangen

Auf dem Foto von links nach rechts: Dr. Lars Saemann, Lukas Fiebig und Tilo Barth (von Terumo)

Preisträger zum Josef Güttler Stipendium

Preisträger: Jhonathan Torres Mosquera, Universitätsklinikum Magdeburg

Auf dem Foto mit PD Dr. Frank Münch

Hier die Jubilare aus diesem Jahr, jeweils mit PD Dr. Frank Münch

50 jähriges: Jürgen Witt

40 jähriges: Stefan Kasseckert, Albert Dick

25 jähriges: Olaf Sillmann (Foto anbei), Holger Schulze Schleithoff, Mathias Opitz (Foto anbei), Joachim Naumann (Foto anbei), Frank-Oliver Große (Foto anbei), Markus Fischer, Andreas Behrendt, Johannes Amberger

Übersicht zu den Abstracts der prämierten Arbeiten

Tagungspreis 2025 der DGPTM

A-168

Kompakter ECMO-Trolley – ein Transportsystem für alle Materialien

Nicola Kwapil
(Universitätsmedizin Mainz) (DGPTM)

DGTHG-Preis Fokustagung Herz 2025

A-158

Pulmonalklappendilatation bei frühsymptomatischer Fallot-Tetralogie: Erste palliative Maßnahme und Einfluß ballonbedingter Klappeneinrisse auf die chirurgische Strategie

Dr. Claudia Arenz (Universitätsklinikum Bonn) (DGTHG)

Nachwuchsförderpreis der Jungen Foren

A-174

Über die allometrischen Interaktionen der fraktalen Eigenschaften des kardiovaskulären Gefäßsystems und dem Hagen-Poiseuille’schen Gesetz. Erkenntnisse aus einem mathematischen Modell und der Simulaiton per Computational Fluid Dynamics für Bypässe.

Gloria Nulchis
(Universitätsklinikum Tübingen)

Innovationspreis

A-167

Kinder ECMO Fahrtrage 2.0 – eine standardisierte Lösung für Deutschland

Nicola Kwapil
(Universitätsmedizin Mainz) (DGPTM)

Credits der Fotos:

DGPTM/Klindtworth

Autor:innen

Zusammenfassung

Einführung

Konfidenzintervall

Statistischer Test

Zusammenfassung

Literatur

Anmeldung

Statistik Teil 12: Fallzahlplanung

Autor:innen

Zusammen­fassung

Einführung

Konfidenzintervall

Statistischer Test

Zusammenfassung

Literatur

Das Fachwissensquiz April ’26 ist online!

Das Fachwissensquiz März ’26 ist online!

Das Fachwissensquiz Februar ’26 ist online!

Das Fachwissensquiz Januar ’26 ist online!

Bitte im Mitgliederbereich einloggen – es gibt Neuigkeiten für euch

Daten aktualisieren

Gehaltsumfrage

EFN-Barcodes herunterladen

Preisträger Jahrestagung 2025 und Jubilare der DGPTM

Übersicht zu den Abstracts der prämierten Arbeiten

Der „Maschinist“ im Saal. Die Arbeit von Perfusionist:innen (Zeitungsartikel)

Willkommen zur neuen Webseite

Anmeldung

Achtung: Mehrfache Anforderungen beschleunigen die Mailzustellung nicht. Ein Login mit Microsoft funktioniert nur, wenn die Microsoft-Email der hinterlegten E-Mail Adresse entspricht.

Als Mitglied der DGPTM können Sie sich mit der bei uns hinterlegten Mailadresse oder Ihrem Benutzernamen ganz einfach mit einem Einmalpasswort einloggen. Dieses bekommen Sie per Mail geschickt. Sie werden danach direkt in den Internen Bereich geleitet.

Ihr Benutzername besteht aus den ersten beiden Buchstaben Ihres Vornamens und Ihrem Nachname (ä=ae ect).

Zusammenfassung