Die KARDIOTECHNIK stellt in der Rubrik Tutorials relevante Methoden für wissenschaftliche Arbeiten zur klinischen Perfusion vor.
Fazitbox
PRO UND CONTRA METHODENVERGLEICHE:
Pro
- Bland-Altman-Diagramme stellen eine einfache Methode dar, um zwei Messmethoden miteinander zu vergleichen und sind klar einem einfachen Streudiagramm vorzuziehen.
- Mit Hilfe der Deming- und der Passing-Bablok-Regression lassen sich die Unterschiede zwischen zwei Messmethoden noch genauer analysieren.
- Bei Ausreißern, Abweichungen von der Normalverteilung oder sich ändernden Varianzen können Datentransformationen, nichtparametrische Bland-Altman-Diagramme und/oder die Passing Bablok-Regression verwendet werden.
Contra
- Das klassische Bland-Altman-Diagramm sowie die Deming-Regression liefern nur bei konstanten Varianzen und normalverteilten Daten verlässliche Ergebnisse.
- Das klassische Bland-Altman-Diagramm und die Deming-Regression sind sehr sensitiv gegenüber Ausreißern.
EINFÜHRUNG
In der Biomedizin werden heute laufend neue Technologien eingeführt, insbesondere zur quantitativen Messung verschiedenster Parameter. Diese neuen Messmethoden müssen mit bestehenden (Goldstandard-)Verfahren verglichen werden, um ihre Einsetzbarkeit in der Praxis zu prüfen. Darüber hinaus sind viele bereits etablierte Messmethoden sehr sensitiv gegenüber den verwendeten Materialien. Hier sollte bei der Umstellung auf eine neue Materialcharge immer geprüft werden, ob sich dadurch die Messgenauigkeit des Verfahrens ändert. Im Folgenden werden wir die für diesen Zweck einsetzbaren Bland-Altman-Diagramme [1] sowie die Regressionsverfahren von Deming (1943) [2] und von Passing und Bablok (1983) [3] kurz vorstellen.
BLAND-ALTMAN-DIAGRAMM
Das Bland-Altman-Diagramm wurde 1983 von Bland und Altman als eine einfache Möglichkeit zum Vergleich von zwei Messmethoden eingeführt [1]. Das Diagramm ist auch als Tukey Mittelwert Differenz-Diagramm (mean-difference plot) bekannt, welches dazu eingesetzt wird, eine Verschiebung zwischen zwei Verteilungen zu erkennen [4]. Im Rahmen der Analyse von genomischen Daten wird das Diagramm auch als MA-Plot bezeichnet [5]. Das (klassische) Bland-Altman-Diagramm ist ein Streudiagramm, bei dem auf der x- Achse der Mittelwert der beiden Messmethoden und auf der y-Achse die Differenz der beiden Messmethoden aufgetragen wird. Dies setzt demnach voraus, dass die gleiche Probe mit beiden Methoden gemessen wurde. Außerdem sollte man bereits vor der Durchführung der Messungen festlegen, welcher Unterschied zwischen den Methoden als (klinisch) relevant anzusehen ist.
Bei einem Streudiagramm, bei dem nur die Ergebnisse der beiden Verfahren dargestellt sind, ist es schwieriger, das genaue Ausmaß des Unterschiedes zu erkennen, vor allem bei einem großen Messbereich. In Abbildung 1 sind ein einfaches Streudiagramm und ein Bland-Altman-Diagramm zu sehen. Es handelt sich um Daten von 30 Patient:innen, die mit Hilfe extrakorporaler Zirkulation operiert wurden und bei denen die Activated Clotting Time (ACT) mit zwei gleichen Hemochron ACT-Geräten vor der Heparingabe gemessen wurde, wobei ein Messsystem mit einer LR-Küvette und ein Messsystem mit einer HR- Küvette ausgestattet war [6]. Die Daten der 30 Patient:innen sind auch in Tabelle 1 enthalten.

Wir können in Abbildung 1 von beiden Diagrammen ablesen, dass die ACT-Messung mit der LR-Küvette mit nur einer Ausnahme zu höheren Werten führte. Wir müssen daher davon ausgehen, dass es hier einen systematischen Unterschied (Bias) zwischen den beiden Messmethoden gibt. Während bei dem Bland-Altman-Diagramm die Daten das gesamte Diagramm ausfüllen, ist in einem solchen Fall bei einem einfachen Streudiagramm gewissermaßen nur die Hälfte des Diagramms mit Daten gefüllt. Die Variabilität der Differenzen scheint über den gesamten Bereich derMittelwerte der Messungen einigermaßen konstant zu sein. Sollte dies nicht der Fall sein, können die Daten zum Beispiel einer varianzstabilisierenden Transformation unterzogen werden. Oftmals eignet sich hierfür der Logarithmus.

Das einfache Streudiagramm in Abbildung 1 könnte dazu verleiten, für den Methodenvergleich die Pearson-Korrelation heranzuziehen. Die Pearson-Korrelation ist jedoch nicht für den Methodenvergleich geeignet, da damit nicht die Übereinstimmung, sondern die Stärke des linearen Zusammenhangs zwischen zwei Variablen gemessen wird [9]. Im Fall einer perfekten Übereinstimmung würden die Punkte der beiden Messungen alle auf der Winkelhalbierenden (y = x) liegen, während bei einem perfekten linearen Zusammenhang alle Punkte auf einer beliebigen Gerade (y = ax + b) liegen können. Entsprechend können Messungen mit einer schlechten Übereinstimmung trotzdem eine hohe Pearson-Korrelation aufweisen. Auch würde eine Änderung der Skalierung keinen Einfluss auf die Korrelation haben, während dies die Übereinstimmung deutlich verändern kann. Außerdem ist die Korrelation bei einem großen Wertebereich tendenziell höher als bei einem kleinen Wertebereich, während die Übereinstimmung unabhängig vom betrachteten Wertebereich sein sollte. Des Weiteren lässt sich die Übereinstimmung zwischen zwei Methoden auch nicht mit einem klassischen Signifikanztest untersuchen, da diese Tests generell darauf ausgelegt sind, Unterschiede zu finden [10]. Eine alternative Möglichkeit bestünde darin, sogenannte Äquivalenztests zu verwenden [11]. Wir werden uns hier jedoch auf Konfidenzintervalle [12] beschränken.
In einem Bland-Altman-Diagramm sollten zusätzlich der Mittelwert der Differenzen D, mit dem ein möglicher Bias zwischen den beiden Messungen identifiziert werden kann, sowie die untere und obere Übereinstimmungsgrenze (limit of agreement) eingezeichnet werden. Für die Festlegung der Übereinstimmungsgrenzen wird üblicherweise zusätzlich die Standardabweichung der Differenzen SDD benötigt. Man definiert diese Grenzen meist als D ± 1,96*SDD, wobei 1,96 gerade das 97,5 % Quantil der Standardnormalverteilung ist. Ausgehend von einer Normalverteilung sollten demnach theoretisch 95 % der Differenzen in diesem Intervall liegen; die untere und obere Übereinstimmungsgrenze sind gerade identisch zum 2,5 % und 97,5 % Quantil der Verteilung der Differenzen. In der Praxis kann dieser Anteil natürlich leicht variieren. Eine deutliche Abweichung vom erwarteten Anteil von 95 % kann durch schiefe Datenverteilungen oder Ausreißer verursacht werden. In einem solchen Fall ist eine normalisierende Datentransformation (auch hier eignet sich oftmals der Logarithmus), eine Verwerfung von Ausreißern oder die Verwendung alternativer nichtparametrischer oder robuster statistischer Methoden zu empfehlen [13,14]. Vor einer Verwerfung von Ausreißern sollte nach Möglichkeit die Ursache für die Ausreißer identifiziert und ausgeschlossen werden, dass es sich hierbei um systematische Abweichungen zwischen den beiden Methoden handelt.

In Abbildung 2 sind das klassische (parametrische) und ein nicht-parametrisches Bland-Altman-Diagramm dargestellt. Im klassischen Fall sind D und D ± 1,96*SDD dargestellt, wobei für SDD hier die bias-freie Schätzung der Standardabweichung verwendet wurde [15]. Im nichtparametrischen Fall sind der Median sowie das 2,5 % und das 97,5 % (empirische) Quantil der Differenzen eingezeichnet.
Die beiden Diagramme unterscheiden sich kaum, was dafür spricht, dass sich die Differenzen gut durch eine Normalverteilung beschreiben lassen. Dies wird auch dadurch bestätigt, dass in nur zwei Fällen die Differenzen außerhalb der Übereinstimmungsgrenzen liegen. Dies entspricht einer relativen Häufigkeit von 6,7 % und kann bei 30 Werten durchaus erwartet werden. In einem Bland-Altman-Diagramm sollten aber neben den geschätzten Werten für den Mittelwert und die Übereinstimmungsgrenzen auch Konfidenzintervalle für diese Werte angegeben werden [13,15]. Abbildung 3 zeigt die Erweiterung des klassischen Bland-Altman-Diagramms aus Abbildung 2 um entsprechende 95 %-Konfidenzintervalle (CI95). Es handelt sich um approximative [13], exakte [15] und Bootstrap-Konfidenzintervalle [12].

Während die approximativen Konfidenzintervalle alle symmetrisch sind, erhalten wir im Fall der exakten und der Bootstrap-Konfidenzintervalle (t-Methode, vgl. Supplement von [12]) im Fall der Übereinstimmungsgrenzen sichtbar asymmetrische Intervalle. Entsprechend sollten bei den Übereinstimmungsgrenzen besser die exakten Konfidenzintervalle verwendet werden [15]. Auch die Bootstrap-Konfidenzintervalle, die weniger Voraussetzungen benötigen, sind eine Alternative. Da aber recht extreme Quantile (2,5 % und 97,5 %) der Verteilung der Differenzen untersucht werden, sollten diese primär bei größeren Stichprobenumfängen zum Einsatz kommen. Der Bias beträgt 37,8 und ist signifikant von 0 verschieden, da keines der CI95 die 0 beinhaltet. Alle drei CI95 für den Bias sind nahezu identisch und reichen gerundet von 30,5 bis 45,2. Bei Mittelwerten der Messwerte im Bereich von ca. 100 bis 150 entspricht dies einer Abweichung im Bereich von 20 % oder mehr zwischen den beiden Messmethoden. Wir müssen daher davon ausgehen, dass der Bias zwischen den beiden Methoden auch (klinisch) relevant ist. Würde das CI95 des Bias innerhalb des vor den Messungen festgelegten (klinisch) relevanten Unterschiedes liegen, wäre das Ergebnis zwar signifikant, aber nicht (klinisch) relevant.
Die untere Übereinstimmungsgrenze liegt bei -1,0 (approximatives CI95: -13,7–11,7; exaktes CI95: -16,4–9,3; Bootstrap- CI95: -22,0–9,1), die obere Übereinstimmungsgrenze bei 76,7 (approximatives CI95: 64,0–89,4; exaktes CI95: 66,3–92,0; Bootstrap-CI95: 65,8–98,2). Die Übereinstimmungsgrenzen liegen demnach recht weit auseinander, weshalb wir nicht nur von einem signifikanten und (klinisch) relevanten Bias, sondern auch von einer recht großen Schwankungsbreite für die Unterschiede zwischen den Messungen ausgehen müssen. Kwapil et al. [6] vermuten, dass unterschiedliche Aktivatoren für diese recht deutlichen Unterschiede zwischen LR- und HR-Küvetten verantwortlich sind. Falls der Bias nicht signifikant bzw. zumindest nicht (klinisch) relevant ist, können die Übereinstimmungsgrenzen dazu herangezogen werden, um festzustellen, ob es trotzdem zu klinisch relevanten Unterschieden zwischen den beiden Messmethoden kommen kann.
DEMING-REGRESSION
Wie wir oben festgehalten haben, entspricht eine perfekte Übereinstimmung zwischen zwei Messmethoden im einfachen Streudiagramm gerade der Geraden y = x. Dies bedeutet, dass a = 1 und b = 0 für y = ax + b gelten muss. Der Achsenabschnitt steht in diesem Fall demnach für eine konstante Verschiebung und die Steigung für einen proportionalen Unterschied zwischen den beiden Messungen. Da die Messungen von beiden Methoden (also x und y) mit zufälligen Fehlern behaftet sind, eignet sich eine einfache lineare Regression jedoch nicht, um dies zu untersuchen, da hier nur zufällige Fehler in den y-Werten zugelassen sind; es kann zu irreführenden Ergebnissen führen. Stattdessen kann die Deming-Regression [17] verwendet werden, welche von Adcock 1878 eingeführt wurde [18]. Im Fall, dass die Varianzen für beide Messungen gleich sind, entspricht die Deming-Regression gerade der orthogonalen Regression, bei der die Summe der Quadrate der senkrechten Abstände von der Regressionsgeraden minimiert wird. In Abbildung 4 sind die beiden ACT-Messungen zusammen mit den Geraden der linearen und der Deming-Regression dargestellt.

Die beiden Regressionsgeraden unterscheiden sich sichtbar, insbesondere auch von der Geraden y = x. Im Fall der linearen Regression erhalten wir einen Achsenabschnitt von 68,8 (CI95: 34,9 – 107,7) und eine Steigung von 0,28 (CI95: 0,05–0,51), im Fall der Deming-Regression einen Achsenabschnitt von 55,4 (CI95: -5,6–106,4) und eine Steigung von 0,40 (CI95: 0,02–0,79). Dies bedeutet insbesondere, dass wir keine signifikante konstante Verschiebung, aber einen signifikanten proportionalen Unterschied zwischen den beiden Messungen erhalten. Insofern bestätigt auch diese Analyse, dass es signifikante Unterschiede zwischen den beiden ACT-Messmethoden gibt. Das Ausmaß und damit die (klinische) Relevanz des Unterschiedes kann aber einfacher aus den Bland-Altman-Diagrammen in Abbildung 3 abgelesen werden.
PASSING-BABLOK-REGRESSION
Da sowohl das klassische Bland-Altman-Diagramm als auch die Deming-Regression sensitiv gegenüber Ausreißern sind, betrachten wir abschließend die Passing-Bablok-Regression [20], welche von der Rangkorrelation nach Kendall (Kendalls τ) [9] abgeleitet werden kann. Da Rangkorrelationen robust gegenüber Ausreißern sind [9], gilt dies folglich auch für die Passing-Bablok-Regression [14]. In Abbildung 5 vergleichen wir die Deming- mit der Passing-Bablok-Regression für die ACT-Daten [6], wobei die skaleninvariante Variante der Passing-Bablok-Regression mit Bootstrap-Konfidenzintervallen berechnet wurde [21,19].
Die Ergebnisse der beiden Regressionsverfahren unterscheiden sich deutlich. Im Fall der Passing-Bablok-Regression erhalten wir einen Achsenabschnitt von 6,5 (CI95: -20,4–10,9) und eine Steigung von 0,71 (CI95: 0,68–0,89). Damit ergibt sich auch bei der Passing-Bablok-Regression keine signifikante konstante Verschiebung, aber ein signifikanter proportionaler Unterschied, wobei die Steigung deutlich näher zu 1 liegt als im Fall der Deming-Regression. Aufgrund der recht deutlichen Unterschiede bei den Ergebnissen und der fehlenden Robustheit der Deming-Regression sollten in diesem Fall besser die Ergebnisse der Passing-Bablok-Regression für den Methodenvergleich herangezogen werden.

ZUSAMMENFASSUNG
Das Bland-Altman-Diagramm stellt eine einfache Methode dar, um zwei Messmethoden miteinander zu vergleichen, und ist klar einem einfachen Streudiagramm vorzuziehen. Der Einsatzbereich des klassischen Bland-Altman-Diagramms lässt sich zudem durch Variablentransformationen oder den Einsatz von robusten oder nicht-parametrischen Verfahren noch deutlich erweitern. Die Regressionsverfahren von Deming sowie von Passing und Bablok können zusätzlich dazu herangezogen werden, um die Übereinstimmung bzw. Abweichungen von der Übereinstimmung genauer zu analysieren. Durch ihre Robustheit ist die Passing-Bablok-Regression in den meisten Fällen der Deming-Regression vorzuziehen.