Statistik Teil 2: Datenorganisation mit Tabellenkalkulationsprogrammen

Der Ausgangspunkt für eine effiziente und fehlerfreie statistische Analyse ist eine adäquate Erhebung, Organisation und Speicherung der Daten. Dabei sollte das Ziel eines guten Datenmanagements immer sein, die FAIR-Prinzipien („findable, accessible, interoperable, reusable“) einzuhalten [1]. Darüber hinaus sollten personenbezogene Daten immer in pseudonymisierter Form abgespeichert werden; d. h., es muss sichergestellt sein, dass die Daten nicht mehr einer konkreten Person zugeordnet werden können (vgl. § 46 Abs. 5 des Bundesdaten-schutzgesetzes, https://www.buzer.de/46_BDSG_Bundesdatenschutzgesetz.htm).

Die folgenden Empfehlungen zur Organisation von Daten mittels Tabellenkalkulationsprogrammen (TKPs) basieren zum größten Teil auf den Arbeiten von Broman und Woo [2], Wickham [3] und White et al. [4]. Diese Referenzen enthalten außerdem viele hilfreiche Beispiele.

Zunächst einmal sollte man beachten, dass die Datenorganisation bereits vor der Datenerhebung beginnt, da das Umorganisieren von bereits erhobenen Daten eine bekannte Fehlerquelle ist. Sollte dies wirklich nötig werden, so empfiehlt es sich, die Umorganisation mit Hilfe von einem eigens dafür geschriebenen, gut dokumentierten Code durchzuführen. So kann man die Änderungen jederzeit nachvollziehen, prüfen und gegebenenfalls anpassen [2]. Sehr gut eignen sich dafür etwa die Statistiksoftware R [5] (z. B. R Skript oder R Markdown Dokument [6]) oder die Programmiersprache Python [7] (z. B. Python Skript oder Jupyter Notebook [8]). Weiterhin ist es von enormer Wichtigkeit, dass man bei der Datenorganisation bezüglich aller Aspekte (Ordnerstruktur, Ordnernamen, Dateinamen, Tabellenaufbau, Variablennamen, Variablenwerte, etc.) möglichst konsistent vorgeht [2].

Werden die Daten mit Hilfe eines TKPs erhoben und gespeichert, sollten für jeden Datensatz zwei Tabellen angelegt werden. Die erste Tabelle dient hierbei zur Aufnahme der erhobenen Daten, die zweite Tabelle enthält das sogenannte Datenwörterbuch („data dictionary“). Die Datentabelle sollte dabei so organisiert werden, dass sie die erhobenen Variablen als Spalten enthält, wobei die erste Zeile die Spaltennamen enthalten sollte (Tab. 1–3). Die Zeilen hingegen entsprechen den Beobachtungen (z. B. Patienten), wobei es auch möglich ist, in der ersten Spalte Zeilennamen zu vergeben, falls dies sinnvoll erscheint [2,3,4].

Wickham bezeichnet einen derartigen Aufbau als „tidy data“ (aufgeräumte Daten) [3]. Bei der Vergabe von Zeilen- und Spaltennamen ist insbesondere darauf zu achten, dass diese für sich genommen eindeutig sind, d. h. weder innerhalb der Zeilen noch innerhalb der Spaltennamen sollte ein Name wiederholt auftauchen. Die Variablennamen (= Spaltennamen) sollten kurz, prägnant und aussagekräftig sein, wobei man auf die Verwendung von Leer- und Sonderzeichen (z. B. #, @, €, ° etc.) sowie Umlaute und ß verzichten sollte [2] (Tab.1–3).

Die Zellen der Datentabelle enthalten die erhobenen Werte, wobei im Fall von kategorialen (nominal- oder ordinalskalierten) Variablen die Namen der Kategorien ebenfalls nach obigen Regeln gewählt werden sollten. Generell empfiehlt es sich, Werte unter Einhaltung internationaler Standards zu wählen; so sollte z. B. für Datumswerte das Format „YYYY-MM-DD“ nach ISO 8601 verwendet werden (z. B. 19. Februar 2022 = 2022-02-19) [2,4]. Ein weiterer wichtiger Aspekt beim Erheben von Daten ist die Kodierung von fehlenden Werten. Generell sollte eine Datentabelle nach der Datenerhebung keine leeren Zellen geschweige denn leere Zeilen oder Spalten enthalten. Im Fall eines fehlenden Wertes sollte daher die entsprechende Zelle mit einem speziellen Wert gefüllt werden [2]. Die Abkürzung NA („not available“) ist in den allermeisten Fällen eine gute Option [2,4]. Im Folgenden finden sich in kurzer Form weitere wichtige Empfehlungen zur Datenorganisation [2,3,4]:

Jede Zelle sollte nur eine einzelne Information enthalten. Wird etwa nur unter bestimmten Bedingungen eine Messung durchgeführt, so sollte man eine Spalte anlegen, in der verzeichnet ist, ob gemessen wurde und eine zweite Spalte, welche die Messwerte enthält.
Daten und darauf basierende Berechnungen sollten strikt getrennt werden, d. h. in der Datentabelle sollten keine, auch nicht einfache, Berechnungen durchgeführt werden.
Auf eine Formatierung von Zellen (Rahmen, Farben, Schattierung, etc.) oder der Schriftart (farbig, fett, kursiv, etc.) sollte verzichtet werden. Dienen Formatierungen speziell dazu, zusätzliche Information darzustellen, z. B. ob es sich um einen validierten Wert handelt oder nicht, so sollte diese Information in einer zusätzlichen Spalte abgespeichert werden.
Es sollten regelmäßig Backups von den Datendateien durchgeführt werden. Eine alternative Möglichkeit zur Sicherung der Daten stellen auch sogenannte öffentliche Datenspeicher („data repositories“) dar.
Die Daten sollten regelmäßigen Qualitätskontrollen unterzogen werden. Einfache Beispiele sind etwa: Haben alle Spalten den richtigen Datentyp; liegen alle Werte innerhalb plausibler Wertebereiche; finden sich nicht-numerische Werte in einer Spalte, die nur numerische Werte enthalten sollte?

Die Daten verschiedener Beobachtungseinheiten sollten nicht vermischt werden. Werden z. B. in einer multizentrischen Studie zum einen Daten über die beteiligten Kliniken und zum anderen über die einzelnen Patienten gesammelt, so sollten die Daten zu den Kliniken getrennt von den Daten der Patienten abgespeichert werden.
Es ist besser, für jede Tabelle eine eigene Datei zu erstellen, anstelle nur eine Datei mit mehreren Tabellenblättern zu verwenden.
Es ist am besten, die Tabellen in einfachem Textformat zu speichern (Spalten z. B. durch Strichpunkt oder Tabulator getrennt). Dies stellt zum einen sicher, dass für die Dateien nie eine spezielle Software benötigt wird, und zum anderen kann jedes TKP diese problemlos öffnen und in der üblichen Form anzeigen.

Die Variablennamen, die möglichen Werte oder Wertebereiche der Variablen sowie eventuelle weitere Erklärungen werden als Zeilen in das Datenwörterbuch eingetragen.

In Tabelle 1 findet sich eine einfache Datentabelle mit dem zugehörigen Datenwörterbuch. In dieser sogenannten langen Form lassen sich viele statistische Analysen oder graphische Darstellungen direkt, ohne zusätzliche Transformationen, durchführen.

*Tab. 1a: Einfache Datentabelle in langem Format*

*Tab. 1b: Datenwörterbuch in langem Format.*

Die Daten können aber auf Basis der obigen Empfehlungen auch auf andere Weise organisiert werden. In Tab. 2 findet sich eine Alternative, die auch als breite Form bezeichnet wird. In diesem Fall werden die Messwerte der verschiedenen Zeitpunkte in separaten Spalten aufgeführt. Diese Form der Datenorganisation ist zum Beispiel vorteilhaft, wenn in der statistischen Analyse die Werte eines Zeitpunktes auf die Werte eines anderen Zeitpunktes adjustiert werden sollen (z. B. im Fall der ANCOVA).

*Tab. 2a: Einfache Datentabelle in breitem Format.*

*Tab. 2b: Datenwörterbuch in breitem Format.*

Die dritte Tabelle schließlich zeigt eine weitere Möglichkeit, diesen Datensatz zur organisieren, sozusagen eine „extra lange“ Form (Tab. 3). In diesem Fall werden alle Messwerte in einer einzigen Spalte erfasst, was eine weitere Spalte nötig macht, in der festgehalten ist, um welchen Analyten es sich handelt. Auch diese Form eignet sich gut für nachfolgende statistische Analysen oder graphische Darstellungen.

Außerdem kann mit geeigneter Software wie z. B. R [5], Python [7] oder auch IBM SPSS Statistics recht einfach zwischen langen und breiten Formaten hin und her transformiert werden.

*Tab. 3a: Einfache Datentabelle in „extra langem“ Format.*

*Tab. 3b: Datenwörterbuch in „extra langem“ Format.*

Organisiert man die Daten wie oben beschrieben, eignen sich TKPs in vielen Fällen sehr gut für die Eingabe, Organisation und Speicherung von Daten und ermöglichen eine effiziente und fehlerfreie statistische Analyse. Jedoch sollte man sich der Schwächen bewusst sein. Die von der European Spreadsheet Risks Interest Group (EuSpRiG) gesammelten Fälle zeigen Fehler auf und wie diese hätten vermieden werden können [9]. So hat etwa die Verwendung des xls-Formats mit seiner Beschränkung auf ca. 65.000 Zeilen im September 2020 dazu geführt, dass nahezu 16.000 COVID-19 Fälle in Großbritannien undokumentiert blieben [10]. Weiterhin ist seit mehreren Jahren bekannt, dass die Autokorrektur von Microsoft Excel regelmäßig Gennamen verfälscht und ca. 30 % der publizierten Artikel fehlerhafte Gennamen in den ergänzenden Daten enthalten, weshalb mittlerweile sogar einige Gensymbole umbenannt wurden [11]. Auch ist bei der Datenorganisation mit einem TKP, wie im obigen Beispiel zu sehen ist, das Prinzip der Vermeidung von Datenredundanz üblicherweise verletzt. Bei komplexen oder sehr umfangreichen Daten („big data“) empfiehlt sich die Entwicklung einer entsprechend angepassten und optimierten Datenbank.

Preisträger Jahrestagung 2025 und Jubilare der DGPTM

Herzlichen Glückwunsch an die Jubilare der DGPTM und an alle, die einen Preis erhalten haben. Ein ebenfalls großer Dank richtet sich an die Sponsoren der Preise.

Eine Übersicht zu den Abstracts der prämierten Arbeiten befindet sich am Ende des Artikels.

Tagungspreis 2025 der DGPTM (Sponsor: free life medical GmbH)

Preisträger: Nicola Kwapil, Universitätsmedizin der Johannes-Gutenberg-Universität Mainz

Auf dem Foto sind von links nach rechts: Sebastian Tiedge, Nicola Kwapil, Rigobert Schnur (von free life) und PD Dr. Alexander Horke

DGTHG-Preis Fokustagung Herz 2025 (Sponsor: Dr. Franz Köhler Chemie GmbH)

Preisträgerin: Dr. Claudia Arenz, Universitätsklinikum Bonn

Auf dem Foto sind von links nach rechts: Sebastian Tiedge, Dr. Claudia Arenz, PD Dr. Alexander Horke und Dr. Stefan Fritz (von Köhler Chemie)

Nachwuchsförderpreis der Jungen Foren (Sponsor: Dr. Franz Köhler Chemie GmbH)

Preisträgerin: Gloria Nulchis, Universitätsklinikum Tübingen

Auf dem Foto sind von links nach rechts: Sebastian Tiedge, Gloria Nulchis, PD Dr. Alexander Horke und Dr. Stefan Fritz (von Köhler Chemie)

Innovationspreis (Sponsor: Eurosets GmbH Deutschland)

Preisträger: Nicola Kwapil, Universitätsmedizin der Johannes-Gutenberg-Universität Mainz

Auf dem Foto sind von links nach rechts: Sebastian Tiedge, Nicola Kwapil, Martin Schmidthöfer (von Eurosets), PD Dr. Frank Münch, PD Dr. Alexander Horke

Förderpreise (Sponsor: Terumo Deutschland GmbH)

A: bestbewerteter Originalbeitrag

Preisträger: Simon Mayer, Herzzentrum Klinikum Stuttgart

Auf dem Foto von links nach rechts: Dr. Lars Saemann, Simon Mayer und Tilo Barth (von Terumo)

B: beste Erstveröffentlichung

Preisträger: Lukas Fiebig, Hochschule Furtwangen

Auf dem Foto von links nach rechts: Dr. Lars Saemann, Lukas Fiebig und Tilo Barth (von Terumo)

Preisträger zum Josef Güttler Stipendium

Preisträger: Jhonathan Torres Mosquera, Universitätsklinikum Magdeburg

Auf dem Foto mit PD Dr. Frank Münch

Hier die Jubilare aus diesem Jahr, jeweils mit PD Dr. Frank Münch

50 jähriges: Jürgen Witt

40 jähriges: Stefan Kasseckert, Albert Dick

25 jähriges: Olaf Sillmann (Foto anbei), Holger Schulze Schleithoff, Mathias Opitz (Foto anbei), Joachim Naumann (Foto anbei), Frank-Oliver Große (Foto anbei), Markus Fischer, Andreas Behrendt, Johannes Amberger

Übersicht zu den Abstracts der prämierten Arbeiten

Tagungspreis 2025 der DGPTM

A-168

Kompakter ECMO-Trolley – ein Transportsystem für alle Materialien

Nicola Kwapil
(Universitätsmedizin Mainz) (DGPTM)

DGTHG-Preis Fokustagung Herz 2025

A-158

Pulmonalklappendilatation bei frühsymptomatischer Fallot-Tetralogie: Erste palliative Maßnahme und Einfluß ballonbedingter Klappeneinrisse auf die chirurgische Strategie

Dr. Claudia Arenz (Universitätsklinikum Bonn) (DGTHG)

Nachwuchsförderpreis der Jungen Foren

A-174

Über die allometrischen Interaktionen der fraktalen Eigenschaften des kardiovaskulären Gefäßsystems und dem Hagen-Poiseuille’schen Gesetz. Erkenntnisse aus einem mathematischen Modell und der Simulaiton per Computational Fluid Dynamics für Bypässe.

Gloria Nulchis
(Universitätsklinikum Tübingen)

Innovationspreis

A-167

Kinder ECMO Fahrtrage 2.0 – eine standardisierte Lösung für Deutschland

Nicola Kwapil
(Universitätsmedizin Mainz) (DGPTM)

Credits der Fotos:

DGPTM/Klindtworth

Autor:innen

Hauptautor:in

Zusammenfassung

Literatur

Anmeldung

Statistik Teil 2: Datenorganisation mit Tabellenkalkulationsprogrammen

Autor:innen

Hauptautor:in

Zusammen­fassung

Literatur

Das Fachwissensquiz Mai ’26 ist online!

Das Fachwissensquiz April ’26 ist online!

Das Fachwissensquiz März ’26 ist online!

Das Fachwissensquiz Februar ’26 ist online!

Das Fachwissensquiz Januar ’26 ist online!

Bitte im Mitgliederbereich einloggen – es gibt Neuigkeiten für euch

Daten aktualisieren

Gehaltsumfrage

EFN-Barcodes herunterladen

Preisträger Jahrestagung 2025 und Jubilare der DGPTM

Übersicht zu den Abstracts der prämierten Arbeiten

Der „Maschinist“ im Saal. Die Arbeit von Perfusionist:innen (Zeitungsartikel)

Willkommen zur neuen Webseite

Anmeldung

Achtung: Mehrfache Anforderungen beschleunigen die Mailzustellung nicht. Ein Login mit Microsoft funktioniert nur, wenn die Microsoft-Email der hinterlegten E-Mail Adresse entspricht.

Als Mitglied der DGPTM können Sie sich mit der bei uns hinterlegten Mailadresse oder Ihrem Benutzernamen ganz einfach mit einem Einmalpasswort einloggen. Dieses bekommen Sie per Mail geschickt. Sie werden danach direkt in den Internen Bereich geleitet.

Ihr Benutzername besteht aus den ersten beiden Buchstaben Ihres Vornamens und Ihrem Nachname (ä=ae ect).

Zusammenfassung