Datenbereinigung: visuell kontrollieren

Analyse
R
Chunk
Tidyverse
knitr::kable
utils::View
missings
Author

Martin Burk

Published

September 1, 2022

Importierte Daten anschauen

Im vorherigen Post haben wir unsere Intention erläutert, vor der eigentlichen Auswertung der Tumordaten zunächst diese Daten von Fhlern zu bereinigen. Ein erster Schritt ist die visuelle Kontrolle, und die Erfassung der Gesamtgröße der Datentabelle.

Visuelle Kontrolle der Datenbank

Eine Ausgabe der gesamten Tabelle ist eher als “unsinnig” anzusehen. In unserem Fall kommen etwa 10000 Datensätze mit etwa 200 Variablen zusammen. Diese Datenmenge ist nicht mehr überschaubar. Die interessanteste “unerwünschte” Gemeinsamkeit werden wir uns im nächsten Post ansehen: die “Missings”.

Als nächstes wollen wir erstmal genaueres über den Umfang der Daten herausfinden.

Das nachfolgende Code-Fragment zeigt einen kleinen Ausschnitt der gesamten Tabelle, um deren Struktur visuell überprüfen zu können.

library(utils)

utils::View(GTDSroh)

Die Funktion “View()” zeigt die Tabelle in einem eigenen Fenster der (RStudio-) Programmierumgebung. Zum Zweck der Illustration dieses Blogs habe ich die Tabelle zusätzlich mit Hilfe der Funktion “kable()” ansprechend aufbereitet.

library(knitr)

knitr::kable(GTDSroh[1321:1330,1:12],caption="Tabellenauszug zur Kontrolle")

Im Ausdruck erscheinen,wie ausgewählt, 10 Zeilen der Tabelle, und deren ersten 12 Parameter.

Tabellenauszug zur Kontrolle
SATZ_NR REGISTER PRIMFALL PAT_ID TUMOR_ID DIAALTER SEX DIAICD10 OP_ANZ IN_ANZ ST_ANZ MET_ANZ
10268 Springfield J 10137 1 66 W C56 1 2 0 0
10269 Springfield J 10138 1 52 W C50.9 1 2 1 0
10270 Springfield J 10139 1 69 W C50.9 1 1 1 0
10271 Springfield J 10140 1 59 W C50.9 1 3 1 0
10272 Springfield J 10141 1 79 W C50.9 1 1 1 0
10273 Springfield J 10142 1 84 W C50.9 1 1 1 1
10274 Springfield J 10143 1 50 W D05.1 0 0 0 0
10275 Springfield J 10144 1 53 M C16.0 0 1 0 0
10276 Springfield J 10145 1 84 W C21.1 0 1 0 0
10277 Springfield J 10146 1 75 W C50.9 0 2 0 3

Weitere Informationen zur importierten Datenbank-Tabelle können ebenfalls leicht generiert werden.

Zunächst eine Auflistung der Objektklasse der Datenbank:

class(GTDSroh)

[1] “spec_tbl_df” “tbl_df” “tbl” “data.frame”

Nachfolgend die Abfrage zur Größe der Tabelle:

dim(GTDSroh)

[1] 10082 211

Die Tabelle, die aus den importierten Daten generiert wurde, umfasst insgesamt 10082 Zeilen und 211 Spalten. Wir haben jetzt bereits einen ersten Überblick über unsere Daten. Die Daten konnten offensichtlich gelesen werden, und die Spaltennamen passen gut zu deren Inhalt. Mir fällt gleich auf, dass einige Tabellenpositionen die Bezeichnung “NA” aufweisen. Dies entspricht der Standard-Kennzeichnung von fehlenden Werten. Im nächsten Schritt werden wir deshalb den “Missings” etwas näher treten …

— | This page brought to you by https://onkostats.de . . . . . Made with R, RStudio, Quarto, Pandoc, Mermaid, GraphViz, Tidyverse and GTDS … Thank you! The R logo is copyright © R foundation, licence CC-BY-SA 4.0