library(utils)
::View(GTDSroh) utils
Importierte Daten anschauen
Im vorherigen Post haben wir unsere Intention erläutert, vor der eigentlichen Auswertung der Tumordaten zunächst diese Daten von Fhlern zu bereinigen. Ein erster Schritt ist die visuelle Kontrolle, und die Erfassung der Gesamtgröße der Datentabelle.
Visuelle Kontrolle der Datenbank
Eine Ausgabe der gesamten Tabelle ist eher als “unsinnig” anzusehen. In unserem Fall kommen etwa 10000 Datensätze mit etwa 200 Variablen zusammen. Diese Datenmenge ist nicht mehr überschaubar. Die interessanteste “unerwünschte” Gemeinsamkeit werden wir uns im nächsten Post ansehen: die “Missings”.
Als nächstes wollen wir erstmal genaueres über den Umfang der Daten herausfinden.
Das nachfolgende Code-Fragment zeigt einen kleinen Ausschnitt der gesamten Tabelle, um deren Struktur visuell überprüfen zu können.
Die Funktion “View()” zeigt die Tabelle in einem eigenen Fenster der (RStudio-) Programmierumgebung. Zum Zweck der Illustration dieses Blogs habe ich die Tabelle zusätzlich mit Hilfe der Funktion “kable()” ansprechend aufbereitet.
library(knitr)
::kable(GTDSroh[1321:1330,1:12],caption="Tabellenauszug zur Kontrolle") knitr
Im Ausdruck erscheinen,wie ausgewählt, 10 Zeilen der Tabelle, und deren ersten 12 Parameter.
SATZ_NR | REGISTER | PRIMFALL | PAT_ID | TUMOR_ID | DIAALTER | SEX | DIAICD10 | OP_ANZ | IN_ANZ | ST_ANZ | MET_ANZ |
---|---|---|---|---|---|---|---|---|---|---|---|
10268 | Springfield | J | 10137 | 1 | 66 | W | C56 | 1 | 2 | 0 | 0 |
10269 | Springfield | J | 10138 | 1 | 52 | W | C50.9 | 1 | 2 | 1 | 0 |
10270 | Springfield | J | 10139 | 1 | 69 | W | C50.9 | 1 | 1 | 1 | 0 |
10271 | Springfield | J | 10140 | 1 | 59 | W | C50.9 | 1 | 3 | 1 | 0 |
10272 | Springfield | J | 10141 | 1 | 79 | W | C50.9 | 1 | 1 | 1 | 0 |
10273 | Springfield | J | 10142 | 1 | 84 | W | C50.9 | 1 | 1 | 1 | 1 |
10274 | Springfield | J | 10143 | 1 | 50 | W | D05.1 | 0 | 0 | 0 | 0 |
10275 | Springfield | J | 10144 | 1 | 53 | M | C16.0 | 0 | 1 | 0 | 0 |
10276 | Springfield | J | 10145 | 1 | 84 | W | C21.1 | 0 | 1 | 0 | 0 |
10277 | Springfield | J | 10146 | 1 | 75 | W | C50.9 | 0 | 2 | 0 | 3 |
Weitere Informationen zur importierten Datenbank-Tabelle können ebenfalls leicht generiert werden.
Zunächst eine Auflistung der Objektklasse der Datenbank:
class(GTDSroh)
[1] “spec_tbl_df” “tbl_df” “tbl” “data.frame”
Nachfolgend die Abfrage zur Größe der Tabelle:
dim(GTDSroh)
[1] 10082 211
Die Tabelle, die aus den importierten Daten generiert wurde, umfasst insgesamt 10082 Zeilen und 211 Spalten. Wir haben jetzt bereits einen ersten Überblick über unsere Daten. Die Daten konnten offensichtlich gelesen werden, und die Spaltennamen passen gut zu deren Inhalt. Mir fällt gleich auf, dass einige Tabellenpositionen die Bezeichnung “NA” aufweisen. Dies entspricht der Standard-Kennzeichnung von fehlenden Werten. Im nächsten Schritt werden wir deshalb den “Missings” etwas näher treten …
— | This page brought to you by https://onkostats.de . . . . . Made with R, RStudio, Quarto, Pandoc, Mermaid, GraphViz, Tidyverse and GTDS … Thank you! The R logo is copyright © R foundation, licence CC-BY-SA 4.0