Stat6: Übung

Veröffentlichungsdatum

14. November 2023

Übung 6.1: PCA (naturwissenschaftlich)

  • Datensatz: Doubs.RData

Lädt den Datensatz Doubs.RData mit dem folgenden Befehl ins R: load(“Doubs.RData”)

Die Umweltvariablen findet ihr im data.frame env die Abundanzen im data.frame spe. Im data.frame fishtrait findet ihr die Vollständigen Namen der Fische

Der Datensatz enthält Daten zum Vorkommen von Fischarten und den zugehörigen Umweltvariablen im Fluss Doubs (Jura). Es gibt 30 Probestellen (sites), an denen jeweils die Abundanzen von 27 Fischarten (auf einer Skalen von 0 bis 5) sowie 11 Umweltvariablen erhoben wurden:

  • dfs = Distance from source (km)
  • ele = Elevation (m a.s.l.)
  • slo = Slope (‰)
  • dis = Mean annual discharge (m3 s-1)
  • pH = pH of water
  • har = Hardness (Ca concentration) (mg L-1)
  • pho = Phosphate concentration (mg L-1)
  • nit = Nitrate concentration (mg L-1)
  • amm = Ammonium concentration (mg L-1)
  • oxy = Dissolved oxygen (mg L-1)
  • bod = Biological oxygen demand (mg L-1)

Eure Aufgabe ist nun, in einem ersten Schritt eine PCA für die 11 Umweltvariablen zu rechnen. Da die einzelnen Variablen auf ganz unterschiedlichen Skalen gemessen wurden, ist dazu eine Standardisierung nötig (pca mit der Funktion rda, scale=TRUE). Überlegt, wie viele Achsen wichtig sind und für was sie jeweils stehen.

In einem zweiten Schritt sollen dann die vollständig unkorrelierten PCA-Achsen als Prädiktoren einer multiplen Regression zur Erklärung der Fischartenzahl (Anzahl kann z.B. kann mit dem Befehl specnumber(spe) ermittel werden) verwendet werden (wahlweise lm oder glm). Gebt das minimal adäquate Modell an und interpretiert dieses (wahlweise im frequentist oder information theoretician approach). (Wer noch mehr probieren möchte, kann zum Vergleich noch eine multiple Regression mit den Originaldaten rechnen).