Statistik mit R für Umweltwissenschaftler:innen

Master Modul “Research Methods”

Autor:in

Jürgen Dengler mit Beiträgen von Gian-Andrea Egeler, Daniel Hepenstrick & Stefan Widmer

Empfohlenes Zitat:

Dengler, J., Egeler, G.-A., Hepenstrick, D. & Widmer, S. 2022. Statistik mit R für Umweltwissenschaftler:innen. Skript Version 28. Institut für Umwelt und Natürliche Resourcen (IUNR), ZHAW, Wädenswil, CH.

Korrekturhinweise und Verbesserungsvorschläge an juergen.dengler@zhaw.ch sind willkommen.

Vorwort

Jürgen Dengler

Ich bin Ökologe, kein Statistiker. Trotzdem (oder vielleicht gerade deswegen) wurde ich 2017, als ich am IUNR als Professor und Leiter der Forschungsgruppe Vegetationsökologie begann, gefragt, ob ich nicht den Statistikteil im “Research Methods”-Modul des neuen Masterstudiengangs “Umwelt und Natürliche Ressourcen” übernehmen würde. Ich habe zugesagt, obwohl ich mir der doppelten Herausforderung klar war: (1) als statistische Autodidakt Statistik zu lehren und (2) dies nicht nur für Ökolog:innen, sondern für angehende Umweltingenieur:innen im Allgemeinen zu tun, deren Interessen von Umweltbildung bis zu Umwelttechnologien reichen und die gleichermassen im naturwissenschaftlichen wie im sozialwissenschaftlichen Bereichen unterwegs sind.

Der Kurs hat sich über die Jahre weiterentwickelt, vor allem durch konstruktiv-kritisches Feedback der Studierenden. Während nur wenige der ehemaligen Teilnehmer:innen vermutlich von sich behaupten würden, im Modul zu begeisterten Statistikfans geworden zu sein, so konnte ich doch in nachfolgenden Mastermodulen (etwa der “Summer School Biodiversity Monitoring” oder bei Präsentationen von Masterarbeiten) feststellen, dass viele das Handwerkszeug sehr solide gelernt haben und souverän anwenden konnten. Manche konnten am Ende des Masterstudium durch stetiges «Learning by doing» in der offenen Plattform R sogar statistische Fähigkeiten vorweisen, die deutlich über das im Kurs selbst vermittelte hinausgehen. Acht halbe Kurstage sind sehr wenig, um auch nur die wichtigsten Grundlagen der Statistik zu lernen. Wenn ihr erfolgreich sein wollt, müsst ihr also aktiv mitmachen und mehr Quellen nutzen als nur unsere Inputs im Modul.

Ich hatte eigentlich nicht vor, ein Skript zum Kurs zu erstellen, obwohl das Studierende auch in den Vorjahren immer wieder gewünscht haben. Der Aufwand dafür schien mir zu gross. Dann kam Covid-19 und im Herbstsemester 2020 war alles anders. Wir haben entschieden das “Methodenmodul” aus epidemiologischen Gründen ohne physischen Kontakt mit euch durchzuführen. Ich hätte in dieser Situation wie andere Dozierende mit Screencasts arbeiten können, aber ohne die Möglichkeit, dabei auf eure Fragen direkt eingehen zu können, schien mir das wenig erfolgsversprechend. Auch den ganzen Vormittag lang einen Online-Kurs zu halten, schien mir für euch wie für uns Dozierende unzumutbar. Insofern habe ich mich nach Diskussionen mit den anderen Beteiligten entschieden, doch ein Skript zu erstellen. Die Idee war, dass die Studierende es vorgängig zu den Kurstagen gelesen haben und wir dann in einem gemeinsamen Online-Raum auf Zoom, im Sinne eines «inverted classroom» die offenen Fragen diskutiert haben. Das hat sich so gut bewährt, dass wir dieses Prinzip auch nach Covid-19 beibehalten haben, nur dass wir uns jetzt für den «inverted classroom» wieder live im Kursraum treffen.

Das hier vorliegende Skript war ursprünglich eine Verschriftlichung der Vorlesungsfolien der ersten Jahre. Seither haben wir die Inhalte an statistische Bedürfnisse angepasst, d. h. Methoden in den Vordergrund gestellt, die über viele Disziplinen in den Umweltwissenschaften relevant sind, und die verwendeten R-packages den Weiterentwicklungen in R angepasst. Da wir im Zuge der Überarbeitungen auch grössere Themenblöcke gestrichen haben, die vor allem für die Ökolog:innen unter den Umweltwissenschaftler:innen relevant sind, bieten wir diese weiterführenden Methoden, die besonders in der Vertiefung «Biodiversity and Ecosystems» häufig gebraucht werden, künftig als «Individual Specialization Module» (ISM) «Statistik-Vertiefung» im Frühjahrssemester an (siehe Anhang I).

Wichtig ist, dass dieses Skript nicht als alleiniges Lehrmaterial gedacht ist. Genauso wichtig sind die gemeinsamen Präsenz-Lektionen mit Diskussion des theoretischen Stoffes und der Vorführung (Demo) exemplarischer R-Codes sowie die Übungen und deren Besprechung. Ich empfehle euch auch, begleitend auch andere Quellen zu nutzen, insbesondere wenn einige von euch meine Erklärungen schwer verständlich finden sollten. Welche Form der Informationsbereitstellung jemand eingängig findet, ist individuell sehr verschieden. Da nahezu alle aus meiner Sicht empfehlenswerten aktuellen Statistikbücher auf Englisch sind, dieses Skript jedoch auf Deutsch, habe ich im Skript wichtige Fachtermini in beiden Sprachen angegeben (Englisch ist dann kursiv), um eine leichtere Verknüpfung zu schaffen.

Im Skript wird die Theorie beginnend mit den einfachsten statistischen Verfahren (die den Masterstudierenden schon geläufig sein sollten) sukzessive aufgebaut, wobei an geeigneten Stellen wichtige Grundsätze (z. B. Unabhängigkeit der Messwerte, Voraussetzungen für Tests etc.) erklärt werden, die für die Statistik insgesamt relevant sind. Die Theorie ist immer mit dem entsprechenden R-Code kombiniert, einschliesslich der Interpretation der textlichen und grafischen Ausgaben von R. Das Skript enthält nur Auszüge des zugrunde liegenden R-Codes, der ausführlicher im Unterricht (in der jeweils zweiten Lektion) vorgestellt und besprochen wird. Da es in diesem Kursteil um das Verständnis der Statistik geht, wurde kein grosser Aufwand auf das “Optimieren” des visuellen Outputs gelegt, welches den Code wesentlich verlängert und den Blick vom “Eigentlichen” abgelenkt hätte.

Wir hoffen, dass dieses Skript sich als nützlicher Begleiter in eurem Studium und danach erweist. Hinweise zu Fehlern und Verbesserungsvorschläge könnt ihr gerne jederzeit an juergen.dengler@zhaw.ch melden.

Empfohlene weiterführende Literatur

Borcard, D., Gillet, F. & Legendre, P. 2018. Numerical ecology with R. 2nd ed. Springer, Cham, CH: 435 pp.
Crawley, M.J. 2013. The R book. 2nd ed. John Wiley & Sons, Chichester, UK: 1051 pp.
Crawley, M.J. 2015. Statistics An introduction using R. 2nd ed. John Wiley & Sons, Chichester, UK: 339 pp.
Leps, J. & Smilauer, P. 2020. Biostatistics with R An introductory guide for field biologists. Cambridge University Press, Cambridge, UK: 365 pp.
Logan, M. 2010. Biostatistical design and analysis using R: a practical guide. Wiley-Blackwell, Chichester, UK: 546 pp.
Quinn, G.P. & Keough, M.J. 2002. Experimental design and data analysis for biologists. Cambridge University Press, Cambridge, UK: 537 pp.