Stat2: Übung
Zu erstellen sind
- lauffähiges R-Skript
- begründeter Lösungsweg (Kombination aus R-Code, R Output und dessen Interpretation)
- ausformulierter Methoden- und Ergebnisteil (für eine wiss.Arbeit).
- Bitte erklärt und begründet die einzelnen Schritte, die ihr unternehmt, um zu eurem Ergebnis zu kommen. Dazu erstellt bitte ein Word-Dokument (oder ein z.B. mit Quarto generiertes pdf- oder html-Dokument), in dem ihr Schritt für Schritt den verwendeten R-Code, die dazu gehörigen Ausgaben von R, eure Interpretation derselben und die sich ergebenden Schlussfolgerungen für das weitere Vorgehen dokumentiert.
- Dieser Ablauf sollte insbesondere beinhalten:
- Überprüfen der Datenstruktur nach dem Einlesen, welches sind die abhängige(n) und welches die unabängige(n) Variablen etc.
- Explorative Datenanalyse, um zu sehen, ob evtl. Dateneingabefehler vorliegen oder Datentransformationen vorgenommen werden sollten
- Auswahl und Begründung eines statistischen Verfahrens
- Bestimmung des vollständigen/maximalen Models
- Selektion des/der besten Models/Modelle
- Durchführen der Modelldiagnostik für dieses
- Generieren aller Zahlen, Statistiken und Tabellen, die für eine wiss. Ergebnisdarstellung benötigt werden
- Formuliert abschliessend einen Methoden- und Ergebnisteil (ggf. incl. adäquaten Abbildungen/Tabellen) zu dieser Untersuchung in der Form einer wissenschaftlichen Arbeit (je einen ausformulierten Absatz von ca. 60-100 Worten bzw. 3-8 Sätzen). Alle wichtigen Informationen sollten enthalten sein, unnötige Redundanz dagegen vermieden werden.
Übung 2.1: Regression
Regressionsanalyse mit SAR.csv
Der Datensatz beschreibt die Zunahme der Artenzahlen (richness) von Pflanzen in Trockenrasen der Schweiz in Abhängigkeit von der Probeflächengrösse (area, hier in m²). Diese Beziehung bezeichnet man als Artenzahl-Areal-Kurve (Species-area relationship = SAR).
- Ladet den Datensatz in R und macht eine explorative Datenanalyse.
- Wählt unter den schon gelernten Methoden der Regressionsanalyse ein adäquates Vorgehen zur Analyse dieser Daten und führt diese dann durch.
- Prüft anhand der Residuen, ob die Modellvoraussetzungen erfüllt waren
- Falls die Modelldiagnostik negativ ausfällt, überlegt, welche Datentransformation helfen könnte, und rechnet neue Modelle mit einer oder ggf. mehreren Datentransformationen, bis ihr eine statistisch zufriedenstellende Lösung gefunden habt.
- Stellt die erhaltenen Ergebnisse angemessen dar (Text, Abbildung und/oder Tabelle).
- Kennt ihr ggf. noch eine andere geeignete Herangehensweise?
Übung 2.2: Einfaktorielle ANOVA
ANOVA mit Datensatz Datensatz_novanimal_Uebung_Statistik2.1.csv
Führt mit dem Datensatz novanimal.csv eine einfaktorielle ANOVA durch. Gibt es Unterschiede zwischen der Anzahl verkaufter Gerichte “tot_sold” (Buffet, Fleisch oder Vegetarisch) pro Woche?
Übung 2.3N: Mehrfaktorielle ANOVA (NatWis)
ANOVA mit kormoran.csv
Der Datensatz enthält 40 Beobachtungen zu Tauchzeiten zweier Kormoranunterarten (C = Phalocrocorax carbo carbo und S = Phalacrocorax carbo sinensis) aus vier Jahreszeiten (F = Frühling, S = Sommer, H = Herbst, W = Winter).
- Lest den Datensatz nach R ein und führt eine adäquate Analyse durch, um beantworten zu können, wie Unterart und Jahreszeit die Tauchzeit beeinflussen.
- Stellt eure Ergebnisse dann angemessen dar (Text mit Abbildung und/oder Tabelle).
- Gibt es eine Interaktion?
Übung 2.3S: Mehrfaktorielle ANOVA mit Interaktion (SozWis)
MANOVA mit Datensatz_novanimal_Uebung_Statistik2.3.csv
In der Mensa gibt es zwei Preiskategorien für Gerichte: eine günstigere Menülinie (“World” und “Favorite”) und eine teurere Menülinie (“Kitchen”). Wir möchten herausfinden, ob es Unterschiede gibt, wenn es um den Kauf von Gerichten aus den verschiedenen Preiskategorien geht (Menülinien), abhängig von der Zugehörigkeit zur Hochschule (Mitarbeitende und Studierende).