StatKons3: Demo


20. November 2023

Einfaktorielle ANOVA

# für mehr infos

cars <- mtcars |>
  mutate(cyl = as.factor(cyl)) |>
  slice(-31) # lösch die 31ste Zeile

# Alternativ ginge auch das
cars[-31, ]

# schaue daten zuerst mal an
# 1. Responsevariable
hist(cars$hp) # nur sinnvoll bei grossem n

# 2. Responsevariable ~ Prediktorvariable
table(cars$cyl) # mögliches probel, da n's unterschiedlich gross

boxplot(cars$hp ~ cars$cyl) # varianzheterogentität weniger das problem,
# aber normalverteilung der residuen problematisch

# definiere das modell für eine ein-faktorielle anova
aov.1 <- aov(log10(hp) ~ cyl, data = cars)

# 3. Schaue Modelgüte an
par(mfrow = c(2, 2))

# 4. Schaue output an und ordne es ein

# 5. bei meheren Kategorien wende einen post-hoc Vergleichstest an

# 6. Ergebnisse passend darstellen

# erstens die signifikanten Unterschiede mit Buchstaben versehen
letters <- multcomp::cld(multcomp::glht(aov.1, linfct = multcomp::mcp(cyl = "Tukey"))) # Achtung die kategoriale
# Variable (unsere unabhängige Variable "cyl") muss als Faktor
# definiert sein z.B. as.factor()

# einfachere Variante
boxplot(hp ~ cyl, data = cars)
mtext(letters$mcletters$Letters, at = 1:3)

# schönere Variante :)
ggplot(cars, aes(x = cyl, y = hp)) +
  stat_boxplot(geom = "errorbar", width = .5) +
  geom_boxplot(size = 1) +
  annotate("text", x = 1, y = 350, label = "a", size = 7) +
  annotate("text", x = 2, y = 350, label = "b", size = 7) +
  annotate("text", x = 3, y = 350, label = "c", size = 7) +
  labs(x = "\nAnzahl Zylinder", y = "Pferdestärke") +

# Plot exportieren
  filename = "statKons/distill-preview.png",
  device = "png"
) # hier kann man festlegen, was für ein Bildformat
# exportiert werden möchte

# Sind die Voraussetzungen für eine Anova verletzt, überprüfe alternative
# nicht-parametische Tests z.B. oneway-Test mit Welch-korrektur für ungleiche
# Varianzen (Achtung auch dieser Test hat Voraussetzungen -> siehe Skript XY)
welch1 <- oneway.test(hp ~ cyl, data = cars, var.equal = FALSE)
rosetta::posthocTGH(cars$hp, cars$cyl, method = "games-howell")

Mehrfaktorielle ANOVA

## Call:
## aov(formula = hp ~ cyl * am + wt, data = cars)
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -33.834 -14.280  -7.418   7.120  60.282 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)   32.743     31.636   1.035 0.310980    
## cyl6          22.556     20.859   1.081 0.290274    
## cyl8          88.818     20.463   4.340 0.000222 ***
## am            13.002     19.952   0.652 0.520811    
## wt            17.691      9.409   1.880 0.072272 .  
## cyl6:am       14.626     27.392   0.534 0.598276    
## cyl8:am       73.356     33.194   2.210 0.036894 *  
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## Residual standard error: 26.73 on 24 degrees of freedom
## Multiple R-squared:  0.8428, Adjusted R-squared:  0.8035 
## F-statistic: 21.45 on 6 and 24 DF,  p-value: 1.511e-08

Einfache Regression

# inspiriert von Simon Jackson: http s://
cars <- mtcars |>
  # ändere die unabhängige Variable mpg in 100Km/L
  mutate(kml = (235.214583 / mpg)) # mehr Infos hier:
# |>  # klone data set
# slice(-31) # # lösche Maserrati und schaue nochmals Modelfit an

## 1.Daten anschauen

# Zusammenhang mal anschauen
# Achtung kml = 100km pro Liter
plot(hp ~ kml, data = cars)

# Responsevariable anschauen

# Korrelationen uv + av anschauen
# Reihenfolge spielt hier keine Rolle, wieso?
cor(cars$kml, cars$hp) # hängen stark zusammen
## [1] 0.7629477

# 2. Modell definieren: einfache regression
model <- lm(hp ~ kml, data = cars)
## Call:
## lm(formula = hp ~ kml, data = cars)
## Residuals:
##    Min     1Q Median     3Q    Max 
## -75.22 -25.52 -13.31  30.92 148.69 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  -26.021     27.880  -0.933    0.358    
## kml           13.540      2.095   6.464 3.84e-07 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## Residual standard error: 45.06 on 30 degrees of freedom
## Multiple R-squared:  0.5821, Adjusted R-squared:  0.5682 
## F-statistic: 41.79 on 1 and 30 DF,  p-value: 3.839e-07

# 3.Modeldiagnostik und ggf. Anpassungen ans Modell oder ähnliches

# semi schöne Ergebnisse
ggplot2::autoplot(model) + mytheme # gitb einige Extremwerte => was tun? (Eingabe/Einlesen

# überprüfen, Transformation, Extremwerte nur ausschliessen mit guter Begründung)

# erzeuge vorhergesagte Werte und Residualwerte
cars$predicted <- predict(model) # bilde neue Variable mit geschätzten y-Werten
cars$residuals <- residuals(model)

# schaue es dir an, sieht man gut was die Residuen sind
d <- cars |>
  dplyr::select(hp, kml, predicted, residuals)

# schauen wir es uns an
head(d, 4)
##                 hp      kml predicted residuals
## Mazda RX4      110 11.20069  125.6411 -15.64107
## Mazda RX4 Wag  110 11.20069  125.6411 -15.64107
## Datsun 710      93 10.31643  113.6678 -20.66776
## Hornet 4 Drive 110 10.99134  122.8063 -12.80626

# visualisiere residuen
ggplot(d, aes(x = kml, y = hp)) +
  # verbinde beobachtete werte mit vorausgesagte werte
  geom_segment(aes(xend = kml, yend = predicted)) +
  geom_point() + # Plot the actual points
  geom_point(aes(y = predicted), shape = 4) + # plot geschätzten y-Werten
  # geom_line(aes(y = predicted), color = "lightgrey") # alternativ code
  geom_smooth(method = "lm", se = FALSE, color = "lightgrey") +
  # Farbe wird hier zu den redisuen gemapped, abs(residuals) wegen negativen zahlen
  geom_point(aes(color = abs(residuals))) +
  # Colors to use here (für mehrere farben verwende color_gradient2)
  scale_color_continuous(low = "blue", high = "red") +
  scale_x_continuous(limits = c(0, 40)) +
  scale_y_continuous(limits = c(0, 300)) +
  guides(color = "none") + # Color legende entfernen
  labs(x = "\nVerbraucht in Liter pro 100km", y = "Motorleistung in PS\n") +

# 4. plotte Ergebnis
ggplot(d, aes(x = kml, y = hp)) +
  geom_point(size = 4) +
  # geom_point(aes(y = predicted), shape = 1, size = 4) +
  # plot regression line
  geom_smooth(method = "lm", se = FALSE, color = "lightgrey") +
  # intercept
  geom_line(aes(y = mean(hp)), color = "blue") +

Multiple Regression

# Select data
cars <- mtcars |>
  slice(-31) |>
  mutate(kml = (235.214583 / mpg)) |>
  dplyr::select(kml, hp, wt, disp)

# 1. Multikollinearitüt überprüfen
# Korrelation zwischen Prädiktoren kleiner .7
cor <- cor(cars[, -2])
cor[abs(cor) < 0.7] <- 0
cor #
##            kml        wt      disp
## kml  1.0000000 0.8912658 0.8786238
## wt   0.8912658 1.0000000 0.8878515
## disp 0.8786238 0.8878515 1.0000000

##### info zu Variablen
# wt = gewicht
# disp = hubraum

# 2. Responsevariable + Kriteriumsvariable anschauen
# was würdet ihr tun?

# 3. Definiere das Model
model1 <- lm(hp ~ kml + wt + disp, data = cars)
model2 <- lm(hp ~ kml + wt, data = cars)
model3 <- lm(log10(hp) ~ kml + wt, data = cars)

# 4. Modeldiagnostik


ggplot2::autoplot(model2) # besser, immernoch nicht ok => transformation? vgl. model3


# 5. Modellfit vorhersagen: wie gut sagt mein Modell meine Daten vorher

# es gibt 3 Mögliche Wege

# gebe dir predicted values aus für model2 (für vorzeigebeispiel einfacher :)
# gibts unterschidliche varianten die predicted values zu berechnen
# 1. default funktion predict(model) verwenden
cars$predicted <- predict(model2)

# 2. datensatz selber zusammenstellen (nicht empfohlen): wichtig, die
# prädiktoren müssen denselben
# namen haben wie im Model
# besser mit Traindata von Beginn an mehr Infos hier: <- tibble(
  kml = sample(seq(6.9384, 22.61, .3), 31),
  wt = sample(seq(1.513, 5.424, 0.01), 31),
  disp = sample(seq(71.1, 472.0, .1), 31)
cars$predicted_own <- predict(model2, newdata =

# 3. train_test_split durchführen (empfohlen) muss jedoch von beginn an bereits
# gemacht werden - Logik findet ihr hier: oder
# beispiel hier:
cars <- mtcars |>
  mutate(id = row_number()) |> # für das mergen der Datensätze
  mutate(kml = (235.214583 / mpg)) |>
  dplyr::select(kml, hp, wt, disp, id)

train_data <- cars |>
  dplyr::sample_frac(.75) # für das Modellfitting

test_data <- dplyr::anti_join(cars, train_data, by = "id") # für den Test mit predict

# erstelle das Modell und "trainiere" es auf den train Datensatz
model2_train <- lm(hp ~ kml + wt, data = train_data)

# mit dem "neuen" Datensatz wird das Model überprüft ob guter Modelfit
train_data$predicted_test <- predict(model2_train, newdata = test_data)

# Residuen
train_data$residuals <- residuals(model2_train)
##                           kml  hp    wt  disp id predicted_test residuals
## Lincoln Continental 22.616787 215 5.424 460.0 16      134.01817 -47.88455
## Merc 280C           13.214302 123 3.440 167.6 11      146.24464 -20.37192
## Fiat X1-9            8.615919  66 1.935  79.0 26      173.39854 -23.98304
## Merc 450SE          14.342353 180 4.070 275.8 12      171.45393  25.99904
## AMC Javelin         15.474644 150 3.435 304.0 23      125.36794 -26.66336
## Valiant             12.995281 105 3.460 225.0  6       94.37904 -34.96138

# weiterführende Infos zu "machine learning" Idee hier:
# wichtigstes Packet in dieser Hinsicht ist "caret":
# beste Philosophie ist tidymodels:

# Schnelle variante mit broom
d <- lm(hp ~ kml + wt + disp, data = cars) |>

## # A tibble: 6 × 11
##   .rownames            hp   kml    wt  disp .fitted .resid   .hat .sigma .cooksd
##   <chr>             <dbl> <dbl> <dbl> <dbl>   <dbl>  <dbl>  <dbl>  <dbl>   <dbl>
## 1 Mazda RX4           110  11.2  2.62   160    123. -12.7  0.0478   41.4 1.29e-3
## 2 Mazda RX4 Wag       110  11.2  2.88   160    114.  -4.21 0.0456   41.4 1.34e-4
## 3 Datsun 710           93  10.3  2.32   108    103.  -9.87 0.0758   41.4 1.31e-3
## 4 Hornet 4 Drive      110  11.0  3.22   258    142. -31.6  0.0958   41.0 1.77e-2
## 5 Hornet Sportabout   175  12.6  3.44   360    191. -16.3  0.210    41.3 1.35e-2
## 6 Valiant             105  13.0  3.46   225    138. -33.5  0.0445   40.9 8.22e-3
## # ℹ 1 more variable: .std.resid <dbl>

ggplot(d, aes(x = kml, y = hp)) +
  geom_segment(aes(xend = kml, yend = .fitted), alpha = .2) +
  geom_point(aes(color = .resid)) +
  scale_color_gradient2(low = "blue", mid = "white", high = "red") +
  guides(color = "none") +
  geom_point(aes(y = .fitted), shape = 4) +
  scale_y_continuous(limits = c(0, 350)) +
  geom_smooth(method = "lm", se = FALSE, color = "lightgrey") +

# 6. Modellvereinfachung

# Varianzpartitionierung
## Error in library("hier.part"): there is no package called 'hier.part'
cars <- mtcars |>
  mutate(kml = (235.214583 / mpg)) |>

names(cars) # finde "position" deiner Responsevariable
##  [1] "cyl"  "disp" "hp"   "drat" "wt"   "qsec" "vs"   "am"   "gear" "carb"
## [11] "kml"

X = cars[, -3] # definiere all die Prädiktorvariablen im Model (minus Responsevar)

# dauert ein paar sekunden
hier.part(cars$hp, X, gof = "Rsqu")
## Error in hier.part(cars$hp, X, gof = "Rsqu"): could not find function "hier.part"

# alle Modelle miteinander vergleichen mit dredge Befehl: geht nur bis
# maximal 15 Variablen
model2 <- lm(hp ~ ., data = cars)
options(na.action = "")
allmodels <- dredge(model2)
## Term codes: 
##   am carb  cyl disp drat gear  kml qsec   vs   wt 
##    1    2    3    4    5    6    7    8    9   10 
## Model-averaged coefficients:  
## (full average) 
##             Estimate Std. Error Adjusted SE z value Pr(>|z|)    
## (Intercept)  70.8539    98.1389    100.4683   0.705 0.480663    
## carb         21.4717     5.4456      5.5937   3.839 0.000124 ***
## disp          0.4453     0.1401      0.1432   3.109 0.001875 ** 
## wt          -20.6451    16.9931     17.3080   1.193 0.232944    
## vs            4.9071    12.3728     12.6790   0.387 0.698736    
## cyl           1.8423     5.4948      5.6138   0.328 0.742784    
## drat         -1.2146     6.7301      6.9936   0.174 0.862127    
## qsec         -2.1062     4.6592      4.7408   0.444 0.656841    
## kml           0.1869     1.4603      1.5156   0.123 0.901832    
## am            0.5697     7.5870      7.8770   0.072 0.942342    
## gear          1.3335     6.8393      7.0322   0.190 0.849599    
## (conditional average) 
##             Estimate Std. Error Adjusted SE z value Pr(>|z|)    
## (Intercept)  70.8539    98.1389    100.4683   0.705 0.480663    
## carb         21.6289     5.1451      5.3027   4.079 4.53e-05 ***
## disp          0.4508     0.1318      0.1352   3.334 0.000855 ***
## wt          -28.6308    13.1083     13.6677   2.095 0.036190 *  
## vs           17.9458    18.0517     18.8126   0.954 0.340123    
## cyl           7.5820     8.9855      9.2835   0.817 0.414090    
## drat         -6.5756    14.4903     15.1510   0.434 0.664283    
## qsec         -6.5823     6.1951      6.3856   1.031 0.302633    
## kml           1.0361     3.3075      3.4425   0.301 0.763436    
## am            3.2174    17.7921     18.4899   0.174 0.861860    
## gear          6.9068    14.2750     14.7525   0.468 0.639659    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

# adäquatest model gemäss multimodel inference
model_ad <- lm(hp ~ carb + disp + wt, data = mtcars)
## Call:
## lm(formula = hp ~ carb + disp + wt, data = mtcars)
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -45.225 -14.235   3.879  20.621  39.785 
## Coefficients:
##              Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  53.16715   18.16036   2.928  0.00671 ** 
## carb         23.57691    2.99391   7.875 1.41e-08 ***
## disp          0.51663    0.07669   6.736 2.59e-07 ***
## wt          -28.59214    9.87292  -2.896  0.00725 ** 
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## Residual standard error: 24.32 on 28 degrees of freedom
## Multiple R-squared:  0.8863, Adjusted R-squared:  0.8742 
## F-statistic: 72.78 on 3 and 28 DF,  p-value: 2.462e-13