- Bearbeitungszeit: 20 Minuten
- Lösen Sie die Aufgaben der Reihe nach.
- Schreiben Sie zu jedem Ergebnis eine kurze Interpretation in eigenen Worten.
- Der Datensatz
pruefung_it_gehaelter.csvwurde zugeschickt.
Kontext
Sie analysieren Gehaltsdaten von IT-Fachkräften der Personalberatung SwissTech Recruiting AG. Der Datensatz enthält die Variablen erfahrung (Jahre), stack (Frontend / Backend / Data), firmengroesse (KMU / Gross), homeoffice (%), abschluss (BSc / MSc / Ohne) und gehalt_chf (Jahresgehalt in CHF).
Aufgabe 1 – Daten einlesen und Übersicht (~ 3 Min.)
Lesen Sie den Datensatz ein und verschaffen Sie sich mit summary() einen Überblick. Erstellen Sie einen Boxplot des Jahresgehalts nach Technologie-Stack.
Beantworten Sie: Welcher Stack hat den höchsten Median? Sehen Sie auffällige Punkte im Boxplot?
Aufgabe 2 – Korrelation (~ 4 Min.)
Berechnen Sie den Pearson-Korrelationskoeffizienten zwischen gehalt_chf und erfahrung. Visualisieren Sie den Zusammenhang mit einem Streudiagramm.
Das folgende Ergebnis liegt vor – interpretieren Sie es:
| Gehalt | Erfahrung | |
|---|---|---|
| Gehalt | 1.000 | 0.857 |
| Erfahrung | 0.857 | 1.000 |
Frage: Ihr Kollege sagt: „\(r = 0.857\) – also erklärt Erfahrung 85.7% der Gehaltsunterschiede und verursacht das höhere Gehalt direkt.” Welche zwei Fehler macht er?
Aufgabe 3 – Konfidenzintervall (~ 4 Min.)
Berechnen Sie ein 95%-Konfidenzintervall für den mittleren Jahreslohn aller IT-Fachkräfte.
Das folgende Ergebnis liegt vor – interpretieren Sie es:
95%-KI: [133'196 ; 150'796] CHF
Frage A: Die Geschäftsführerin sagt: „95% aller IT-Fachkräfte verdienen zwischen CHF 133’000 und CHF 151’000.” Was ist falsch?
Frage B: Worauf beziehen sich die 95% tatsächlich – und warum darf man für dieses konkrete Intervall keine Wahrscheinlichkeitsaussage mehr machen?
Aufgabe 4 – Hypothesentest (~ 5 Min.)
Prüfen Sie, ob Frontend- und Backend-Entwicklerinnen und -Entwickler gleich viel verdienen. Verwenden Sie \(\alpha = 0.05\) und führen Sie einen Zwei-Stichproben-t-Test durch.
Formulieren Sie \(H_0\) und \(H_1\), prüfen Sie die Voraussetzungen und treffen Sie eine Testentscheidung.
Das folgende Ergebnis liegt vor – interpretieren Sie es:
t = -1.08, df = 30.6, p-Wert = 0.289
95%-KI Differenz: [-27'200 ; 8'280] CHF
Frage A: Wie lautet die Testentscheidung? Begründen Sie.
Frage B: Was ist der Fehler 1. Art in diesem Test – konkret, was würde er bedeuten?
Frage C: Was ist der Fehler 2. Art – und warum ist er hier besonders relevant?
Aufgabe 5 – Lineare Regression (~ 4 Min.)
Schätzen Sie das Modell \(\widehat{\text{Gehalt}} = \hat{\beta}_0 + \hat{\beta}_1 \cdot \text{Erfahrung}\) und erstellen Sie die vier Diagnostikplots mit plot(modell).
Die folgenden Ergebnisse liegen vor – interpretieren Sie sie:
β0 = 89'363 CHF β1 = 5'775 CHF/Jahr R² = 0.735
Frage A: Was bedeutet \(\hat{\beta}_1 = 5'775\) konkret für eine Kandidatin, die 3 statt 2 Jahre Erfahrung hat?
Frage B: \(R^2 = 0.735\) – was erklärt die restlichen 26.5%?
Frage C: Im Residuals vs. Fitted-Plot liegt der LOESS-Glätter annähernd horizontal. Was bedeutet das für die Modellgültigkeit?