Hinweise zur Prüfung

Bearbeitungszeit: 20 Minuten
Lösen Sie die Aufgaben der Reihe nach.
Schreiben Sie zu jedem Ergebnis eine kurze Interpretation in eigenen Worten.
Der Datensatz pruefung_it_gehaelter.csv wurde zugeschickt.

Kontext

Sie analysieren Gehaltsdaten von IT-Fachkräften der Personalberatung SwissTech Recruiting AG. Der Datensatz enthält die Variablen erfahrung (Jahre), stack (Frontend / Backend / Data), firmengroesse (KMU / Gross), homeoffice (%), abschluss (BSc / MSc / Ohne) und gehalt_chf (Jahresgehalt in CHF).

Aufgabe 1 – Daten einlesen und Übersicht (~ 3 Min.)

Lesen Sie den Datensatz ein und verschaffen Sie sich mit summary() einen Überblick. Erstellen Sie einen Boxplot des Jahresgehalts nach Technologie-Stack.

Beantworten Sie: Welcher Stack hat den höchsten Median? Sehen Sie auffällige Punkte im Boxplot?

Aufgabe 2 – Korrelation (~ 4 Min.)

Berechnen Sie den Pearson-Korrelationskoeffizienten zwischen gehalt_chf und erfahrung. Visualisieren Sie den Zusammenhang mit einem Streudiagramm.

Das folgende Ergebnis liegt vor – interpretieren Sie es:

	Gehalt	Erfahrung
Gehalt	1.000	0.857
Erfahrung	0.857	1.000

Frage: Ihr Kollege sagt: „$r = 0.857$ – also erklärt Erfahrung 85.7% der Gehaltsunterschiede und verursacht das höhere Gehalt direkt.” Welche zwei Fehler macht er?

Aufgabe 3 – Konfidenzintervall (~ 4 Min.)

Berechnen Sie ein 95%-Konfidenzintervall für den mittleren Jahreslohn aller IT-Fachkräfte.

Das folgende Ergebnis liegt vor – interpretieren Sie es:

95%-KI: [133'196 ; 150'796] CHF

Frage A: Die Geschäftsführerin sagt: „95% aller IT-Fachkräfte verdienen zwischen CHF 133’000 und CHF 151’000.” Was ist falsch?

Frage B: Worauf beziehen sich die 95% tatsächlich – und warum darf man für dieses konkrete Intervall keine Wahrscheinlichkeitsaussage mehr machen?

Aufgabe 4 – Hypothesentest (~ 5 Min.)

Prüfen Sie, ob Frontend- und Backend-Entwicklerinnen und -Entwickler gleich viel verdienen. Verwenden Sie $\alpha = 0.05$ und führen Sie einen Zwei-Stichproben-t-Test durch.

Formulieren Sie $H_0$ und $H_1$, prüfen Sie die Voraussetzungen und treffen Sie eine Testentscheidung.

Das folgende Ergebnis liegt vor – interpretieren Sie es:

t = -1.08,  df = 30.6,  p-Wert = 0.289
95%-KI Differenz: [-27'200 ; 8'280] CHF

Frage A: Wie lautet die Testentscheidung? Begründen Sie.

Frage B: Was ist der Fehler 1. Art in diesem Test – konkret, was würde er bedeuten?

Frage C: Was ist der Fehler 2. Art – und warum ist er hier besonders relevant?

Aufgabe 5 – Lineare Regression (~ 4 Min.)

Schätzen Sie das Modell $\widehat{\text{Gehalt}} = \hat{\beta}_0 + \hat{\beta}_1 \cdot \text{Erfahrung}$ und erstellen Sie die vier Diagnostikplots mit plot(modell).

Die folgenden Ergebnisse liegen vor – interpretieren Sie sie:

β0 = 89'363 CHF     β1 = 5'775 CHF/Jahr     R² = 0.735

Frage A: Was bedeutet $\hat{\beta}_1 = 5'775$ konkret für eine Kandidatin, die 3 statt 2 Jahre Erfahrung hat?

Frage B: $R^2 = 0.735$ – was erklärt die restlichen 26.5%?

Frage C: Im Residuals vs. Fitted-Plot liegt der LOESS-Glätter annähernd horizontal. Was bedeutet das für die Modellgültigkeit?

--- title: "Mündliche Nachprüfung Neil Peter" subtitle: "Wahrscheinlichkeit und Statistik – Bearbeitungszeit: 20 Minuten" author: - name: "Markus Geuss " affiliation: "Fernfachhochschule Schweiz" title-block-banner: ./images/ffhs-farbwelt-verlauf_01.jpg lang: de language: de: author-meta-affiliation: "Hochschule" format: html: logo: ./images/FFHS_Logo.png include-in-header: text: | <style> .title { color: white !important; } .subtitle { color: white !important; } </style> theme: cosmo toc: true toc-title: "Inhaltsverzeichnis" toc-depth: 3 toc-location: right code-fold: true code-tools: true self-contained: false execute: warning: false message: false editor: markdown: wrap: sentence --- ```{r} #| label: setup #| include: false library(tidyverse) ``` ::: {.callout-important} ## Hinweise zur Prüfung - **Bearbeitungszeit:** 20 Minuten - Lösen Sie die Aufgaben **der Reihe nach**. - Schreiben Sie zu jedem Ergebnis eine kurze **Interpretation in eigenen Worten**. - Der Datensatz `pruefung_it_gehaelter.csv` wurde zugeschickt. ::: --- # Kontext Sie analysieren Gehaltsdaten von IT-Fachkräften der Personalberatung **SwissTech Recruiting AG**. Der Datensatz enthält die Variablen `erfahrung` (Jahre), `stack` (Frontend / Backend / Data), `firmengroesse` (KMU / Gross), `homeoffice` (%), `abschluss` (BSc / MSc / Ohne) und `gehalt_chf` (Jahresgehalt in CHF). --- # Aufgabe 1 – Daten einlesen und Übersicht (~ 3 Min.) Lesen Sie den Datensatz ein und verschaffen Sie sich mit `summary()` einen Überblick. Erstellen Sie einen **Boxplot** des Jahresgehalts nach Technologie-Stack. Beantworten Sie: Welcher Stack hat den höchsten Median? Sehen Sie auffällige Punkte im Boxplot? --- # Aufgabe 2 – Korrelation (~ 4 Min.) Berechnen Sie den Pearson-Korrelationskoeffizienten zwischen `gehalt_chf` und `erfahrung`. Visualisieren Sie den Zusammenhang mit einem Streudiagramm. ::: {.border-start .border-5 .border-success .ps-3 .ms-2} *Das folgende Ergebnis liegt vor – interpretieren Sie es:* | | Gehalt | Erfahrung | |---|---|---| | Gehalt | 1.000 | **0.857** | | Erfahrung | 0.857 | 1.000 | **Frage:** Ihr Kollege sagt: „$r = 0.857$ – also erklärt Erfahrung 85.7% der Gehaltsunterschiede und verursacht das höhere Gehalt direkt." Welche zwei Fehler macht er? ::: --- # Aufgabe 3 – Konfidenzintervall (~ 4 Min.) Berechnen Sie ein **95%-Konfidenzintervall** für den mittleren Jahreslohn aller IT-Fachkräfte. ::: {.border-start .border-5 .border-success .ps-3 .ms-2} *Das folgende Ergebnis liegt vor – interpretieren Sie es:* ``` 95%-KI: [133'196 ; 150'796] CHF ``` **Frage A:** Die Geschäftsführerin sagt: „95% aller IT-Fachkräfte verdienen zwischen CHF 133'000 und CHF 151'000." Was ist falsch? **Frage B:** Worauf beziehen sich die 95% tatsächlich – und warum darf man für dieses konkrete Intervall keine Wahrscheinlichkeitsaussage mehr machen? ::: --- # Aufgabe 4 – Hypothesentest (~ 5 Min.) Prüfen Sie, ob Frontend- und Backend-Entwicklerinnen und -Entwickler gleich viel verdienen. Verwenden Sie $\alpha = 0.05$ und führen Sie einen Zwei-Stichproben-t-Test durch. Formulieren Sie $H_0$ und $H_1$, prüfen Sie die Voraussetzungen und treffen Sie eine Testentscheidung. ::: {.border-start .border-5 .border-success .ps-3 .ms-2} *Das folgende Ergebnis liegt vor – interpretieren Sie es:* ``` t = -1.08, df = 30.6, p-Wert = 0.289 95%-KI Differenz: [-27'200 ; 8'280] CHF ``` **Frage A:** Wie lautet die Testentscheidung? Begründen Sie. **Frage B:** Was ist der **Fehler 1. Art** in diesem Test – konkret, was würde er bedeuten? **Frage C:** Was ist der **Fehler 2. Art** – und warum ist er hier besonders relevant? ::: --- # Aufgabe 5 – Lineare Regression (~ 4 Min.) Schätzen Sie das Modell $\widehat{\text{Gehalt}} = \hat{\beta}_0 + \hat{\beta}_1 \cdot \text{Erfahrung}$ und erstellen Sie die vier Diagnostikplots mit `plot(modell)`. ::: {.border-start .border-5 .border-success .ps-3 .ms-2} *Die folgenden Ergebnisse liegen vor – interpretieren Sie sie:* ``` β0 = 89'363 CHF β1 = 5'775 CHF/Jahr R² = 0.735 ``` **Frage A:** Was bedeutet $\hat{\beta}_1 = 5'775$ konkret für eine Kandidatin, die 3 statt 2 Jahre Erfahrung hat? **Frage B:** $R^2 = 0.735$ – was erklärt die restlichen 26.5%? **Frage C:** Im *Residuals vs. Fitted*-Plot liegt der LOESS-Glätter annähernd horizontal. Was bedeutet das für die Modellgültigkeit? :::