Mündliche Nachprüfung Neil Peter

Wahrscheinlichkeit und Statistik – Bearbeitungszeit: 20 Minuten

Autor:in
Zugehörigkeit

Markus Geuss

Fernfachhochschule Schweiz

WichtigHinweise zur Prüfung
  • Bearbeitungszeit: 20 Minuten
  • Lösen Sie die Aufgaben der Reihe nach.
  • Schreiben Sie zu jedem Ergebnis eine kurze Interpretation in eigenen Worten.
  • Der Datensatz pruefung_it_gehaelter.csv wurde zugeschickt.

Kontext

Sie analysieren Gehaltsdaten von IT-Fachkräften der Personalberatung SwissTech Recruiting AG. Der Datensatz enthält die Variablen erfahrung (Jahre), stack (Frontend / Backend / Data), firmengroesse (KMU / Gross), homeoffice (%), abschluss (BSc / MSc / Ohne) und gehalt_chf (Jahresgehalt in CHF).


Aufgabe 1 – Daten einlesen und Übersicht (~ 3 Min.)

Lesen Sie den Datensatz ein und verschaffen Sie sich mit summary() einen Überblick. Erstellen Sie einen Boxplot des Jahresgehalts nach Technologie-Stack.

Beantworten Sie: Welcher Stack hat den höchsten Median? Sehen Sie auffällige Punkte im Boxplot?


Aufgabe 2 – Korrelation (~ 4 Min.)

Berechnen Sie den Pearson-Korrelationskoeffizienten zwischen gehalt_chf und erfahrung. Visualisieren Sie den Zusammenhang mit einem Streudiagramm.

Das folgende Ergebnis liegt vor – interpretieren Sie es:

Gehalt Erfahrung
Gehalt 1.000 0.857
Erfahrung 0.857 1.000

Frage: Ihr Kollege sagt: „\(r = 0.857\) – also erklärt Erfahrung 85.7% der Gehaltsunterschiede und verursacht das höhere Gehalt direkt.” Welche zwei Fehler macht er?


Aufgabe 3 – Konfidenzintervall (~ 4 Min.)

Berechnen Sie ein 95%-Konfidenzintervall für den mittleren Jahreslohn aller IT-Fachkräfte.

Das folgende Ergebnis liegt vor – interpretieren Sie es:

95%-KI: [133'196 ; 150'796] CHF

Frage A: Die Geschäftsführerin sagt: „95% aller IT-Fachkräfte verdienen zwischen CHF 133’000 und CHF 151’000.” Was ist falsch?

Frage B: Worauf beziehen sich die 95% tatsächlich – und warum darf man für dieses konkrete Intervall keine Wahrscheinlichkeitsaussage mehr machen?


Aufgabe 4 – Hypothesentest (~ 5 Min.)

Prüfen Sie, ob Frontend- und Backend-Entwicklerinnen und -Entwickler gleich viel verdienen. Verwenden Sie \(\alpha = 0.05\) und führen Sie einen Zwei-Stichproben-t-Test durch.

Formulieren Sie \(H_0\) und \(H_1\), prüfen Sie die Voraussetzungen und treffen Sie eine Testentscheidung.

Das folgende Ergebnis liegt vor – interpretieren Sie es:

t = -1.08,  df = 30.6,  p-Wert = 0.289
95%-KI Differenz: [-27'200 ; 8'280] CHF

Frage A: Wie lautet die Testentscheidung? Begründen Sie.

Frage B: Was ist der Fehler 1. Art in diesem Test – konkret, was würde er bedeuten?

Frage C: Was ist der Fehler 2. Art – und warum ist er hier besonders relevant?


Aufgabe 5 – Lineare Regression (~ 4 Min.)

Schätzen Sie das Modell \(\widehat{\text{Gehalt}} = \hat{\beta}_0 + \hat{\beta}_1 \cdot \text{Erfahrung}\) und erstellen Sie die vier Diagnostikplots mit plot(modell).

Die folgenden Ergebnisse liegen vor – interpretieren Sie sie:

β0 = 89'363 CHF     β1 = 5'775 CHF/Jahr     R² = 0.735

Frage A: Was bedeutet \(\hat{\beta}_1 = 5'775\) konkret für eine Kandidatin, die 3 statt 2 Jahre Erfahrung hat?

Frage B: \(R^2 = 0.735\) – was erklärt die restlichen 26.5%?

Frage C: Im Residuals vs. Fitted-Plot liegt der LOESS-Glätter annähernd horizontal. Was bedeutet das für die Modellgültigkeit?