8  Univariate Daten

Definition: Rohdaten und Rangwertreihe

Das Merkmal X wird an n Merkmalsträgern gemessen und liegt in der Reihenfolge der Beobachtungen vor. Dies nennt man die Rohdaten (oder auch Urliste oder Primärdaten): (x_1, x_2, x_3, \cdots, x_n). Sortiert man die Rohdaten (auf- oder absteigend), so spricht man von einer Rangwertreihe (oder sortierte Rohdaten bzw. sortierte Urliste ) und schreibt (x_{[1]}, x_{[2]}, x_{[3]}, \cdots, x_{[n]}), wobei x_{[i]}, den Wert symbolisiert, der in der Rangwertreihe an i-ter Stelle steht.

Beispiel

# Eingabe der Rohdaten:
(urliste <- c(19, 9, 9, 11, 7, 12))
[1] 19  9  9 11  7 12
# Erstellen der Rangwertreihe:
(rangwertreihe <- sort(urliste))
[1]  7  9  9 11 12 19
# Bestimmen der Ränge mit R: (ties.method = "first")
(raenge <- rank(urliste, ties.method = "first"))
[1] 6 2 3 4 1 5
# Bestimmen der Ränge mit R: (ties.method = "average")
(raenge <- rank(urliste, ties.method = "average")) # Standard
[1] 6.0 2.5 2.5 4.0 1.0 5.0

Die Bildung der Ränge bedürfen einer Erklärung: Der durch die Funktion rank() angegebene Wert gibt an, an welcher Stelle der Eintrag eines Vektors stünde, wenn die Urliste sortiert wäre. Dabei gibt es mehrere Möglichkeiten, wie mit gleichen Werten umgegangen wird.

  • ties.method = "first" bedeutet, dass bei gleichen Werten der weiter vorne stehende den kleineren Wert bekommt. Im oberen Beispiel bekommt also die erste 9 der Urliste den Wert 2, da nur die 7 kleiner ist (diese bekommt den Wert 1). Die zweite 9 bekommt den Wert 3.

  • ties.method = "avarage" hingegen mittelt bei gleichen Werte. Möchte man diese rechnen nimmt man die Ränge aus der Methode ties.method = "first" und mittelt diese Ränge der gleichen Werte. Alle Werte bekommen dann diesen Rang. Im obigen Beispiel sind das bei der 9 die Ränge 2 und 3, so dass jede 9 den Rang \frac{1}{2}(2+3) = 2,5 bekommt.

Beide Methoden sind wichtig!

  • Die erstere wird zum Beispiel beim Erstellen der sortierten Urliste benutzt: Nimmt man das obige Beispiel, so ist x_1 = 19, x_2 = 9, x_3 =9, x_4=11, x_5=7 und x_6=12. Für die sortierte Urliste gilt: x_{[1]} = 7, x_{[2]} = 9, x_{[3]} =9 und so weiter. In den eckigen Klammern steht jeweils der Rang der Zahl (der Rang der 7 ist 1, der Rang der ersten 9ist 2, und so weiter).

  • Die zweite Methode wird Anwendung bei den Korrelationskoeffizienten finden.

Selbsttest: Ränge

Gegeben sind die folgenden Rohdaten

Rohdaten 80 80 80 80 100 80 170 130
first
avarage
  1. Bestimmen Sie ohne R die Ränge der Rohdaten auf beide Methoden.
  2. Bestimmen Sie nun mit R die Ränge der Rohdaten auf beide Methoden. Schreiben Sie die Rohdaten einmal in einen Vektor und bestimmen Sie danach die Ränge.
Rohdaten 80 80 80 80 100 80 170 130
first 1 2 3 4 6 5 8 7
avarage 3 3 3 3 6 3 8 7

Gegeben sind die folgenden Rohdaten

Rohdaten 0.15 0.15 0.15 0.12 0.08 0.08 0.09 0.09
first
avarage
  1. Bestimmen Sie ohne R die Ränge der Rohdaten auf beide Methoden.
  2. Bestimmen Sie nun mit R die Ränge der Rohdaten auf beide Methoden. Schreiben Sie die Rohdaten einmal in einen Vektor und bestimmen Sie danach die Ränge.
Rohdaten 0.15 0.15 0.15 0.12 0.08 0.08 0.09 0.09
first 6 7 8 5 1 2 3 4
avarage 7 7 7 5 1.5 1.5 3.5 3.5

Gegeben sind die folgenden Rohdaten

Rohdaten 170 140 130 170 160 170 140 160
first
avarage
  1. Bestimmen Sie ohne R die Ränge der Rohdaten auf beide Methoden.
  2. Bestimmen Sie nun mit R die Ränge der Rohdaten auf beide Methoden. Schreiben Sie die Rohdaten einmal in einen Vektor und bestimmen Sie danach die Ränge.
Rohdaten 170 140 130 170 160 170 140 160
first 6 2 1 7 4 8 3 5
avarage 7 2.5 1 7 4.5 7 2.5 4.5

Gegeben sind die folgenden Rohdaten

Rohdaten 0.9 1.5 0.9 1.7 1.7 1 1.7 0.9
first
avarage
  1. Bestimmen Sie ohne R die Ränge der Rohdaten auf beide Methoden.
  2. Bestimmen Sie nun mit R die Ränge der Rohdaten auf beide Methoden. Schreiben Sie die Rohdaten einmal in einen Vektor und bestimmen Sie danach die Ränge.
Rohdaten 0.9 1.5 0.9 1.7 1.7 1 1.7 0.9
first 1 5 2 6 7 4 8 3
avarage 2 5 2 7 7 4 7 2

Gegeben sind die folgenden Rohdaten

Rohdaten 900 1600 1400 1100 1100 900 1600 1600
first
avarage
  1. Bestimmen Sie ohne R die Ränge der Rohdaten auf beide Methoden.
  2. Bestimmen Sie nun mit R die Ränge der Rohdaten auf beide Methoden. Schreiben Sie die Rohdaten einmal in einen Vektor und bestimmen Sie danach die Ränge.
Rohdaten 900 1600 1400 1100 1100 900 1600 1600
first 1 6 5 3 4 2 7 8
avarage 1.5 7 5 3.5 3.5 1.5 7 7

Gegeben sind die folgenden Rohdaten

Rohdaten 16 8 15 15 9 15 15 9
first
avarage
  1. Bestimmen Sie ohne R die Ränge der Rohdaten auf beide Methoden.
  2. Bestimmen Sie nun mit R die Ränge der Rohdaten auf beide Methoden. Schreiben Sie die Rohdaten einmal in einen Vektor und bestimmen Sie danach die Ränge.
Rohdaten 16 8 15 15 9 15 15 9
first 8 1 4 5 2 6 7 3
avarage 8 1 5.5 5.5 2.5 5.5 5.5 2.5

Gegeben sind die folgenden Rohdaten

Rohdaten 0.12 0.08 0.12 0.14 0.17 0.12 0.14 0.12
first
avarage
  1. Bestimmen Sie ohne R die Ränge der Rohdaten auf beide Methoden.
  2. Bestimmen Sie nun mit R die Ränge der Rohdaten auf beide Methoden. Schreiben Sie die Rohdaten einmal in einen Vektor und bestimmen Sie danach die Ränge.
Rohdaten 0.12 0.08 0.12 0.14 0.17 0.12 0.14 0.12
first 2 1 3 6 8 4 7 5
avarage 3.5 1 3.5 6.5 8 3.5 6.5 3.5

Gegeben sind die folgenden Rohdaten

Rohdaten 0.17 0.17 0.08 0.17 0.17 0.13 0.16 0.13
first
avarage
  1. Bestimmen Sie ohne R die Ränge der Rohdaten auf beide Methoden.
  2. Bestimmen Sie nun mit R die Ränge der Rohdaten auf beide Methoden. Schreiben Sie die Rohdaten einmal in einen Vektor und bestimmen Sie danach die Ränge.
Rohdaten 0.17 0.17 0.08 0.17 0.17 0.13 0.16 0.13
first 5 6 1 7 8 2 4 3
avarage 6.5 6.5 1 6.5 6.5 2.5 4 2.5

Gegeben sind die folgenden Rohdaten

Rohdaten 110 110 80 110 110 110 130 110
first
avarage
  1. Bestimmen Sie ohne R die Ränge der Rohdaten auf beide Methoden.
  2. Bestimmen Sie nun mit R die Ränge der Rohdaten auf beide Methoden. Schreiben Sie die Rohdaten einmal in einen Vektor und bestimmen Sie danach die Ränge.
Rohdaten 110 110 80 110 110 110 130 110
first 2 3 1 4 5 6 8 7
avarage 4.5 4.5 1 4.5 4.5 4.5 8 4.5

Gegeben sind die folgenden Rohdaten

Rohdaten 1600 1400 1000 1000 1400 1200 1400 1600
first
avarage
  1. Bestimmen Sie ohne R die Ränge der Rohdaten auf beide Methoden.
  2. Bestimmen Sie nun mit R die Ränge der Rohdaten auf beide Methoden. Schreiben Sie die Rohdaten einmal in einen Vektor und bestimmen Sie danach die Ränge.
Rohdaten 1600 1400 1000 1000 1400 1200 1400 1600
first 7 4 1 2 5 3 6 8
avarage 7.5 5 1.5 1.5 5 3 5 7.5

Gegeben sind die folgenden Rohdaten

Rohdaten 1.4 1.4 1.4 1.1 1.4 1.4 1.7 1.2
first
avarage
  1. Bestimmen Sie ohne R die Ränge der Rohdaten auf beide Methoden.
  2. Bestimmen Sie nun mit R die Ränge der Rohdaten auf beide Methoden. Schreiben Sie die Rohdaten einmal in einen Vektor und bestimmen Sie danach die Ränge.
Rohdaten 1.4 1.4 1.4 1.1 1.4 1.4 1.7 1.2
first 3 4 5 1 6 7 8 2
avarage 5 5 5 1 5 5 8 2

Gegeben sind die folgenden Rohdaten

Rohdaten 140 100 150 150 150 100 80 80
first
avarage
  1. Bestimmen Sie ohne R die Ränge der Rohdaten auf beide Methoden.
  2. Bestimmen Sie nun mit R die Ränge der Rohdaten auf beide Methoden. Schreiben Sie die Rohdaten einmal in einen Vektor und bestimmen Sie danach die Ränge.
Rohdaten 140 100 150 150 150 100 80 80
first 5 3 6 7 8 4 1 2
avarage 5 3.5 7 7 7 3.5 1.5 1.5

8.1 Diskretes Merkmal

8.1.1 Häufigkeiten

Definition: Absolute und relative Häufigkeit

Bei einer Stichprobe des Umfangs n wird ausgezählt wie häufig jede Ausprägung a_j mit j = 1, 2, \cdots, k vorkommt. Diese Anzahl bezeichnet man als absolute Häufigkeit der Ausprägung a_j und schreibt h(a_j) = h_j. Die absolute Häufigkeit bezogen auf den Stichprobenumfang heißt relative Häufigkeit und man schreibt f(a_j) = f_j = \frac{h_j}{n}.

Beispiel

X                     # Rohdaten / Urliste 
 [1] "G" "E" "E" "G" "A" "B" "D" "D" "F" "A" "E" "D" "E" "F" "C" "D" "D" "B" "F"
[20] "D" "G" "G" "D" "B" "C"
table(X)              # absolute Häufigkeiten
X
A B C D E F G 
2 3 2 7 4 3 4 

Die Funktion table() zählt wie oft jede Ausprägung eines Vektors vorkommt.

table(X) / length(X)  # relative Häufigkeiten
X
   A    B    C    D    E    F    G 
0.08 0.12 0.08 0.28 0.16 0.12 0.16 

In diesem Beispiel ist n = 25 und es gibt k = 7 verschiedene Ausprägungen.

Offenbar gilt:

\begin{align*} \sum_{j = 1}^k h(a_j) = n \qquad \text{und} \qquad \sum_{j = 1}^k f(a_j) = 1 \end{align*}

Für absolute und relative Häufigkeiten muss das Merkmal lediglich diskret sein, das Skalenniveau spielt im Moment noch keine Rolle, da man nominal-, ordinal- und kardinalskalierte Merkmale auszählen kann.

Definition: Kumulierte absolute und kumulierte relative Häufigkeit

Sei X ein diskretes, mindestens ordinales Merkmal mit den sortierten Ausprägungen a_j mit j = 1, 2, \cdots, k, so dass a_1 < a_2 < \cdots < a_k ist. Seien ferner h(a_j) und f(a_j) die absoluten bzw. relativen Häufigkeiten, dann nennt man die Größen

\begin{align*} H_j = \sum_{i = 1}^{j} h(a_i) \qquad \text{und} \qquad F_j = \sum_{i = 1}^{j} f(a_i) \end{align*}

die kumulierte absolute Häufigkeit und die kumulierten relative Häufigkeit des Merkmals X.

Beispiel

Y                             # Rohdaten
 [1] 0 5 1 5 4 2 0 0 0 4 0 0 1 2 3 4 0 2 4 3
table(Y)                      # absolute Häufigkeiten
Y
0 1 2 3 4 5 
7 2 3 2 4 2 
cumsum(table(Y))              # kumulierte absolute Häufigkeit
 0  1  2  3  4  5 
 7  9 12 14 18 20 
table(Y) / length(Y)          # relative Häufigkeit
Y
   0    1    2    3    4    5 
0.35 0.10 0.15 0.10 0.20 0.10 
cumsum(table(Y) / length(Y))  # kumulierte relative Häufigkeit
   0    1    2    3    4    5 
0.35 0.45 0.60 0.70 0.90 1.00 

Wie man an den beiden obigen Beispielen sieht, ist es für die Häufigkeiten nur wichtig, dass die Merkmale diskret sind. Die Merkmale müssen nicht notwendigerweise kategorial sein, sondern können auch kardinal sein, wie das letzte Beispiel zeigt.

8.1.2 Diskretes Merkmal: Darstellung

Ein (einzelnes) diskretes Merkmal stellt man in der Regel als

  • Balkendiagramm (oben) oder
  • Säulendiagramm (unten) dar.

Das obere Diagramm zeigt die absoluten Häufigkeiten, das untere Diagramm die relativen Häufigkeiten.

X.tib <- tibble(BS = X)
 # X 
 # tibble() erzeugt eine Datentabelle

X.tib |> ggplot(aes(y = BS)) +
         geom_bar() +
         labs(x = "Anzahl", title = "Balkendiagramm") 
Abbildung 8.1: Balkendiagramm
X.tib |> 
   ggplot(aes(x = BS)) +
   geom_bar(aes(y = after_stat(prop), group = 1)) +
   labs(y = "Anteil", title = "Säulendiagramm")
Abbildung 8.2: Säulendiagrammdiagramm
Aufgabe: Häufigkeiten

Ein Einzelhändler registriert an 20 aufeinander folgenden Tagen die folgende Anzahl an Verkäufen einer Ware.

Tag 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
Anzahl 5 2 3 0 0 1 3 6 0 2 1 0 1 0 2 3 5 1 0 0
  1. Bestimmen Sie ohne Hilfe von R die absoluten und relativen Häufigkeiten, sowie die kumulierten absoluten und kumulierten relativen Häufigkeiten.
  2. Bestätigen Sie nun Ihr Ergebnis mit R.
  3. Erstellen Sie ein Balkendiagramm der Daten.
x <- c(5,2,3,0,0,1,3,6,0,2,1,0,1,0,2,3,5,1,0,0)
table(x)
x
0 1 2 3 5 6 
7 4 3 3 2 1 
 0  1  2  3  5  6 
 7 11 14 17 19 20 
table(x) / length(x)
x
   0    1    2    3    5    6 
0.35 0.20 0.15 0.15 0.10 0.05 
   0    1    2    3    5    6 
0.35 0.55 0.70 0.85 0.95 1.00 
library(pacman)
p_load(tidyverse)

x |> tibble() |> 
     ggplot(aes(y = x)) + 
       geom_bar()

8.2 Empirische Verteilungsfunktion

Für kardinale Merkmale beantwortet die empirische Verteilungsfunktion die Fragestellung:

,,Welcher Anteil der Daten ist kleiner oder gleich einem interessierenden Wert x?’’

Definition: Empirische Verteilungsfunktion

Sei X ein kardinales Merkmal mit den sortierten, diskreten Ausprägungen a_i für i \in \{1, \cdots, k\}, d.h. es gilt a_1 < a_2 < \cdots < a_k, dann nennt man die Funktion F: \mathbb{R} \to [0, 1] mit

\begin{align*} F(x) = \begin{cases} 0 & \text{ für } x < a_1 \\ \sum\limits_{\{i \,|\, a_i \le x\}} f(a_i) \quad & \text{sonst,} \end{cases} \end{align*}

die empirische Verteilungsfunktion des Merkmals X.

Eigenschaften

  • Die Funktion F ist damit eine monoton steigende Treppenfunktion, die Werte im Intervall [0, 1] annimmt.
  • An den Stellen der Ausprägungen a_1, \cdots, a_k springt die Funktion um den entsprechnden Wert der relativen Häufigkeit f_1 = f(a_1), \cdots, f_k = f(a_k) nach oben.
  • Die Funktion F ist identisch 0 für alle x < a_1, und
  • identisch 1 für alle x \ge a_k.

Beispiel

Ein Arzt hat im September die folgende Anzahl an Hausbesuchen pro Tag abgestattet.

Tag 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
Hausbesuche 0 0 2 3 2 4 0 0 0 1 1 6 0 2 0
Tag 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30
Hausbesuche 0 1 1 2 1 4 1 1 0 1 1 0 2 1 3

Daraus ergeben sich die folgenden Häufigkeiten:

Ausprägung (sortiert) a_j 0 1 2 3 4 6 \sum
absolut h(a_j) 10 10 5 2 2 1 30
kumuliert absolut H(a_j) 10 20 25 27 29 30
relativ f(a_j) \frac{10}{30} \frac{10}{30} \frac{5}{30} \frac{2}{30} \frac{2}{30} \frac{1}{30} 1
kumuliert relativ F(a_j) \frac{10}{30} \frac{20}{30} \frac{25}{30} \frac{27}{30} \frac{29}{30} 1

Mit Hilfe der kumuliert relativen Häufigkeiten kann man nun die empirische Verteilungsfunktion aufstellen. Es ergibt sich

\begin{align*} F(x) = \begin{cases} 0 \, & : \, \text{für } x < 0 \\ \frac{10}{30} & : \, \text{für } 0 \le x < 1 \\ \frac{20}{30} & : \, \text{für } 1 \le x < 2 \\ \frac{25}{30} & : \, \text{für } 2 \le x < 3 \\ \frac{27}{30} & : \, \text{für } 3 \le x < 4 \\ \frac{29}{30} & : \, \text{für } 4 \le x < 6 \\ 1 & : \, \text{für } x \ge 6 \\ \end{cases} \end{align*}

Man sieht, dass sich die Verteilungsfunktion immer an den Stellen der Ausprägungen ändert (springt). Im obigen Beispiel sind das die Stellen x = 0, x = 1, x = 2, x = 3, x=4 und x=6.

x     <- c(0,0,2,3,2,4,0,0,0,1,1,6,0,2,0,0,1,1,2,1,4,1,1,0,1,1,0,2,1,3)
x.tib <- tibble(x)
x.tib |> ggplot(aes(x = x, y = after_stat(prop))) +
            geom_bar() +
            labs(y = expression(f(a[j])), 
                 x = expression(a[j])) +
            scale_x_continuous(breaks = 0:6, 
                               labels = as.character(0:6))
Abbildung 8.3: Säulendiagrammdiagramm der Daten
x.tib |> ggplot(aes(x = x)) +
           stat_ecdf(linewidth = 1,
                     color = "steelblue3") +
           labs(y = "F(x)") +
           scale_x_continuous(breaks = 0:6)
Abbildung 8.4: Die empirische Verteilungsfunktion mit ggplot2

Bemerkungen

  • Die empirische Verteilungsfunktion aus dem Paket ggplot2 ist eher für quasi kontinuierliche Daten gemacht, da die Werte mit einer Linie verbunden werden.
diamonds |> filter(between(y, 2, 13)) |> 
            ggplot(aes(x = carat)) +
            stat_ecdf(linewidth = 1,
                     color = "steelblue3") +
            labs(y = "F(x)", x = "Karat")
Abbildung 8.5: Die empirische Verteilungsfunktion bei vielen Daten
  • Wenn man wenige Daten hat, so läßt man (anders als in Abbildung 8.4) die vertikalen Linien weg, so dass die obige Grafik so aussieht
Abbildung 8.6: Empirische Verteilungsfunktion bei wenigen Daten.
Aufgabe: Empirische Verteilungsfunktion

Zeichnen Sie für die Verkäufe des Einzelhändler aus Kapitel 8.1 die empirische Verteilungsfunktion: zuerst ohne R und danach zur Kontrolle mit R.

x |> tibble() |> 
     ggplot(aes(x = x)) + 
     stat_ecdf()

8.3 Empirische Quantile

Die empirischen Quantile sind im Wesentlichen eine Umkehrung der empirischen Verteilungsfunktion.

Definition: Empirisches Quantil

Jeder Wert \tilde{x}_p mit p \in (0, 1) für den mindestens ein Anteil p der Daten kleiner oder gleich \tilde{x}_p und mindestens ein Anteil 1-p größer oder gleich \tilde{x}_p ist, heißt empirisches p-Quantil.

Damit gilt für das p-Quantil: \begin{align*} \tilde{x}_p = x_{[\lceil n\cdot p \rceil ]} & : \text{falls $n\cdot p \notin \mathbb{N}$} \\ \tilde{x}_p \in \left[x_{[n \cdot p]}, x_{[n \cdot p + 1]} \right) & : \text{falls $n\cdot p \in \mathbb{N}$ } \end{align*}

Dabei bezeichnet \lceil n \cdot p \rceil das Aufrunden von n\cdot p auf die nächste ganze Zahl.

Erklärung zur Berechnung

Zuerst multiplizieren n \cdot p, wobei n die Anzahl der Beobachtungen ist. Wir erhalten einen Wert aus dem Intervall (0, n). Nun gibt es zwei Möglichkeiten:

  • n \cdot p \notin \mathbb{N}:
    • n \cdot p ist keine natürliche Zahl, so runden wir die erhaltene Zahl auf die nächste natürliche Zahl auf. Die Schreibweise für diese Operation ist \lceil n \cdot p \rceil.
    • das gesuchte Quantil ist dann der \lceil n \cdot p \rceil-te Wert aus Rangwertreihe (der sortierten Rohdatenliste). Die Schreibweise hierfür ist x_{[\lceil n \cdot p \rceil]}.
Achtung

Der aufgerundete Wert \lceil n \cdot p \rceil ist nicht das Quantil, sondern die Position des gesuchten Wertes in der Rangwertreihe!

  • n \cdot p \in \mathbb{N}:
    • Ist n \cdot p eine natürliche Zahl, so ist das gesuchte Quantil nicht eindeutig. Jede Zahl im Intervall [x_{[n \cdot p]}, x_{[n \cdot p + 1]}) ist ein zulässiger Wert, wobei x_{[n \cdot p]} der (n \cdot p)-te Wert der Rangwertliste ist und x_{[n \cdot p + 1]} der (n \cdot p + 1)-te Wert der Rangwertliste ist.

    • Welcher Wert nun aus dem Intervall genommen wird hängt von der verwendeten Methode ab. Welche Methode verwendet wird hängt wiederum von der Anwendung, zum Beispiel der Community in der man publiziert, ab.

Eine einfach zu berechnende (und in dieser Vorlesung vorwiegend verwendete) Methode ist die folgende Wahl:

\begin{align*} \tilde{x}_p = \begin{cases} x_{[\lceil n \cdot p\rceil]} & : \text{falls $n\cdot p \notin \mathbb{N}_0$} \\ \frac{1}{2}\left(x_{[n \cdot p]} + x_{[n \cdot p + 1]}\right) & : \text{falls $n\cdot p \in \mathbb{N}_0$} \end{cases}. \end{align*}

Diese Wahl entspricht der Mitte des Intervalls. Sie wird in R durch die Verwendung des Arguments type=2 in der Funktion quantile() realisiert. Geben wir das Argument type= nicht an, so wird der type=7 verwendet. Dies entspricht einer linearen Interpolation zwischen den möglichen Werten. Dieser Typ, sowie type=6, was einer symmetrischen Gewichtung entspricht, wird häufig in wirtschaftspsychologischen Veröffentlichungen verwendet. Sozialwissenschaftler nutzen neben type=6 auch type=4, da durch diese eine geringere Verzerrung bei Ausreißern gewährleistet werden kann und Data Science, Informatik und Machine Learning nutzen im wesentlichen type=7 oder manchmal auch type=5. In der Hilfe ?quantile werden die Berechnungsmethoden der einzelnen Typen erklärt.

Beispiel

x <- c(1, 1, 1, 2, 2, 2, 3, 4, 5, 6, 8, 12)
p <- c(0.01, 0.05, 0.25, 0.3, 0.5, 0.75, 0.92, 0.95, 0.99)

quantile(x, probs = p)            # entspricht type = 7
   1%    5%   25%   30%   50%   75%   92%   95%   99% 
 1.00  1.00  1.75  2.00  2.50  5.25  8.48  9.80 11.56 
quantile(x, probs = p, type = 2)
  1%   5%  25%  30%  50%  75%  92%  95%  99% 
 1.0  1.0  1.5  2.0  2.5  5.5 12.0 12.0 12.0 
Abbildung 8.7: Eingezeichnet sind Quantile zu p = 0,3 und p = 0,75. Man kann erkennen, dass ersteres \tilde{x}_{0,30} = 0,2 eindeutig ist während das zweite Quantil \tilde{x}_{0,75} \in [5, 6] aus einem Intervall gewählt werden kann. Je nach Methode wird ein anderer Wert aus dem Intervall genommen. Bei der R-Funktion quantile() geschieht die Auswahl der Methode mit Hilfe des Arguments type=, wobei insgesamt neun verschiedene Methoden zur Auswahl stehen.

Erklärung

  • Im obigen Beispiel ist n = 12. Damit ergibt sich zum Beispiel für p = 0,3, dass 0,3 \cdot 12 = 3,6 \notin \mathbb{N} ist. Damit ist das Quantil eindeutig, und man nimmt (wegen \lceil 3,6\rceil = 4) den vierten Wert der sortierten Rohdaten. Es ergibt sich \tilde{x}_{0,3} = 2.
  • Im Fall p = 0,75 ist allerding 0,75 \cdot 12 = 9 \in \mathbb{N}, das heißt das Quantil ist nicht eindeutig und \tilde{x}_{0,75} \in [5, 6]. In der obigen Wahl (type = 2) wird der neunte und der zehnte Wert der sortierten Rohdaten gemittelt und es ergibt sich \tilde{x}_{0,75} = 5,5.

Selbsttest: Empirische Quantile

Gegeben sind zu einem metrischen Merkmal X die Rohdaten

(100, \: 80, \: 170, \: 0, \: 510, \: 10, \: 870, \: 280, \: 780, \: 830, \: 20, \: 570).

Bestimmen Sie die folgenden fünf empirischen Quantile zu den Rohdaten. Wenn die Quantile nicht eindeutig sind, nehmen Sie die Mitte des Intervalls.

  • \tilde{x}_{ 0.02 }=
  • \tilde{x}_{ 0.15 }=
  • \tilde{x}_{ 0.37 }=
  • \tilde{x}_{ 0.44 }=
  • \tilde{x}_{ 0.92 }=
 2% 15% 37% 44% 92% 
  0  10 100 170 870 

Gegeben sind zu einem metrischen Merkmal X die Rohdaten

(1600, \: 1300, \: 2300, \: 5100, \: 7600, \: 3500, \: 8100, \: 1700, \: 8700, \: 2100, \: 3000).

Bestimmen Sie die folgenden fünf empirischen Quantile zu den Rohdaten. Wenn die Quantile nicht eindeutig sind, nehmen Sie die Mitte des Intervalls.

  • \tilde{x}_{ 0.08 }=
  • \tilde{x}_{ 0.38 }=
  • \tilde{x}_{ 0.54 }=
  • \tilde{x}_{ 0.66 }=
  • \tilde{x}_{ 0.80 }=
  8%  38%  54%  66%  80% 
1300 2300 3000 5100 7600 

Gegeben sind zu einem metrischen Merkmal X die Rohdaten

(50, \: 29, \: 46, \: 13, \: 7, \: 85, \: 38, \: 47, \: 34).

Bestimmen Sie die folgenden fünf empirischen Quantile zu den Rohdaten. Wenn die Quantile nicht eindeutig sind, nehmen Sie die Mitte des Intervalls.

  • \tilde{x}_{ 0.36 }=
  • \tilde{x}_{ 0.42 }=
  • \tilde{x}_{ 0.72 }=
  • \tilde{x}_{ 0.91 }=
  • \tilde{x}_{ 0.96 }=
36% 42% 72% 91% 96% 
 34  34  47  85  85 

Gegeben sind zu einem metrischen Merkmal X die Rohdaten

(1900, \: 2000, \: 2300, \: 2100, \: 2200, \: 3000, \: 4100, \: 3800, \: 4700, \: 9700, \: 1800, \: 5100, \: 8800).

Bestimmen Sie die folgenden fünf empirischen Quantile zu den Rohdaten. Wenn die Quantile nicht eindeutig sind, nehmen Sie die Mitte des Intervalls.

  • \tilde{x}_{ 0.24 }=
  • \tilde{x}_{ 0.35 }=
  • \tilde{x}_{ 0.43 }=
  • \tilde{x}_{ 0.75 }=
  • \tilde{x}_{ 0.82 }=
 24%  35%  43%  75%  82% 
2100 2200 2300 4700 5100 

Gegeben sind zu einem metrischen Merkmal X die Rohdaten

(0.44, \: 0.26, \: 0.31, \: 0.37, \: 0.19, \: 0.19, \: 0.31, \: 0.74, \: 0.73, \: 0.3, \: 0.77, \: 0.25).

Bestimmen Sie die folgenden fünf empirischen Quantile zu den Rohdaten. Wenn die Quantile nicht eindeutig sind, nehmen Sie die Mitte des Intervalls.

  • \tilde{x}_{ 0.03 }=
  • \tilde{x}_{ 0.49 }=
  • \tilde{x}_{ 0.56 }=
  • \tilde{x}_{ 0.63 }=
  • \tilde{x}_{ 0.94 }=
  3%  49%  56%  63%  94% 
0.19 0.31 0.31 0.37 0.77 

Gegeben sind zu einem metrischen Merkmal X die Rohdaten

(0.14, \: 0.16, \: 0.15, \: 0.13, \: 0.72, \: 0.16, \: 0.94, \: 0.13, \: 0.66, \: 0.8, \: 0.75).

Bestimmen Sie die folgenden fünf empirischen Quantile zu den Rohdaten. Wenn die Quantile nicht eindeutig sind, nehmen Sie die Mitte des Intervalls.

  • \tilde{x}_{ 0.23 }=
  • \tilde{x}_{ 0.29 }=
  • \tilde{x}_{ 0.39 }=
  • \tilde{x}_{ 0.84 }=
  • \tilde{x}_{ 0.97 }=
 23%  29%  39%  84%  97% 
0.14 0.15 0.16 0.80 0.94 

Gegeben sind zu einem metrischen Merkmal X die Rohdaten

(170, \: 250, \: 350, \: 280, \: 770, \: 130, \: 850, \: 680, \: 110, \: 750, \: 50, \: 870, \: 360).

Bestimmen Sie die folgenden fünf empirischen Quantile zu den Rohdaten. Wenn die Quantile nicht eindeutig sind, nehmen Sie die Mitte des Intervalls.

  • \tilde{x}_{ 0.10 }=
  • \tilde{x}_{ 0.18 }=
  • \tilde{x}_{ 0.41 }=
  • \tilde{x}_{ 0.53 }=
  • \tilde{x}_{ 0.68 }=
10% 18% 41% 53% 68% 
110 130 280 350 680 

Gegeben sind zu einem metrischen Merkmal X die Rohdaten

(15, \: 26, \: 26, \: 80, \: 52, \: 17, \: 30, \: 5, \: 96).

Bestimmen Sie die folgenden fünf empirischen Quantile zu den Rohdaten. Wenn die Quantile nicht eindeutig sind, nehmen Sie die Mitte des Intervalls.

  • \tilde{x}_{ 0.19 }=
  • \tilde{x}_{ 0.44 }=
  • \tilde{x}_{ 0.57 }=
  • \tilde{x}_{ 0.74 }=
  • \tilde{x}_{ 0.95 }=
19% 44% 57% 74% 95% 
 15  26  30  52  96 

Gegeben sind zu einem metrischen Merkmal X die Rohdaten

(43, \: 34, \: 45, \: 51, \: 71, \: 75, \: 85, \: 37, \: 65, \: 57, \: 29, \: 17, \: 31).

Bestimmen Sie die folgenden fünf empirischen Quantile zu den Rohdaten. Wenn die Quantile nicht eindeutig sind, nehmen Sie die Mitte des Intervalls.

  • \tilde{x}_{ 0.15 }=
  • \tilde{x}_{ 0.33 }=
  • \tilde{x}_{ 0.44 }=
  • \tilde{x}_{ 0.86 }=
  • \tilde{x}_{ 0.99 }=
15% 33% 44% 86% 99% 
 29  37  43  75  85 

Gegeben sind zu einem metrischen Merkmal X die Rohdaten

(0.26, \: 0.54, \: 0.35, \: 0.53, \: 0.01, \: 0.59, \: 0.21, \: 0.06, \: 0.76, \: 0.6, \: 0.65).

Bestimmen Sie die folgenden fünf empirischen Quantile zu den Rohdaten. Wenn die Quantile nicht eindeutig sind, nehmen Sie die Mitte des Intervalls.

  • \tilde{x}_{ 0.02 }=
  • \tilde{x}_{ 0.19 }=
  • \tilde{x}_{ 0.24 }=
  • \tilde{x}_{ 0.70 }=
  • \tilde{x}_{ 0.80 }=
  2%  19%  24%  70%  80% 
0.01 0.21 0.21 0.59 0.60 

Gegeben sind zu einem metrischen Merkmal X die Rohdaten

(900, \: -200, \: 800, \: 5700, \: 8400, \: 9900, \: 2200, \: 6700, \: 3600, \: 3800, \: 1300).

Bestimmen Sie die folgenden fünf empirischen Quantile zu den Rohdaten. Wenn die Quantile nicht eindeutig sind, nehmen Sie die Mitte des Intervalls.

  • \tilde{x}_{ 0.35 }=
  • \tilde{x}_{ 0.45 }=
  • \tilde{x}_{ 0.53 }=
  • \tilde{x}_{ 0.72 }=
  • \tilde{x}_{ 0.88 }=
 35%  45%  53%  72%  88% 
1300 2200 3600 5700 8400 

Gegeben sind zu einem metrischen Merkmal X die Rohdaten

(300, \: 290, \: 320, \: 30, \: 370, \: 560, \: 120, \: 190, \: 240).

Bestimmen Sie die folgenden fünf empirischen Quantile zu den Rohdaten. Wenn die Quantile nicht eindeutig sind, nehmen Sie die Mitte des Intervalls.

  • \tilde{x}_{ 0.22 }=
  • \tilde{x}_{ 0.47 }=
  • \tilde{x}_{ 0.70 }=
  • \tilde{x}_{ 0.90 }=
  • \tilde{x}_{ 0.97 }=
22% 47% 70% 90% 97% 
120 290 320 560 560 
Aufgabe: Empirische Quantile

Gegeben ist der folgende Rohdatenvektor

z <- c(2,2,3,1,1,1,1,10,12,12,14,7,7,8,9,11,12,15,15,10)
z
 [1]  2  2  3  1  1  1  1 10 12 12 14  7  7  8  9 11 12 15 15 10
  1. Bestimmen Sie ohne R das 5%, 25%, 50%, 66%, 95% und 99% Quantil.
  2. Überprüfen Sie Ihr Ergebnis mit R.
quantile(z, c(0.05, 0.25, 0.50, 0.66, 0.95, 0.99), type = 2)
  5%  25%  50%  66%  95%  99% 
 1.0  2.0  8.5 11.0 15.0 15.0 
quantile(z, c(0.05, 0.25, 0.50, 0.66, 0.95, 0.99))
   5%   25%   50%   66%   95%   99% 
 1.00  2.00  8.50 10.54 15.00 15.00 

8.4 Lagemaße

8.4.1 Das arithmetische Mittel

Definition: Arithmetisches Mittel

Seien x_1, x_2, \cdots, x_n die Rohdaten mit den Ausprägungen a_1, a_2, \cdots, a_k und den relativen Häufigkeiten f_1 = f(a_1), f_2 = f(a_2), \cdots, f_k = f(a_k). Dann berechnet man das arithmetische Mittel \overline{x} mittels

\begin{align*} \overline{x} = \frac{1}{n} \sum_{j=1}^n x_j \quad \text{oder über die relativen Häufigkeiten mittels} \quad \overline{x} = \sum_{j=1}^k a_j f_j. \end{align*}

Beispiel

Für die Rohdaten aus dem obigen Beispiel ergibt sich:

sort(Y)              # Rohdaten
 [1] 0 0 0 0 0 0 0 1 1 2 2 2 3 3 4 4 4 4 5 5
table(Y) / length(Y) # relative Häufigkeiten
Y
   0    1    2    3    4    5 
0.35 0.10 0.15 0.10 0.20 0.10 

ergibt sich:

\begin{align*} \overline{Y} & = \frac{1}{20}\sum_{i=1}^{20} Y_i \\ & = \frac{1}{20} 0 + 5 + 1 + 5 + 4 + 2 + 0 + 0 + 0 + 4 + 0 + 0 + 1 + 2 + 3 + 4 + 0 + 2 + 4 + 3 \\ & = 2 \end{align*}

und mit Hilfe der relativen Häufigkeiten bzw. den Ausprägungen ergibt sich analog:

\begin{align*} \overline{Y} & = \sum_{j=1}^{6} a_j f_j \\ & = 0 \cdot 0.35 + 1 \cdot 0.10 + 2 \cdot 0.15 + 3 \cdot 0.10 + 4 \cdot 0.20 + 5 \cdot 0.10 \\ & = 2 \end{align*}

In R berechnet man das arithmetische Mittel mit Hilfe der Funktion mean()

mean(Y)
[1] 2

Selbsttest: Arithmetisches Mittel

Gegeben sind zu einem metrischen Merkmal X die Rohdaten

(1.3, \: 2.4, \: 2.7, \: 7.1, \: 3.9, \: 8, \: 2.2, \: 10, \: 1.1, \: 6.7).

Bestimmen Sie das arithmetische Mittel zu den Rohdaten.

  • \overline{x} =

\begin{align*} \overline{x} & = \frac{1}{10}\left(1.3 + 2.4 + 2.7 + 7.1 + 3.9 + 8 + 2.2 + 10 + 1.1 + 6.7 \right) \\ & = 4.54 \end{align*}

Gegeben sind zu einem metrischen Merkmal X die Rohdaten

(1400, \: 2600, \: 2700, \: 2100, \: 200, \: 1600, \: 5800, \: 4600, \: 8000, \: 8800, \: 9500, \: 900).

Bestimmen Sie das arithmetische Mittel zu den Rohdaten.

  • \overline{x} =

\begin{align*} \overline{x} & = \frac{1}{12}\left(1400 + 2600 + 2700 + 2100 + 200 + 1600 + 5800 + 4600 + 8000 + 8800 + 9500 + 900 \right) \\ & = 4016.6666667 \end{align*}

Gegeben sind zu einem metrischen Merkmal X die Rohdaten

(0.2, \: 0.3, \: 0.2, \: 0.75, \: 0.2, \: 0.75, \: 0.49, \: 0.54, \: 0.26).

Bestimmen Sie das arithmetische Mittel zu den Rohdaten.

  • \overline{x} =

\begin{align*} \overline{x} & = \frac{1}{9}\left(0.2 + 0.3 + 0.2 + 0.75 + 0.2 + 0.75 + 0.49 + 0.54 + 0.26 \right) \\ & = 0.41 \end{align*}

Gegeben sind zu einem metrischen Merkmal X die Rohdaten

(0.2, \: 2.6, \: 2.2, \: 3.4, \: 3.7, \: 0.7, \: 9.1, \: 3.9, \: 0.3).

Bestimmen Sie das arithmetische Mittel zu den Rohdaten.

  • \overline{x} =

\begin{align*} \overline{x} & = \frac{1}{9}\left(0.2 + 2.6 + 2.2 + 3.4 + 3.7 + 0.7 + 9.1 + 3.9 + 0.3 \right) \\ & = 2.9 \end{align*}

Gegeben sind zu einem metrischen Merkmal X die Rohdaten

(31, \: 40, \: 49, \: 14, \: 27, \: 40, \: 49, \: 84, \: 57).

Bestimmen Sie das arithmetische Mittel zu den Rohdaten.

  • \overline{x} =

\begin{align*} \overline{x} & = \frac{1}{9}\left(31 + 40 + 49 + 14 + 27 + 40 + 49 + 84 + 57 \right) \\ & = 43.4444444 \end{align*}

Gegeben sind zu einem metrischen Merkmal X die Rohdaten

(1.5, \: 2, \: 1.6, \: 2.3, \: 6.5, \: 9.3, \: 4.3, \: 8, \: 7.2, \: 7.6, \: 4.6).

Bestimmen Sie das arithmetische Mittel zu den Rohdaten.

  • \overline{x} =

\begin{align*} \overline{x} & = \frac{1}{11}\left(1.5 + 2 + 1.6 + 2.3 + 6.5 + 9.3 + 4.3 + 8 + 7.2 + 7.6 + 4.6 \right) \\ & = 4.9909091 \end{align*}

Gegeben sind zu einem metrischen Merkmal X die Rohdaten

(1200, \: 1200, \: 1600, \: 5300, \: 8000, \: 900, \: 9500, \: 8300, \: 7100, \: 2700).

Bestimmen Sie das arithmetische Mittel zu den Rohdaten.

  • \overline{x} =

\begin{align*} \overline{x} & = \frac{1}{10}\left(1200 + 1200 + 1600 + 5300 + 8000 + 900 + 9500 + 8300 + 7100 + 2700 \right) \\ & = 4580 \end{align*}

Gegeben sind zu einem metrischen Merkmal X die Rohdaten

(0.46, \: 0.42, \: 0.29, \: 0.65, \: 0.42, \: 0.9, \: 0.41, \: 1, \: 0.45, \: 0.03).

Bestimmen Sie das arithmetische Mittel zu den Rohdaten.

  • \overline{x} =

\begin{align*} \overline{x} & = \frac{1}{10}\left(0.46 + 0.42 + 0.29 + 0.65 + 0.42 + 0.9 + 0.41 + 1 + 0.45 + 0.03 \right) \\ & = 0.503 \end{align*}

Gegeben sind zu einem metrischen Merkmal X die Rohdaten

(3.6, \: 3.5, \: 1.9, \: 4, \: 8, \: 2.1, \: 3.7, \: 4.3, \: 5.1, \: 7.6, \: 3.9).

Bestimmen Sie das arithmetische Mittel zu den Rohdaten.

  • \overline{x} =

\begin{align*} \overline{x} & = \frac{1}{11}\left(3.6 + 3.5 + 1.9 + 4 + 8 + 2.1 + 3.7 + 4.3 + 5.1 + 7.6 + 3.9 \right) \\ & = 4.3363636 \end{align*}

Gegeben sind zu einem metrischen Merkmal X die Rohdaten

(0.3, \: 0.26, \: 0.3, \: 0.47, \: 0.09, \: 0.42, \: 0.75, \: 0.02, \: 0.58, \: 0.56, \: 0.93).

Bestimmen Sie das arithmetische Mittel zu den Rohdaten.

  • \overline{x} =

\begin{align*} \overline{x} & = \frac{1}{11}\left(0.3 + 0.26 + 0.3 + 0.47 + 0.09 + 0.42 + 0.75 + 0.02 + 0.58 + 0.56 + 0.93 \right) \\ & = 0.4254545 \end{align*}

Gegeben sind zu einem metrischen Merkmal X die Rohdaten

(310, \: 310, \: 380, \: 320, \: 590, \: 260, \: 40, \: 120, \: 310, \: 140, \: 450, \: 660).

Bestimmen Sie das arithmetische Mittel zu den Rohdaten.

  • \overline{x} =

\begin{align*} \overline{x} & = \frac{1}{12}\left(310 + 310 + 380 + 320 + 590 + 260 + 40 + 120 + 310 + 140 + 450 + 660 \right) \\ & = 324.1666667 \end{align*}

Gegeben sind zu einem metrischen Merkmal X die Rohdaten

(3.6, \: 3.8, \: 3.6, \: 5.4, \: 6.4, \: 0.2, \: 9.6, \: 10, \: 1.3, \: 7, \: 7.1, \: 5.1).

Bestimmen Sie das arithmetische Mittel zu den Rohdaten.

  • \overline{x} =

\begin{align*} \overline{x} & = \frac{1}{12}\left(3.6 + 3.8 + 3.6 + 5.4 + 6.4 + 0.2 + 9.6 + 10 + 1.3 + 7 + 7.1 + 5.1 \right) \\ & = 5.2583333 \end{align*}

8.4.2 Median

Definition: Median

Der Median wird aus den sortierten Rohdaten x_{[1]}, x_{[2]}, \cdots, x_{[n]} gebildet und ist gegeben durch

\begin{align*} x_{\text{med}} = \begin{cases} x_{[\frac{n+1}{2}]} & \text{für $n$ ungerade} \\ \frac{1}{2} \big(x_{[\frac{n}{2}]} + x_{[\frac{n}{2} +1]}\big) \quad & \text{für $n$ gerade} \end{cases} \end{align*}

Damit hat der Median die Eigenschaft, dass mindestens 50% der Daten kleiner oder gleich x_{\text{med}} sind und 50% der Daten größer oder gleich x_{\text{med}} sind und entspricht damit dem 50% Quantil.

Beispiel

Die Rohdaten

sort(Y)
 [1] 0 0 0 0 0 0 0 1 1 2 2 2 3 3 4 4 4 4 5 5
length(Y)  # Anzahl der Elemente des Vektors
[1] 20

haben eine Länge von 20, was einer geradem Anzahl entspricht. Damit ist der Median:

\begin{align*} Y_{\text{med}} & = \frac{1}{2} \left(Y_{[10]} + Y_{[11]} \right) \\ & = \frac{1}{2}(2+2) \\ & = 2 \end{align*}
Aufgaben:

Man berechne das arithmetische Mittel und den Median der folgenden (bereits sortierten) Rohdaten x1 bzw. x2, zuerst händisch auf einem Blatt Papier und dann mit R:

(x1 <- c(2, 2, 2, 6, 6, 8, 9, 10, 10, 10))
 [1]  2  2  2  6  6  8  9 10 10 10
(x2 <- c(2, 2, 2, 6, 6, 8, 9, 10, 10, 1000))
 [1]    2    2    2    6    6    8    9   10   10 1000

Was fällt auf?

mean(x1)
[1] 6.5
median(x1)
[1] 7
mean(x2)
[1] 105.5
median(x2)
[1] 7

Während der Median stabil ist, reagiert das arithmetische Mittel auf Ausreißer.

8.4.3 Der Modus

Definition: Modus

Der Modus (oder auch Modalwert) x_{\text{mod}} ist die Ausprägung mit der größten Häufigkeit. Der Modus ist eindeutig, wenn die Häufigkeitsverteilung ein eindeutiges Maximum besitzt.

  • Kommen zwei Ausprägungen am Häufigsten vor, so spricht man auch von einer bimodalen Datenreihe, bei mehr als zwei solcher Ausprägungen von multimodal.
  • Der Modus ist das wichtigste Lagemaß für kategoriale Daten, da er auch für nominale Daten sinnvoll ist.
  • Für metrische Merkmale ist der Modus ebenfalls sinnvoll, da z.B. das arithmetische Mittel oft mit keiner der möglichen Ausprägungen übereinstimmt (niemand hat beispielsweise 10,3 Bücher.)
Abbildung 8.8: Modus bei kategorialen Daten
Abbildung 8.9: Modus bei metrischen Daten

8.4.4 Quartile

Quartile sind spezielle Quantile, nämlich die bei denen wir die Daten in vier Teile einteilt.

  • Das erste Quartil Q_1 = \tilde{x}_{0,25} wird so gewählt, dass 25\% der Daten kleiner sind als der Punkt und 75\% der Daten größer als der Punkt.
  • Das zweite Quartil Q_2= \tilde{x}_{0,50} ist der Median, ist also so gewählt, dass 50\% der Daten kleiner sind als der Punkt.
  • Das dritte Quartil Q_3= \tilde{x}_{0,75} wird so gewählt, dass 75\% der Daten kleiner sind als der Punkt und 25\% der Daten größer als der Punkt.

Quartile sind beim erstellen von Boxplots wichtig.

8.5 Boxplots

Boxplots sind kompakte Darstellung eines metrischen Merkmals X bei denen wenige interessante Kenngrößen, nämlich die Quartile, sowie das Minimium und das Maximum der Verteilung, sichtbar gemacht werden. Boxplots sind neben Histogrammen eine sehr gute Wahl um eindimensionale metrische Verteilungen zu visualisieren.

Er ist wie folgt aufgebaut

  • Die Länge der Box wird bestimmt durch
    • das 25%-Quantil \tilde{x}_{0,25}. Dies ist die untere Kante der Box,
    • das 75%-Quantil \tilde{x}_{0,75}. Das ist die obere Kante der Box.

Bemerkung: Die Länge der Box \text{IQR} = \tilde{x}_{0,75}- \tilde{x}_{0,25} nennt man den Interquartilsabstand.

  • Den Median x_{\text{med}} = \tilde{x}_{0,50}. Dies ist die Linie (manchmal auch Punkt) innerhalb der Box. Der Median kann auch mit den Rändern der Box zusammenfallen.
  • Die Whisker sind die Linien die an der Box anfangen. Diese enden (jeweils) immer, (sofern sie existieren) bei dem äußersten Datenpunkt der maximal den 1,5-fachen Interquartilsabstand von der Box hat.
  • Die Ausreißer sind die Punkte, die außerhalb der Whisker liegen. Existieren keine Ausreißer, so gehen die Whisker bis zum Minimum x_{\text{min}} und bis zum Maximum x_{\text{max}}.
Datenpunkte
Abbildung 8.10: Die Datenpunkte (eindimensionale Darstellung)
Histogramm

Histogramm der Daten
Boxplot
dat.boxplot |> ggplot(aes(x = y)) +
   geom_boxplot(width = 0.4) +
   labs(x = NULL, y = NULL) +
   theme(axis.text.x=element_blank(),
         axis.ticks.x=element_blank(),
         axis.text.y=element_blank(),
         axis.ticks.y=element_blank())
Abbildung 8.11: Boxplot der Daten.

Bemerkungen

  • Die Boxplotfunktion geom_boxplot() nutzt andere Methoden um die Quantile und die Whisker zu bestimmen als zum Beispiel die boxplot() Funktion, die type=2-Quantile nutzt. Bei großen Datensätzen spielt das keine Rolle, allerdings macht es bei einer geringen Beobachtungszahl einen sichtbaren Unterschied.

  • Die Argumente in den Funktionen theme() in den oberen Beispielen sorgen dafür, dass die Achsen (axis.ticks.x= bzw. axis.ticks.y=) und die Beschriftungen der Achsen (axis.text.x= bzw. axis.text.y=) unterdrückt werden.

8.6 Streumaße

Neben den Lagemaßen spielen die Streumaße eine wichtige Rolle bei der Beschreibung von Daten.

Aufgabe (Vorüberlegung, Gruppe - maximal 10 bis 15 Minuten)

Sie sind Coach eines Basketballteams und wollen einen der folgenden drei Spieler kaufen. In der unten stehenden Tabelle sind ihre Punkte der letzten 10 Spiele aufgelistet. Alle Spieler würden die gleiche Ablösesumme kosten. Für welchen der Spieler würden sie sich entscheiden? Diskutieren Sie in Ihrer Gruppe, einigen Sie sich auf einen Spieler und begründen Sie ihre Entscheidung möglichst mathematisch!

Name
Albert 21 22 19 26 14 19 26 22 12 19
Bernhard 21 19 18 21 23 18 22 19 17 22
Carl-Friedrich 14 24 24 16 18 25 26 18 16 19
Abbildung 8.12: Punkte Basketballspieler

8.6.1 Spannweite

Spannweite

Sei X ein metrisches Merkmal mit n Beobachtungen, dann ist die Spannweite R die Differenz des maximalen Werts und des minimalen Werts der Beobachtungen. \begin{align*} R = x_{[n]} - x_{[1]} \end{align*}

Bemerkungen

  • Die Bezeichnung R leitet sich aus dem Englischen Range her.
  • Die Spannweite ist vor allem bei kleinen Datensätzen eine interessante Größe.
  • Sie ist nicht robust gegenüber Ausreißern, da lediglich der größte und der kleinste Wert in die Berechnung der Spannweite eingeht.
  • Um die Spannweite mit R zu berechnen kann man die Funktionen max() und min() nutzen

Beispiel

(x <- rnorm(25))    # 25 normalverteilte Zufallszahlen
 [1] -0.96193342 -0.29252572  0.25878822 -1.15213189  0.19578283  0.03012394
 [7]  0.08541773  1.11661021 -1.21885742  1.26736872 -0.74478160 -1.13121857
[13] -0.71635849  0.25265237  0.15204571 -0.30765643 -0.95301733 -0.64824281
[19]  1.22431362  0.19981161 -0.57848372 -0.94230073 -0.20372818 -1.66647484
[25] -0.48445511
# maximaler Wert
max(x)
[1] 1.267369
# minimaler Wert
min(x)
[1] -1.666475
# Spannweite:
max(x) - min(x)
[1] 2.933844

8.6.2 Empirische Varianz und empirische Standardabweichung

Definition: Empirische Varianz

Die empirische Varianz (oder mittlere quadratische Abweichung) ist ein Maß für die Streuung einer Datenreihe (x_1, x_2, \cdots, x_n). Sie ist gegeben durch

\begin{align*} \sigma^2 & = \frac{1}{n} \sum_{i = 1}^{n} (x_i - \overline{x})^2 \\ & = \sum_{j = 1}^{k} (a_j - \overline{x})^2 \cdot f_j \end{align*}

Die letzte Gleichung ist für Häufigkeitsdaten: a_j sind die Ausprägungen und f_j die relativen Häufigkeiten dieser.

Bemerkung

  • Die empirische Varianz ist quadratisch in den ‘Einheiten’. Daher gibt man als Streuung meist die (empirische) Standardabweichung \sigma an.

Beispiel

In der folgenden Datentabelle wurden zwei Kohorten mit jeweils 32 Leuten nach Ihrem Alter gefragt, wobei das arithmetische Mittel bei beiden Gruppen in etwa gleich ist.

Datenreihe \overline{x} \sigma^2 \sigma
Kohorte 1 25.09 23.65 4.86
Kohorte 2 25.06 117.87 10.86
df |> ggplot(aes(x = Alter)) + 
        geom_bar() + 
        facet_wrap(~Kohorte, ncol = 1) + 
        labs(y = "Anzahl")
Abbildung 8.13: Kohorten mit verschiedenen Varianzen, aber ähnlichen arithmetischen Mittel

Man kann den Unterschied der beiden Verteilungen gut sehen: die zweite Kohorte ist breiter gestreut. Dies macht sich in der empirischen Varianz bzw. Standardabweichung bemerkbar. Daher gibt man nicht nur das arithmetischer mittel, sondern zusätzlich auch immer die empirische Standardabweichung in der Form \overline{x} \pm \sigma_x an.

Für die erste Kohorte würde man das mittlere Alter angeben als 25.09 \pm 4.86 und für die zweite Kohorte 25.06 \pm 10.86.

Satz: Verschiebungssatz

Für die empirische Varianz gilt der Verschiebungssatz:

\begin{align*} \sigma^2 & = \frac{1}{n} \sum_{i = 1}^{n} (x_i - \overline{x})^2 \\ & = \frac{1}{n} \sum_{i = 1}^{n} {x_i}^2 - \overline{x}^2 \end{align*}
\begin{align*} \frac{1}{n} \sum_{i = 1}^{n} (x_i - \overline{x})^2 & = \frac{1}{n} \sum_{i = 1}^{n} \left({x_i}^2 - 2\overline{x} {x_i} + \overline{x}^2 \right) \\ & = \frac{1}{n} \sum_{i = 1}^{n} {x_i}^2 - \frac{1}{n} \sum_{i = 1}^{n} 2\overline{x} {x_i} + \frac{1}{n} \underbrace{\sum_{i = 1}^{n} \overline{x}^2}_{n\overline{x}^2} \\ & = \frac{1}{n} \sum_{i = 1}^{n} {x_i}^2 - 2\overline{x} \underbrace{\frac{1}{n} \sum_{i = 1}^{n} {x_i}}_{\overline{x}} + \frac{1}{n} n \overline{x}^2 \\ & = \frac{1}{n} \sum_{i = 1}^{n} {x_i}^2 - 2 \overline{x}^2 + \overline{x}^2 \\ & = \frac{1}{n} \sum_{i = 1}^{n} {x_i}^2 - \overline{x}^2 \end{align*}

Der Verschiebungssatz macht es einfacher die empirische Varianz (oder Standardabweichung) händisch zu berechnen, da nicht alle Differenzen x_i-\overline{x} berechnet werden müssen.

Aufgabe: Verschiebungssatz

Bestimmen Sie auf analoge Weise den Verschiebungssatz für

\begin{align*} \sigma^2 = \sum_{j = 1}^{k} (a_j - \overline{x})^2 \cdot f_j \end{align*}

Satz: Transformationsregeln

Gegeben sind die Merkmalswerte oder Zufallsvariablen (x_1, x_2, \cdots, x_n) mit deren empirischer Varianz {\sigma_x}^2. Führt man die affine Transformation der Form

\begin{align*} y_i = ax_i + b \end{align*} mit a, b \in \mathbb{R} und i \in \{1, 2, \cdots, n\} durch, dann gilt für den Mittelwert \overline{y} und die empirische Varianz {\sigma_y}^2

\begin{align*} \overline{y} = a \overline{x} + b \qquad \text{und} \qquad {\sigma_y}^2 = a^2 {\sigma_x}^2. \end{align*}

Den Beweis kann (und sollte) als Übung durch einfaches Nachrechnen geführt werden (Einsetzen in die Definitionen).

  • Für das arithmetische Mittel gilt:
\begin{align*} \overline{y} & = \frac{1}{n} \sum_{i=1}^{n} y_i \\ & = \frac{1}{n} \sum_{i=1}^{n} (ax_i + b) \\ & = \frac{1}{n} \sum_{i=1}^{n} ax_i + \frac{1}{n} \sum_{i=1}^{n} b \\ & = a \frac{1}{n} \sum_{i=1}^{n} x_i + \frac{1}{n} nb \\ & = a \overline{x} + b \end{align*}
  • Für die empirische Varianz gilt:
\begin{align*} {\sigma_y}^2 & = \frac{1}{n} \sum_{i=1}^n (y_i - \overline{y})^2 \\ & = \frac{1}{n} \sum_{i=1}^n (a x_i + b - (a \overline{x} + b))^2 \\ & = \frac{1}{n} \sum_{i=1}^n (a(x_i - \overline{x}))^2 \\ & = \frac{1}{n} \sum_{i=1}^n a^2 (x_i - \overline{x})^2 \\ & = a^2 \frac{1}{n} \sum_{i=1}^n (x_i - \overline{x})^2 \\ & = a^2 {\sigma_x}^2 \end{align*}

Beispiel für die Transformationsregeln

In einem amerikanischen Journal lesen Sie über ein Experiment bei dem unter anderem die Raumtemperatur mehrfach gemessen wurde. Diese betrug \overline{T} = 73,2^{\circ}F bei einer Standardabweichung von \sigma_{T} = 0,9^{\circ}F. Welchen Werten entspricht dies in Grad Celsius?

Zuerst muss man wissen, wie Grad Fahrenheit (Variable x) in Grad Celsius (Variable y) transformiert:

\begin{align*} y = \frac{5}{9} x - \frac{160}{9} \end{align*}

Damit ergibt sich

  • für das arithmetische Mittel:
\begin{align*} \overline{y} & = \frac{5}{9} x - \frac{160}{9} \\ & = \frac{5}{9} \cdot 73,2 - \frac{160}{9} \\ & =22,\overline{8} \quad \text{[in $^\circ C$]}. \end{align*}
  • Für die Standardabweichung muss man aus der Formel {\sigma_y}^2 = a^2 {\sigma_x}^2 die Wurzel ziehen und erhält:
\begin{align*} \sigma_y & = |a| \sigma_x \\ & = \frac{5}{9} \cdot 0,9 \\ & = 0,5 \end{align*}

Damit ergibt sich für die Temperatur etwa (20,9 \pm 0,5)^\circ C.

8.6.3 Empirische Varianz und Standardabweichung in R

In R gibt es keine implementierte Funktion für die empirische Varianz oder die empirische Standardabweichung. Allerdings sind die (schätzertreuen) Funktionen var(), die Stichproben-Varianz und sd(), die Stichproben-Standardabweichung implementiert. Beide Funktionen werden in der induktiven Statistik benötigt, und sind gegeben durch

\begin{align*} s^2 = \frac{1}{n-1} \sum_{i = 1}^{n} (x_i - \overline{x})^2 \end{align*}

für die Varianz s^2. Die Standardabweichung s ist die Wurzel aus der Varianz. Der Unterschied liegt also im Vorfaktor. Wir wollen für die empirische Varianz nun selbst eine Funktion schreiben, die wir dann bei Bedarf nutzen können.

# Funktion für die empirische Varianz:

evar <- function(x, na.rm = FALSE) {
    rval <- mean((x - mean(x, na.rm = na.rm))^2, na.rm = na.rm) 
    return(rval)
}

Erklärung

  • Die Funktion evar() hat zwei Argumente:

    • Das erste ist x= ein numerischer Vektor für den die empirische Varianz berechnet werden soll.
    • Das zweite Argument ist na.rm= in dem angegeben werden soll, wie mit fehlenden Werten (NAs) umgegangen werden soll. dies wird komplett analog zu dem Argument na.rm= in sum(), medeian() und vor allem mean() sein.
  • Innerhalb der Funktion wird vom Vektor x der Mittelwert abgezogen und quadriert. Mit der äußeren Funktion mean() wird über diese gemittelt, was das Gleiche ist wie diese so entstehende Werte zu summieren und durch die Anzahl zu teilen.

  • Das Argument na.rm= der neuen Funktion wird beiden Funktion mean() übergeben. Das beudeutet, dass in den Ausdrücken na.rm=na.rm die linke Seite das Argument der Funktion mean() ist, die rechte Seite aber der Wert des Arguments aus der Funktion evar(). Dies ist beim ersten Lesen vielleicht ein wenig verwirrend, aber sinnvoll, da so gewährleistet ist, dass die Argumentnamen gleich sind, was für den Benutzer sehr angenehm ist.

  • In der Funktion return() steht der Rückgabewert der Funktion, also das was die Funktion ausgiebt, wenn sie aufgerufen wird. Dies muss ein einzelnes R-Objekt sein. In unserem Fall ist dies die von uns definierte Variable rval (die nur innerhalb der Funktion evar() existiert.

Beispiel

Wir wollen die empirische Varianz und die empirische Standardabweichung der folgenden Vektoren berechnen:

x  <- c(1, 1, 1, 4, 4, 7, 7, 7, 7, 9, 9, 15)
y1 <- c(1, 1, 1, 4, 4, 7, 7, 7, 7, 9, NA, NA)
y2 <- c(1, 1, 1, 4, 4, 7, 7, 7, 7, 9)
evar(x)
[1] 15.5
evar(y1)
[1] NA
evar(y1, na.rm = TRUE)
[1] 8.16
evar(y2)
[1] 8.16

Wir sehen an den Beispielen, dass die Funktion evar() genau das macht, was wir von ihr wollen. Beinhaltet ein Vektor NAs, so können diese mit Hilfe des Arguments na.rm = TRUE herausgenommen, das heißt ignoriert werden.

Aufgabe: Empirische Standardabweichung

Bestimmen Sie die empirische Varianz und die empirische Standardabweichung des Vektors

x4 <- c(2, 2, 2, 3, 3, 8, 8, 8, 12, 12)
  1. schriftlich (ohne Taschenrechner). Bestimmen Sie die Standardabweichung auf mehrere Arten (mit und ohne Verschiebungssatz, aus den Rohdaten direkt und über die relativen Häufigkeiten)
  2. mit R.
## Varianz (ohne Verschiebungssatz)
x4.var <- sum((x4-mean(x4))^2) / length(x4) 
x4.var
[1] 15
## Varianz (mit Verschienugssatz)
mean(x4^2) - mean(x4)^2
[1] 15
## Standardabweichung:
sqrt(x4.var)
[1] 3.872983
Aufgabe: Verschiebungssatz, R Code
  1. Schreiben Sie analog zu oben eine R-Funktion um die empirische Varianz zu berechnen. Allerdings soll (anders als bei der obigen Funktion evar()) der Verschiebungssatz verwendet werden.

  2. Schreiben Sie außerdem eine Funktion esd() für die empirsche Standardabweichung.

evar2 <- function(x, na.rm = FALSE) {
    rval <- mean(x^2, na.rm = na.rm) - mean(x, na.rm = na.rm)^2 
    return(rval)
}
esd <- function(x, na.rm = FALSE) {
    rval <- sqrt(mean(x^2, na.rm = na.rm) - mean(x, na.rm = na.rm)^2) 
    return(rval)
}

8.6.4 Der Variationskoeffizient

  • Hat man ein Merkmal mit nicht-negativen Ausprägungen, so bietet der Variationskoeffizient, der gegeben ist durch
\begin{align*} v = \frac{\text{Standardabweichung}}{\text{arithmetisches Mittel}} = \frac{\sigma_x}{\overline{x}} \end{align*}

die Möglichkeit Streuungen maßstabsunabhängig zu vergleichen.

  • Im Beispiel: Eine Altersschwankung von 3 bis 4 Jahren bei Kindern ist sehr viel ‘mehr’ als bei älteren Erwachsenen.

Beispiel (jeweils n = 32)

Datenreihe \overline{x} \sigma^2 \sigma \frac{\sigma}{\overline{x}}
Kohorte 1 11.56 26.71 5.17 0.45
Kohorte 2 44.03 25.9 5.09 0.12
df
# A tibble: 64 × 2
   Alter Kohorte  
   <dbl> <chr>    
 1     9 Kohorte 1
 2    29 Kohorte 1
 3    19 Kohorte 1
 4     7 Kohorte 1
 5    19 Kohorte 1
 6    14 Kohorte 1
 7    12 Kohorte 1
 8    11 Kohorte 1
 9     7 Kohorte 1
10     9 Kohorte 1
# ℹ 54 more rows
df |> ggplot(aes(x = Alter)) + 
      geom_bar() + 
      facet_wrap(~Kohorte, ncol = 1) + 
      labs(y = "Anzahl")
Abbildung 8.14: Beide Kohorten haben eine ähnliche Varianz, aber verschiedene arithmetische Mittel. Der Variationskoeffizent ist dementsorechend unterschiedlich.

Das Ergebnis der Untersuchung eines kardinalskalierten Merkmals X sei

i 1 2 3 4 5
Ausprägung 1 5 6 10 12
Anzahl 8 5 1 8 13

Bestimmen Sie die folgenden Kenngrößen.

Das arithmetische Mittel ist \overline{x}=

Der Modalwert ist x_{\text{mod}}=

Die mittlere quadratische Abweichung ist \text{MQA}=

Die Spannweite ist \text{R}=

Der Variationskoeffizient ist v=

Der Median ist x_{\text{med}}=

Die Standardabweichung ist \sigma=

  • Das arithmetische Mittel ist \overline{x}= 7.8571
  • Der Modalwert (oder auch Modus) die Ausprägung, die am häufigsten in den Rohdaten vorkommt: x_{\text{mod}}= 12
  • Die mittlere quadratische Abweichung ist \text{MQA}= 19.4367
  • Die Spannweite ist \text{R}=x_{\text{max}}-x_{\text{min}}= 11
  • Der Variationskoeffizient ist v=\frac{\sigma}{\overline{x}}= 1.7822
  • Der Median ist x_{\text{med}}= 10
  • Die Standardabweichung ist \sigma= 4.4087

Das Ergebnis der Untersuchung eines kardinalskalierten Merkmals X sei

i 1 2 3 4 5 6
Ausprägung 2 3 5 6 10 12
Anzahl 9 13 7 8 5 3

Bestimmen Sie die folgenden Kenngrößen.

Der Variationskoeffizient ist v=

Die mittlere quadratische Abweichung ist \text{MQA}=

Der Median ist x_{\text{med}}=

Das arithmetische Mittel ist \overline{x}=

Die Spannweite ist \text{R}=

Die Standardabweichung ist \sigma=

Der Modalwert ist x_{\text{mod}}=

  • Der Variationskoeffizient ist v=\frac{\sigma}{\overline{x}}= 1.6578
  • Die mittlere quadratische Abweichung ist \text{MQA}= 9.1773
  • Der Median ist x_{\text{med}}= 5
  • Das arithmetische Mittel ist \overline{x}= 5.0222
  • Die Spannweite ist \text{R}=x_{\text{max}}-x_{\text{min}}= 10
  • Die Standardabweichung ist \sigma= 3.0294
  • Der Modalwert (oder auch Modus) die Ausprägung, die am häufigsten in den Rohdaten vorkommt: x_{\text{mod}}= 3

Das Ergebnis der Untersuchung eines kardinalskalierten Merkmals X sei

i 1 2 3 4 5
Ausprägung 300 700 800 1000 1100
Anzahl 2 13 11 9 5

Bestimmen Sie die folgenden Kenngrößen.

Die mittlere quadratische Abweichung ist \text{MQA}=

Das arithmetische Mittel ist \overline{x}=

Der Variationskoeffizient ist v=

Der Median ist x_{\text{med}}=

Die Spannweite ist \text{R}=

Die Standardabweichung ist \sigma=

Der Modalwert ist x_{\text{mod}}=

  • Die mittlere quadratische Abweichung ist \text{MQA}= 3.5375\times 10^{4}
  • Das arithmetische Mittel ist \overline{x}= 825
  • Der Variationskoeffizient ist v=\frac{\sigma}{\overline{x}}= 4.3864
  • Der Median ist x_{\text{med}}= 800
  • Die Spannweite ist \text{R}=x_{\text{max}}-x_{\text{min}}= 800
  • Die Standardabweichung ist \sigma= 188.0824
  • Der Modalwert (oder auch Modus) die Ausprägung, die am häufigsten in den Rohdaten vorkommt: x_{\text{mod}}= 700

Das Ergebnis der Untersuchung eines kardinalskalierten Merkmals X sei

i 1 2 3 4 5
Ausprägung 0 60 70 90 120
Anzahl 12 10 10 10 8

Bestimmen Sie die folgenden Kenngrößen.

Der Median ist x_{\text{med}}=

Das arithmetische Mittel ist \overline{x}=

Die Standardabweichung ist \sigma=

Der Variationskoeffizient ist v=

Die mittlere quadratische Abweichung ist \text{MQA}=

Die Spannweite ist \text{R}=

Der Modalwert ist x_{\text{mod}}=

  • Der Median ist x_{\text{med}}= 70
  • Das arithmetische Mittel ist \overline{x}= 63.2
  • Die Standardabweichung ist \sigma= 40.3703
  • Der Variationskoeffizient ist v=\frac{\sigma}{\overline{x}}= 1.5655
  • Die mittlere quadratische Abweichung ist \text{MQA}= 1629.76
  • Die Spannweite ist \text{R}=x_{\text{max}}-x_{\text{min}}= 120
  • Der Modalwert (oder auch Modus) die Ausprägung, die am häufigsten in den Rohdaten vorkommt: x_{\text{mod}}= 0

Das Ergebnis der Untersuchung eines kardinalskalierten Merkmals X sei

i 1 2 3 4 5 6 7
Ausprägung 0 2 4 5 8 9 10
Anzahl 12 7 1 9 4 6 1

Bestimmen Sie die folgenden Kenngrößen.

Das arithmetische Mittel ist \overline{x}=

Die mittlere quadratische Abweichung ist \text{MQA}=

Der Variationskoeffizient ist v=

Der Median ist x_{\text{med}}=

Der Modalwert ist x_{\text{mod}}=

Die Spannweite ist \text{R}=

Die Standardabweichung ist \sigma=

  • Das arithmetische Mittel ist \overline{x}= 3.975
  • Die mittlere quadratische Abweichung ist \text{MQA}= 11.9744
  • Der Variationskoeffizient ist v=\frac{\sigma}{\overline{x}}= 1.1487
  • Der Median ist x_{\text{med}}= 4.5
  • Der Modalwert (oder auch Modus) die Ausprägung, die am häufigsten in den Rohdaten vorkommt: x_{\text{mod}}= 0
  • Die Spannweite ist \text{R}=x_{\text{max}}-x_{\text{min}}= 10
  • Die Standardabweichung ist \sigma= 3.4604

Das Ergebnis der Untersuchung eines kardinalskalierten Merkmals X sei

i 1 2 3 4 5 6 7
Ausprägung 0 20 40 60 70 80 90
Anzahl 3 10 9 3 1 1 8

Bestimmen Sie die folgenden Kenngrößen.

Der Variationskoeffizient ist v=

Der Modalwert ist x_{\text{mod}}=

Der Median ist x_{\text{med}}=

Die Standardabweichung ist \sigma=

Die mittlere quadratische Abweichung ist \text{MQA}=

Das arithmetische Mittel ist \overline{x}=

Die Spannweite ist \text{R}=

  • Der Variationskoeffizient ist v=\frac{\sigma}{\overline{x}}= 1.5397
  • Der Modalwert (oder auch Modus) die Ausprägung, die am häufigsten in den Rohdaten vorkommt: x_{\text{mod}}= 20
  • Der Median ist x_{\text{med}}= 40
  • Die Standardabweichung ist \sigma= 29.8759
  • Die mittlere quadratische Abweichung ist \text{MQA}= 892.5714
  • Das arithmetische Mittel ist \overline{x}= 46
  • Die Spannweite ist \text{R}=x_{\text{max}}-x_{\text{min}}= 90

Das Ergebnis der Untersuchung eines kardinalskalierten Merkmals X sei

i 1 2 3 4 5 6
Ausprägung 10 20 30 40 90 100
Anzahl 6 12 8 8 9 7

Bestimmen Sie die folgenden Kenngrößen.

Der Median ist x_{\text{med}}=

Der Modalwert ist x_{\text{mod}}=

Das arithmetische Mittel ist \overline{x}=

Die Spannweite ist \text{R}=

Der Variationskoeffizient ist v=

Die mittlere quadratische Abweichung ist \text{MQA}=

Die Standardabweichung ist \sigma=

  • Der Median ist x_{\text{med}}= 30
  • Der Modalwert (oder auch Modus) die Ausprägung, die am häufigsten in den Rohdaten vorkommt: x_{\text{mod}}= 20
  • Das arithmetische Mittel ist \overline{x}= 47.4
  • Die Spannweite ist \text{R}=x_{\text{max}}-x_{\text{min}}= 90
  • Der Variationskoeffizient ist v=\frac{\sigma}{\overline{x}}= 1.4168
  • Die mittlere quadratische Abweichung ist \text{MQA}= 1119.24
  • Die Standardabweichung ist \sigma= 33.455

Das Ergebnis der Untersuchung eines kardinalskalierten Merkmals X sei

i 1 2 3 4 5
Ausprägung 0 0.4 0.5 0.7 0.9
Anzahl 2 3 12 5 3

Bestimmen Sie die folgenden Kenngrößen.

Der Median ist x_{\text{med}}=

Das arithmetische Mittel ist \overline{x}=

Der Modalwert ist x_{\text{mod}}=

Die Spannweite ist \text{R}=

Die mittlere quadratische Abweichung ist \text{MQA}=

Der Variationskoeffizient ist v=

Die Standardabweichung ist \sigma=

  • Der Median ist x_{\text{med}}= 0.5
  • Das arithmetische Mittel ist \overline{x}= 0.536
  • Der Modalwert (oder auch Modus) die Ausprägung, die am häufigsten in den Rohdaten vorkommt: x_{\text{mod}}= 0.5
  • Die Spannweite ist \text{R}=x_{\text{max}}-x_{\text{min}}= 0.9
  • Die mittlere quadratische Abweichung ist \text{MQA}= 0.0471
  • Der Variationskoeffizient ist v=\frac{\sigma}{\overline{x}}= 2.4697
  • Die Standardabweichung ist \sigma= 0.217

Das Ergebnis der Untersuchung eines kardinalskalierten Merkmals X sei

i 1 2 3 4 5 6
Ausprägung 0 100 300 400 500 900
Anzahl 4 10 11 13 1 6

Bestimmen Sie die folgenden Kenngrößen.

Die mittlere quadratische Abweichung ist \text{MQA}=

Die Standardabweichung ist \sigma=

Der Modalwert ist x_{\text{mod}}=

Der Variationskoeffizient ist v=

Der Median ist x_{\text{med}}=

Das arithmetische Mittel ist \overline{x}=

Die Spannweite ist \text{R}=

  • Die mittlere quadratische Abweichung ist \text{MQA}= 6.68839506\times 10^{4}
  • Die Standardabweichung ist \sigma= 258.6193
  • Der Modalwert (oder auch Modus) die Ausprägung, die am häufigsten in den Rohdaten vorkommt: x_{\text{mod}}= 400
  • Der Variationskoeffizient ist v=\frac{\sigma}{\overline{x}}= 1.3233
  • Der Median ist x_{\text{med}}= 300
  • Das arithmetische Mittel ist \overline{x}= 342.2222
  • Die Spannweite ist \text{R}=x_{\text{max}}-x_{\text{min}}= 900

Das Ergebnis der Untersuchung eines kardinalskalierten Merkmals X sei

i 1 2 3 4 5
Ausprägung 0.1 0.2 0.6 0.8 1.2
Anzahl 5 9 6 8 2

Bestimmen Sie die folgenden Kenngrößen.

Die Standardabweichung ist \sigma=

Der Median ist x_{\text{med}}=

Das arithmetische Mittel ist \overline{x}=

Der Modalwert ist x_{\text{mod}}=

Die mittlere quadratische Abweichung ist \text{MQA}=

Die Spannweite ist \text{R}=

Der Variationskoeffizient ist v=

  • Die Standardabweichung ist \sigma= 0.335
  • Der Median ist x_{\text{med}}= 0.6
  • Das arithmetische Mittel ist \overline{x}= 0.49
  • Der Modalwert (oder auch Modus) die Ausprägung, die am häufigsten in den Rohdaten vorkommt: x_{\text{mod}}= 0.2
  • Die mittlere quadratische Abweichung ist \text{MQA}= 0.1122
  • Die Spannweite ist \text{R}=x_{\text{max}}-x_{\text{min}}= 1.1
  • Der Variationskoeffizient ist v=\frac{\sigma}{\overline{x}}= 1.4626

8.7 Klassierte Daten

  • Bei stetigen und quasi-stetigen Merkmalen ergibt das Auszählen, also die Angabe einer absoluten Häufigkeit der Ausprägungen keinen Sinn.

  • Um die Daten ggf. besser behandeln zu können bildet man Klassen. Die Idee ist

    • Eine Gruppierung innerhalb benachbarter Intervalle vorzunemhmen
    \begin{align*} [c_1, c_2), \quad [c_2, c_3), \cdots, [c_{m-1}, c_m), \end{align*}

wobei sich eine Klassenbreite von d_k = c_{k+1} - c_k ergibt.

  • Nun zählt man die Häufigkeiten (bzw. relativen Häufigkeiten) für jede Klasse.
  • Für die Visualisierung wählt man ein Histogramm (das sind keine(!) Säulendiagramme). Die Höhe der Kästen wird durch die (relativen) Häufigkeiten bestimmt (siehe Konstruktion).
  • Nachteil der Klassenbildung ist ein Informationsverlust, und es muss ein geeigneter Kompromiss zwischen Übersichtlichkeit (zu kleine Klassen) und hohem Informationsverlust (zu große Klassen) gefunden werden.
Abbildung 8.15: Zu wenige Klassen
Abbildung 8.16: Zu viele Klassen
Abbildung 8.17: Übersichtliche Anzahl an Klassen bei denen der Informationsverlust überschaubar ist.

8.7.1 Konstruktion eines Histogramms

  • Ein Histogramm ist die Darstellungsform für klassierte, metrische Daten.
  • Die Flächen sind proportional zu Häufigkeit, das heißt es gilt:
\begin{align*} \textsf{Höhe}_j \cdot \textsf{Breite}_j = c \cdot h(a_j) \qquad \iff \qquad \textsf{Höhe}_j = \frac{c \cdot h(a_j)}{ \textsf{Breite}_j} \end{align*}

dabei ist c eine frei wählbare Konstante. Wählt man c = 1, so ist die Fläche gleich der absoluten Häufigkeit. Für c = \frac{1}{n} ist die Fläche die relativen Häufigkeit.

Beispiel

In einer Datentabelle daten sind die Körpergrößen von 200 Profisportlern in Zentimetern klassiert angegeben.

Tabelle 8.1: Körpergrößen von Profisportlern klassiert.
Klasse [150, 160) [160, 170) [170, 175) [175, 180) [180, 190) [190, 210)
h(a_j) 8 20 36 58 56 22
Breite_j 10 10 5 5 10 20
Höhe_j 0,0040 0,01000 0,0360 0,0580 0,0280 0,0055
Breite_j \cdot Höhe_j 0,04 0,10 0,18 0,29 0,28 0,11

Da die Klassen verschiedene Breiten haben, bietet es sich an mit c = \frac{1}{n} = \frac{1}{200} die Höhen zu berechnen, da so die Fläche Breite_j \cdot Höhe_j jeder Klasse als prozentualer Anteil aller Beobachtungen zu interpretieren ist. Im Beispiel sind in der Klasse [175, 180) genau 29% aller Beobachtungen (hier: Profisportler).

Möchte man die Daten grafisch, also als Histogramm, darstellen, so geht das zum Beispiel so:

daten |>                 
  ggplot(aes(x = Groesse)) +
    geom_histogram(aes(y = after_stat(density)), 
                   breaks = c(150, 160, 170, 175, 180, 190, 220),
                   closed = "left") +
    labs(y = "Dichte", x = "Größe")
Abbildung 8.18: Histogramm der Tabelle 8.1.
  • Das aes-Argument y = after_stat(density) in der geometrischen Funktion geom_histogram() sorgt dafür, dass auf der y-Achse die Dichte abgebildet wird. Das entspricht der Wahl c = \frac{1}{n} bei der Berechnung der Höhe.

  • Das Argument breaks= gibt die Stellen der Grenzen für das Histogramm an. Dies ist insbesondere dann nötig, wenn die Abstände der Grenzen nicht gleich sind. Bei gleich breiten Klassen kann man mit dem Argument binwidth= die Breite angeben die jede Fläche haben soll oder mit dem Argument bins= die Anzahl aller Flächen.

  • Da jeder Wert nur zu genau einem Balken gehören darf, muss man an den Grenzen entscheiden zu welcher Seite der Grenzwert geschlagen wird: im obigen Beispiel sind die Intervalle links geschlossen, das heißt die Grenzwerte werden dem rechten Intervall zugeschlagen. Dies muss durch das Argument closed = "left" übergeben werden. Der Standard ist closed = "right", das heißt falls die Intervalle rechts geschlossen sind muss das Argument closed= nicht angegeben werden.

Das Ergebnis der Untersuchung eines kardinalskalierten Merkmals X sei

j 1 2 3 4 5 6
Ausprägung 0.3 0.6 0.9 1.2 1.3 1.4
Anzahl 1 2 6 6 6 4

Es soll ein Histogramm aus den Daten erstellt werden. Bestimmen Sie die Höhen der Balken derart, dass die Summe aller Flächen 1 ist. Geben Sie das Ergebnis auf 4 signifikante Stellen an.

Intervall [0, 0.4 ] ( 0.4, 0.5 ] ( 0.5, 1.3 ] ( 1.3, 1.4]
Breite
Höhe

Für die Lösung nutzt man die Formel:

\begin{align*} \textsf{Höhe}_j \cdot \textsf{Breite}_j = c \cdot h(a_j) \qquad \iff \qquad \textsf{Höhe}_j = \frac{c \cdot h(a_j)}{ \textsf{Breite}_j} \end{align*}

wobei in diesem Fall c = \frac{1}{n} = \frac{1}{25} ist.

Intervall [0, 0.4 ] ( 0.4, 0.5 ] ( 0.5, 1.3 ] ( 1.3, 1.4]
Breite 0.4 0.1 0.8 0.1
Höhe 0.1 0 1 1.6
Anzahl Beobachtungen 1 0 20 4

Das Ergebnis der Untersuchung eines kardinalskalierten Merkmals X sei

j 1 2 3 4 5 6
Ausprägung 10 20 40 110 130 140
Anzahl 16 8 21 17 18 20

Es soll ein Histogramm aus den Daten erstellt werden. Bestimmen Sie die Höhen der Balken derart, dass die Summe aller Flächen 1 ist. Geben Sie das Ergebnis auf 4 signifikante Stellen an.

Intervall [0, 80 ] ( 80, 110 ] ( 110, 120 ] ( 120, 140]
Breite
Höhe

Für die Lösung nutzt man die Formel:

\begin{align*} \textsf{Höhe}_j \cdot \textsf{Breite}_j = c \cdot h(a_j) \qquad \iff \qquad \textsf{Höhe}_j = \frac{c \cdot h(a_j)}{ \textsf{Breite}_j} \end{align*}

wobei in diesem Fall c = \frac{1}{n} = \frac{1}{100} ist.

Intervall [0, 80 ] ( 80, 110 ] ( 110, 120 ] ( 120, 140]
Breite 80 30 10 20
Höhe 0.005625 0.00566667 0 0.019
Anzahl Beobachtungen 45 17 0 38

Das Ergebnis der Untersuchung eines kardinalskalierten Merkmals X sei

j 1 2 3 4 5 6
Ausprägung 0.1 0.4 0.9 1 1.1 1.2
Anzahl 24 11 7 17 17 24

Es soll ein Histogramm aus den Daten erstellt werden. Bestimmen Sie die Höhen der Balken derart, dass die Summe aller Flächen 1 ist. Geben Sie das Ergebnis auf 4 signifikante Stellen an.

Intervall [0, 0.3 ) [ 0.3, 0.4 ) [ 0.4, 0.7 ) [ 0.7, 1.2]
Breite
Höhe

Für die Lösung nutzt man die Formel:

\begin{align*} \textsf{Höhe}_j \cdot \textsf{Breite}_j = c \cdot h(a_j) \qquad \iff \qquad \textsf{Höhe}_j = \frac{c \cdot h(a_j)}{ \textsf{Breite}_j} \end{align*}

wobei in diesem Fall c = \frac{1}{n} = \frac{1}{100} ist.

Intervall [0, 0.3 ) [ 0.3, 0.4 ) [ 0.4, 0.7 ) [ 0.7, 1.2]
Breite 0.3 0.1 0.3 0.5
Höhe 0.8 0 0.36666667 1.3
Anzahl Beobachtungen 24 0 11 65

Das Ergebnis der Untersuchung eines kardinalskalierten Merkmals X sei

j 1 2 3 4 5 6
Ausprägung 0 30 50 70 90 110
Anzahl 21 19 21 10 22 7

Es soll ein Histogramm aus den Daten erstellt werden. Bestimmen Sie die Höhen der Balken derart, dass die Summe aller Flächen 1 ist. Geben Sie das Ergebnis auf 4 signifikante Stellen an.

Intervall [0, 30 ) [ 30, 70 ) [ 70, 90 ) [ 90, 110]
Breite
Höhe

Für die Lösung nutzt man die Formel:

\begin{align*} \textsf{Höhe}_j \cdot \textsf{Breite}_j = c \cdot h(a_j) \qquad \iff \qquad \textsf{Höhe}_j = \frac{c \cdot h(a_j)}{ \textsf{Breite}_j} \end{align*}

wobei in diesem Fall c = \frac{1}{n} = \frac{1}{100} ist.

Intervall [0, 30 ) [ 30, 70 ) [ 70, 90 ) [ 90, 110]
Breite 30 40 20 20
Höhe 0.007 0.01 0.005 0.0145
Anzahl Beobachtungen 21 40 10 29

Das Ergebnis der Untersuchung eines kardinalskalierten Merkmals X sei

j 1 2 3 4 5 6
Ausprägung 6 7 9 10 13 14
Anzahl 23 24 24 4 8 17

Es soll ein Histogramm aus den Daten erstellt werden. Bestimmen Sie die Höhen der Balken derart, dass die Summe aller Flächen 1 ist. Geben Sie das Ergebnis auf 4 signifikante Stellen an.

Intervall [0, 8 ) [ 8, 10 ) [ 10, 13 ) [ 13, 14]
Breite
Höhe

Für die Lösung nutzt man die Formel:

\begin{align*} \textsf{Höhe}_j \cdot \textsf{Breite}_j = c \cdot h(a_j) \qquad \iff \qquad \textsf{Höhe}_j = \frac{c \cdot h(a_j)}{ \textsf{Breite}_j} \end{align*}

wobei in diesem Fall c = \frac{1}{n} = \frac{1}{100} ist.

Intervall [0, 8 ) [ 8, 10 ) [ 10, 13 ) [ 13, 14]
Breite 8 2 3 1
Höhe 0.05875 0.12 0.01333333 0.25
Anzahl Beobachtungen 47 24 4 25

Das Ergebnis der Untersuchung eines kardinalskalierten Merkmals X sei

j 1 2 3 4 5 6
Ausprägung 10 20 40 60 130 140
Anzahl 24 1 24 20 10 21

Es soll ein Histogramm aus den Daten erstellt werden. Bestimmen Sie die Höhen der Balken derart, dass die Summe aller Flächen 1 ist. Geben Sie das Ergebnis auf 4 signifikante Stellen an.

Intervall [0, 20 ) [ 20, 60 ) [ 60, 70 ) [ 70, 140]
Breite
Höhe

Für die Lösung nutzt man die Formel:

\begin{align*} \textsf{Höhe}_j \cdot \textsf{Breite}_j = c \cdot h(a_j) \qquad \iff \qquad \textsf{Höhe}_j = \frac{c \cdot h(a_j)}{ \textsf{Breite}_j} \end{align*}

wobei in diesem Fall c = \frac{1}{n} = \frac{1}{100} ist.

Intervall [0, 20 ) [ 20, 60 ) [ 60, 70 ) [ 70, 140]
Breite 20 40 10 70
Höhe 0.012 0.00625 0.02 0.00442857
Anzahl Beobachtungen 24 25 20 31

Das Ergebnis der Untersuchung eines kardinalskalierten Merkmals X sei

j 1 2 3 4 5 6
Ausprägung 0 2 5 6 9 10
Anzahl 5 25 20 21 6 23

Es soll ein Histogramm aus den Daten erstellt werden. Bestimmen Sie die Höhen der Balken derart, dass die Summe aller Flächen 1 ist. Geben Sie das Ergebnis auf 4 signifikante Stellen an.

Intervall [0, 4 ] ( 4, 8 ] ( 8, 9 ] ( 9, 10]
Breite
Höhe

Für die Lösung nutzt man die Formel:

\begin{align*} \textsf{Höhe}_j \cdot \textsf{Breite}_j = c \cdot h(a_j) \qquad \iff \qquad \textsf{Höhe}_j = \frac{c \cdot h(a_j)}{ \textsf{Breite}_j} \end{align*}

wobei in diesem Fall c = \frac{1}{n} = \frac{1}{100} ist.

Intervall [0, 4 ] ( 4, 8 ] ( 8, 9 ] ( 9, 10]
Breite 4 4 1 1
Höhe 0.075 0.1025 0.06 0.23
Anzahl Beobachtungen 30 41 6 23

Das Ergebnis der Untersuchung eines kardinalskalierten Merkmals X sei

j 1 2 3 4 5 6
Ausprägung 0.2 0.3 0.4 0.5 0.8 1.4
Anzahl 1 4 5 23 9 8

Es soll ein Histogramm aus den Daten erstellt werden. Bestimmen Sie die Höhen der Balken derart, dass die Summe aller Flächen 1 ist. Geben Sie das Ergebnis auf 4 signifikante Stellen an.

Intervall [0, 0.4 ] ( 0.4, 1 ] ( 1, 1.2 ] ( 1.2, 1.4]
Breite
Höhe

Für die Lösung nutzt man die Formel:

\begin{align*} \textsf{Höhe}_j \cdot \textsf{Breite}_j = c \cdot h(a_j) \qquad \iff \qquad \textsf{Höhe}_j = \frac{c \cdot h(a_j)}{ \textsf{Breite}_j} \end{align*}

wobei in diesem Fall c = \frac{1}{n} = \frac{1}{50} ist.

Intervall [0, 0.4 ] ( 0.4, 1 ] ( 1, 1.2 ] ( 1.2, 1.4]
Breite 0.4 0.6 0.2 0.2
Höhe 0.5 1.06666667 0 0.8
Anzahl Beobachtungen 10 32 0 8

Das Ergebnis der Untersuchung eines kardinalskalierten Merkmals X sei

j 1 2 3 4 5 6
Ausprägung 2 4 6 11 12 13
Anzahl 17 23 17 19 23 1

Es soll ein Histogramm aus den Daten erstellt werden. Bestimmen Sie die Höhen der Balken derart, dass die Summe aller Flächen 1 ist. Geben Sie das Ergebnis auf 4 signifikante Stellen an.

Intervall [0, 5 ) [ 5, 9 ) [ 9, 12 ) [ 12, 13]
Breite
Höhe

Für die Lösung nutzt man die Formel:

\begin{align*} \textsf{Höhe}_j \cdot \textsf{Breite}_j = c \cdot h(a_j) \qquad \iff \qquad \textsf{Höhe}_j = \frac{c \cdot h(a_j)}{ \textsf{Breite}_j} \end{align*}

wobei in diesem Fall c = \frac{1}{n} = \frac{1}{100} ist.

Intervall [0, 5 ) [ 5, 9 ) [ 9, 12 ) [ 12, 13]
Breite 5 4 3 1
Höhe 0.08 0.0425 0.06333333 0.24
Anzahl Beobachtungen 40 17 19 24

Das Ergebnis der Untersuchung eines kardinalskalierten Merkmals X sei

j 1 2 3 4 5 6
Ausprägung 0 0.1 0.4 0.5 0.6 0.9
Anzahl 13 21 14 22 24 6

Es soll ein Histogramm aus den Daten erstellt werden. Bestimmen Sie die Höhen der Balken derart, dass die Summe aller Flächen 1 ist. Geben Sie das Ergebnis auf 4 signifikante Stellen an.

Intervall [0, 0.1 ] ( 0.1, 0.4 ] ( 0.4, 0.8 ] ( 0.8, 0.9]
Breite
Höhe

Für die Lösung nutzt man die Formel:

\begin{align*} \textsf{Höhe}_j \cdot \textsf{Breite}_j = c \cdot h(a_j) \qquad \iff \qquad \textsf{Höhe}_j = \frac{c \cdot h(a_j)}{ \textsf{Breite}_j} \end{align*}

wobei in diesem Fall c = \frac{1}{n} = \frac{1}{100} ist.

Intervall [0, 0.1 ] ( 0.1, 0.4 ] ( 0.4, 0.8 ] ( 0.8, 0.9]
Breite 0.1 0.3 0.4 0.1
Höhe 3.4 0.46666667 1.15 0.6
Anzahl Beobachtungen 34 14 46 6

8.7.2 Lage- und Streumaße bei klassierten Daten

Auch bei klassierten Daten können Lage- und Streumaße angegeben werden, allerdings nur noch als Näherung, da durch das Klassieren Informationen verloren gegangen sind.

Modus

Die Klasse(n) mit den größten Beobachtungszahl, die Mitte der Klassen sind die Modi. Man bezeichnet diese Klasse auch als Modalklasse. Der wahre Modus muss allerdings nicht einmal in der Modalklasse liegen, und der so berechnete Modus ist ggf.auch kein Beobachtungswert!

Median

Man bestimme die Klasse [c_{i-1}, c_i) in der der Median liegt und dann bestimmt man den Wert \begin{align*} x_{\text{med, klass}} = c_{i-1} + \frac{d_i\cdot (0,5 - F(c_{i-1}))}{f_i}, \end{align*} wobei F(c_{i-1}) die Anzahl der Beobachtungen, die kleiner oder gleich c_{i-1} sind, geteilt durch alle Beobachtungen ist.

Arithmetisches Mittel

\begin{align*} \overline{x}_{\text{klass}} = \sum_{i=1}^{k} f_i m_i, \end{align*}

dabei sind m_i mit i = 1, \cdots, k jeweils die Klassenmitten.

Aufgabe: Lage- und Streuparameter, Histogramm

Das Ergebnis der Untersuchung eines kardinalskalierten Merkmals X sei

i 1 2 3 4 5
Ausprägung 3 4 6 7 9
Anzahl 4 4 6 4 2
  1. Bestimmen Sie das arithmetische Mittel, den Modus, den Median und die Spannweite.
  2. Berechnen Sie die mittlere quadratische Abweichung, die Standardabweichung sowie den Variationskoeffizienten.
  3. Obige Daten werden nun mittels der Intervalle [3, 5), [5, 8) und [8, 12] klassiert. Bestimmen Sie die Rechteckhöhen des Histogramms und zeichnen Sie das Histogramm mit der Hand und dann mit R.

Tipp: Nehmen Sie die Funktion hist() und achten Sie auf die Ränder der Intervalle!

daten <- rep(c(3,4,6,7,9), c(4,4,6,4,2))
mean(daten)
[1] 5.5
max(x)-min(x)
[1] 14

Für den Modus gibt es keinen Befehl, allerdings kann man diesen leicht aus der obigen Tabelle ablesen: x_{\text{mod}} = 6.

Wir nutzen die oben selbst erstellte Funktion evar() (diese ist nicht Teil vom Standard R!)

## Mittlere quaratische Abweichung
evar(daten) 
[1] 3.45
## Standardabweichung
sqrt(evar(daten))
[1] 1.8574176
## Variationskoeffizient
evar(daten) / mean(daten)
[1] 0.62727273
hist(daten, 
     breaks = c(3,5,8,12) # Grenzes der Balken
) 

Aufgaben zum Kapitel

Der Baumarkt IBO hat in Deutschland insgesamt 77 Filialen, die im wesentlichen alle das gleiche Sortiment haben. Die Verkaufszahlen der Produkte variieren in den einzelnen Filialen mitunter stark, so wurde das Produkt Säge Serge in den verschiedenen Filialen zwischen 0 und 10 mal verkauft. Das folgende Säulendiagramm zeigt die Häufigkeiten, also wie viele Filialen das Produkt wie oft verkauft haben.

Bestimmen Sie die folgende Größen. Geben Sie das Ergebnis gerundet auf mindestens zwei(!) Nachkommastellen an. Bestimmen Sie ihre Lösungen mit R.

Die mittlere quadratische Abweichung ist \text{MQA}=

H(9.5) =

Die Standardabweichung ist \sigma=

Das arithmetische Mittel ist \overline{x}=

Der Median ist x_{\text{med}}=

f(5) =

F(6.1) =

Der Variationskoeffizient ist v=

  • Die mittlere quadratische Abweichung ist \text{MQA}= 10.011
  • H(9.5) = 75
  • Die Standardabweichung ist \sigma= 3.16
  • Das arithmetische Mittel ist \overline{x}= 2.96
  • Der Median ist x_{\text{med}}= 2
  • f(5) = 0.06
  • F(6.1) = 0.83
  • Der Variationskoeffizient ist v= 1.07

Der Baumarkt IBO hat in Deutschland insgesamt 70 Filialen, die im wesentlichen alle das gleiche Sortiment haben. Die Verkaufszahlen der Produkte variieren in den einzelnen Filialen mitunter stark, so wurde das Produkt Schlauch Seppl in den verschiedenen Filialen zwischen 0 und 10 mal verkauft. Das folgende Säulendiagramm zeigt die Häufigkeiten, also wie viele Filialen das Produkt wie oft verkauft haben.

Bestimmen Sie die folgende Größen. Geben Sie das Ergebnis gerundet auf mindestens zwei(!) Nachkommastellen an. Bestimmen Sie ihre Lösungen mit R.

Die Standardabweichung ist \sigma=

f(0) =

Der Median ist x_{\text{med}}=

Die mittlere quadratische Abweichung ist \text{MQA}=

H(6.8) =

Das arithmetische Mittel ist \overline{x}=

Der Variationskoeffizient ist v=

F(8.4) =

  • Die Standardabweichung ist \sigma= 3.57
  • f(0) = 0.3
  • Der Median ist x_{\text{med}}= 3
  • Die mittlere quadratische Abweichung ist \text{MQA}= 12.719
  • H(6.8) = 53
  • Das arithmetische Mittel ist \overline{x}= 3.9
  • Der Variationskoeffizient ist v= 0.91
  • F(8.4) = 0.84

Der Baumarkt IBO hat in Deutschland insgesamt 70 Filialen, die im wesentlichen alle das gleiche Sortiment haben. Die Verkaufszahlen der Produkte variieren in den einzelnen Filialen mitunter stark, so wurde das Produkt Säge Serge in den verschiedenen Filialen zwischen 0 und 10 mal verkauft. Das folgende Säulendiagramm zeigt die Häufigkeiten, also wie viele Filialen das Produkt wie oft verkauft haben.

Bestimmen Sie die folgende Größen. Geben Sie das Ergebnis gerundet auf mindestens zwei(!) Nachkommastellen an. Bestimmen Sie ihre Lösungen mit R.

Die mittlere quadratische Abweichung ist \text{MQA}=

F(10.5) =

Der Median ist x_{\text{med}}=

Der Variationskoeffizient ist v=

Die Standardabweichung ist \sigma=

H(5.8) =

f(6) =

Das arithmetische Mittel ist \overline{x}=

  • Die mittlere quadratische Abweichung ist \text{MQA}= 11.695
  • F(10.5) = 1
  • Der Median ist x_{\text{med}}= 3
  • Der Variationskoeffizient ist v= 0.84
  • Die Standardabweichung ist \sigma= 3.42
  • H(5.8) = 40
  • f(6) = 0.03
  • Das arithmetische Mittel ist \overline{x}= 4.07

Der Baumarkt IBO hat in Deutschland insgesamt 30 Filialen, die im wesentlichen alle das gleiche Sortiment haben. Die Verkaufszahlen der Produkte variieren in den einzelnen Filialen mitunter stark, so wurde das Produkt Spiegel Sputnik in den verschiedenen Filialen zwischen 0 und 10 mal verkauft. Das folgende Säulendiagramm zeigt die Häufigkeiten, also wie viele Filialen das Produkt wie oft verkauft haben.

Bestimmen Sie die folgende Größen. Geben Sie das Ergebnis gerundet auf mindestens zwei(!) Nachkommastellen an. Bestimmen Sie die Lösungen händisch mit einem Taschnrechner

F(8.3) =

Der Median ist x_{\text{med}}=

f(8) =

Das arithmetische Mittel ist \overline{x}=

H(7.7) =

Die mittlere quadratische Abweichung ist \text{MQA}=

Die Standardabweichung ist \sigma=

Der Variationskoeffizient ist v=

  • F(8.3) = 0.77
  • Der Median ist x_{\text{med}}= 5
  • f(8) = 0.1
  • Das arithmetische Mittel ist \overline{x}= 4.43
  • H(7.7) = 20
  • Die mittlere quadratische Abweichung ist \text{MQA}= 13.646
  • Die Standardabweichung ist \sigma= 3.69
  • Der Variationskoeffizient ist v= 0.83

Der Baumarkt IBO hat in Deutschland insgesamt 41 Filialen, die im wesentlichen alle das gleiche Sortiment haben. Die Verkaufszahlen der Produkte variieren in den einzelnen Filialen mitunter stark, so wurde das Produkt Axt Axel in den verschiedenen Filialen zwischen 0 und 10 mal verkauft. Das folgende Säulendiagramm zeigt die Häufigkeiten, also wie viele Filialen das Produkt wie oft verkauft haben.

Bestimmen Sie die folgende Größen. Geben Sie das Ergebnis gerundet auf mindestens zwei(!) Nachkommastellen an. Bestimmen Sie die Lösungen händisch mit einem Taschnrechner

Der Median ist x_{\text{med}}=

F(1.8) =

Das arithmetische Mittel ist \overline{x}=

Die Standardabweichung ist \sigma=

Der Variationskoeffizient ist v=

f(10) =

H(10.9) =

Die mittlere quadratische Abweichung ist \text{MQA}=

  • Der Median ist x_{\text{med}}= 3
  • F(1.8) = 0.37
  • Das arithmetische Mittel ist \overline{x}= 3.83
  • Die Standardabweichung ist \sigma= 3.57
  • Der Variationskoeffizient ist v= 0.93
  • f(10) = 0.12
  • H(10.9) = 41
  • Die mittlere quadratische Abweichung ist \text{MQA}= 12.776

Der Baumarkt IBO hat in Deutschland insgesamt 50 Filialen, die im wesentlichen alle das gleiche Sortiment haben. Die Verkaufszahlen der Produkte variieren in den einzelnen Filialen mitunter stark, so wurde das Produkt Schlauch Seppl in den verschiedenen Filialen zwischen 0 und 10 mal verkauft. Das folgende Säulendiagramm zeigt die Häufigkeiten, also wie viele Filialen das Produkt wie oft verkauft haben.

Bestimmen Sie die folgende Größen. Geben Sie das Ergebnis gerundet auf mindestens zwei(!) Nachkommastellen an. Bestimmen Sie ihre Lösungen mit R.

F(6.7) =

Die Standardabweichung ist \sigma=

H(2.1) =

f(8) =

Der Median ist x_{\text{med}}=

Die mittlere quadratische Abweichung ist \text{MQA}=

Der Variationskoeffizient ist v=

Das arithmetische Mittel ist \overline{x}=

  • F(6.7) = 0.8
  • Die Standardabweichung ist \sigma= 3.19
  • H(2.1) = 30
  • f(8) = 0.16
  • Der Median ist x_{\text{med}}= 2
  • Die mittlere quadratische Abweichung ist \text{MQA}= 10.18
  • Der Variationskoeffizient ist v= 1.07
  • Das arithmetische Mittel ist \overline{x}= 2.98

Der Baumarkt IBO hat in Deutschland insgesamt 53 Filialen, die im wesentlichen alle das gleiche Sortiment haben. Die Verkaufszahlen der Produkte variieren in den einzelnen Filialen mitunter stark, so wurde das Produkt Spiegel Sputnik in den verschiedenen Filialen zwischen 0 und 10 mal verkauft. Das folgende Säulendiagramm zeigt die Häufigkeiten, also wie viele Filialen das Produkt wie oft verkauft haben.

Bestimmen Sie die folgende Größen. Geben Sie das Ergebnis gerundet auf mindestens zwei(!) Nachkommastellen an. Bestimmen Sie ihre Lösungen mit R.

F(6.1) =

Das arithmetische Mittel ist \overline{x}=

Die mittlere quadratische Abweichung ist \text{MQA}=

Der Variationskoeffizient ist v=

Die Standardabweichung ist \sigma=

H(8.9) =

f(1) =

Der Median ist x_{\text{med}}=

  • F(6.1) = 0.81
  • Das arithmetische Mittel ist \overline{x}= 3.49
  • Die mittlere quadratische Abweichung ist \text{MQA}= 11.042
  • Der Variationskoeffizient ist v= 0.95
  • Die Standardabweichung ist \sigma= 3.32
  • H(8.9) = 47
  • f(1) = 0
  • Der Median ist x_{\text{med}}= 3

Der Baumarkt IBO hat in Deutschland insgesamt 65 Filialen, die im wesentlichen alle das gleiche Sortiment haben. Die Verkaufszahlen der Produkte variieren in den einzelnen Filialen mitunter stark, so wurde das Produkt Axt Axel in den verschiedenen Filialen zwischen 0 und 10 mal verkauft. Das folgende Säulendiagramm zeigt die Häufigkeiten, also wie viele Filialen das Produkt wie oft verkauft haben.

Bestimmen Sie die folgende Größen. Geben Sie das Ergebnis gerundet auf mindestens zwei(!) Nachkommastellen an. Bestimmen Sie ihre Lösungen mit R.

Die mittlere quadratische Abweichung ist \text{MQA}=

f(3) =

Der Variationskoeffizient ist v=

Der Median ist x_{\text{med}}=

Das arithmetische Mittel ist \overline{x}=

H(2.8) =

F(10.1) =

Die Standardabweichung ist \sigma=

  • Die mittlere quadratische Abweichung ist \text{MQA}= 12.711
  • f(3) = 0
  • Der Variationskoeffizient ist v= 1.01
  • Der Median ist x_{\text{med}}= 2
  • Das arithmetische Mittel ist \overline{x}= 3.52
  • H(2.8) = 37
  • F(10.1) = 1
  • Die Standardabweichung ist \sigma= 3.57

Der Baumarkt IBO hat in Deutschland insgesamt 78 Filialen, die im wesentlichen alle das gleiche Sortiment haben. Die Verkaufszahlen der Produkte variieren in den einzelnen Filialen mitunter stark, so wurde das Produkt Walze Waldemar in den verschiedenen Filialen zwischen 0 und 10 mal verkauft. Das folgende Säulendiagramm zeigt die Häufigkeiten, also wie viele Filialen das Produkt wie oft verkauft haben.

Bestimmen Sie die folgende Größen. Geben Sie das Ergebnis gerundet auf mindestens zwei(!) Nachkommastellen an. Bestimmen Sie ihre Lösungen mit R.

Die Standardabweichung ist \sigma=

f(3) =

Die mittlere quadratische Abweichung ist \text{MQA}=

F(7.9) =

H(3.3) =

Der Variationskoeffizient ist v=

Das arithmetische Mittel ist \overline{x}=

Der Median ist x_{\text{med}}=

  • Die Standardabweichung ist \sigma= 3.37
  • f(3) = 0.08
  • Die mittlere quadratische Abweichung ist \text{MQA}= 11.336
  • F(7.9) = 0.77
  • H(3.3) = 47
  • Der Variationskoeffizient ist v= 0.93
  • Das arithmetische Mittel ist \overline{x}= 3.63
  • Der Median ist x_{\text{med}}= 2

Der Baumarkt IBO hat in Deutschland insgesamt 33 Filialen, die im wesentlichen alle das gleiche Sortiment haben. Die Verkaufszahlen der Produkte variieren in den einzelnen Filialen mitunter stark, so wurde das Produkt Axt Axel in den verschiedenen Filialen zwischen 0 und 10 mal verkauft. Das folgende Säulendiagramm zeigt die Häufigkeiten, also wie viele Filialen das Produkt wie oft verkauft haben.

Bestimmen Sie die folgende Größen. Geben Sie das Ergebnis gerundet auf mindestens zwei(!) Nachkommastellen an. Bestimmen Sie ihre Lösungen mit R.

F(7.9) =

Das arithmetische Mittel ist \overline{x}=

Der Variationskoeffizient ist v=

Der Median ist x_{\text{med}}=

Die Standardabweichung ist \sigma=

Die mittlere quadratische Abweichung ist \text{MQA}=

f(2) =

H(1.2) =

  • F(7.9) = 0.67
  • Das arithmetische Mittel ist \overline{x}= 5.42
  • Der Variationskoeffizient ist v= 0.63
  • Der Median ist x_{\text{med}}= 6
  • Die Standardabweichung ist \sigma= 3.4
  • Die mittlere quadratische Abweichung ist \text{MQA}= 11.578
  • f(2) = 0.12
  • H(1.2) = 5

Gegeben ist die empirische Verteilungsfunktion F(x) von 25 Beobachtungen im folgenden Diagramm.

Berechnen Sie die folgenden Größen und geben Sie die Antwort auf mindestens zwei Nachkommastellen gerundet an (kein Bruch)!

Das arithmetische Mittel \overline{x}=

h(-5)=

Der Median x_\text{med}=

F(8)=

Die Spannweite R=

f(25)=

  • Das arithmetische Mittel \overline{x}= 17.6
  • h(-5)= 3
  • Der Median x_\text{med}= 20
  • F(8)= 0.2
  • Die Spannweite R= 35
  • f(25)= 0.2

Gegeben ist die empirische Verteilungsfunktion F(x) von 50 Beobachtungen im folgenden Diagramm.

Berechnen Sie die folgenden Größen und geben Sie die Antwort auf mindestens zwei Nachkommastellen gerundet an (kein Bruch)!

Die Spannweite R=

h(-10)=

F(1)=

f(30)=

Der Median x_\text{med}=

Das arithmetische Mittel \overline{x}=

  • Die Spannweite R= 35
  • h(-10)= 0
  • F(1)= 0.36
  • f(30)= 0.18
  • Der Median x_\text{med}= 10
  • Das arithmetische Mittel \overline{x}= 12.5

Gegeben ist die empirische Verteilungsfunktion F(x) von 20 Beobachtungen im folgenden Diagramm.

Berechnen Sie die folgenden Größen und geben Sie die Antwort auf mindestens zwei Nachkommastellen gerundet an (kein Bruch)!

h(20)=

H(3)=

Das arithmetische Mittel \overline{x}=

F(16)=

Der Median x_\text{med}=

Die Spannweite R=

  • h(20)= 6
  • H(3)= 5
  • Das arithmetische Mittel \overline{x}= 14.25
  • F(16)= 0.4
  • Der Median x_\text{med}= 20
  • Die Spannweite R= 40

Gegeben ist die empirische Verteilungsfunktion F(x) von 20 Beobachtungen im folgenden Diagramm.

Berechnen Sie die folgenden Größen und geben Sie die Antwort auf mindestens zwei Nachkommastellen gerundet an (kein Bruch)!

Das arithmetische Mittel \overline{x}=

F(20)=

Der Median x_\text{med}=

Die Spannweite R=

H(26)=

f(20)=

  • Das arithmetische Mittel \overline{x}= 11.5
  • F(20)= 0.6
  • Der Median x_\text{med}= 15
  • Die Spannweite R= 40
  • H(26)= 19
  • f(20)= 0.1

Gegeben ist die empirische Verteilungsfunktion F(x) von 20 Beobachtungen im folgenden Diagramm.

Berechnen Sie die folgenden Größen und geben Sie die Antwort auf mindestens zwei Nachkommastellen gerundet an (kein Bruch)!

H(15)=

Das arithmetische Mittel \overline{x}=

Die Spannweite R=

Der Median x_\text{med}=

h(-10)=

F(0)=

  • H(15)= 7
  • Das arithmetische Mittel \overline{x}= 18
  • Die Spannweite R= 35
  • Der Median x_\text{med}= 20
  • h(-10)= 0
  • F(0)= 0.15

Gegeben ist die empirische Verteilungsfunktion F(x) von 20 Beobachtungen im folgenden Diagramm.

Berechnen Sie die folgenden Größen und geben Sie die Antwort auf mindestens zwei Nachkommastellen gerundet an (kein Bruch)!

Der Median x_\text{med}=

f(30)=

Das arithmetische Mittel \overline{x}=

F(26)=

h(0)=

Die Spannweite R=

  • Der Median x_\text{med}= 20
  • f(30)= 0.15
  • Das arithmetische Mittel \overline{x}= 14
  • F(26)= 0.85
  • h(0)= 1
  • Die Spannweite R= 40

Gegeben ist die empirische Verteilungsfunktion F(x) von 20 Beobachtungen im folgenden Diagramm.

Berechnen Sie die folgenden Größen und geben Sie die Antwort auf mindestens zwei Nachkommastellen gerundet an (kein Bruch)!

Der Median x_\text{med}=

h(0)=

Das arithmetische Mittel \overline{x}=

f(10)=

Die Spannweite R=

F(-1)=

  • Der Median x_\text{med}= 10
  • h(0)= 7
  • Das arithmetische Mittel \overline{x}= 12
  • f(10)= 0.2
  • Die Spannweite R= 35
  • F(-1)= 0.05

Gegeben ist die empirische Verteilungsfunktion F(x) von 25 Beobachtungen im folgenden Diagramm.

Berechnen Sie die folgenden Größen und geben Sie die Antwort auf mindestens zwei Nachkommastellen gerundet an (kein Bruch)!

Das arithmetische Mittel \overline{x}=

f(-5)=

Die Spannweite R=

F(-7)=

h(10)=

Der Median x_\text{med}=

  • Das arithmetische Mittel \overline{x}= 15.8
  • f(-5)= 0.08
  • Die Spannweite R= 35
  • F(-7)= 0
  • h(10)= 4
  • Der Median x_\text{med}= 20

Gegeben ist die empirische Verteilungsfunktion F(x) von 50 Beobachtungen im folgenden Diagramm.

Berechnen Sie die folgenden Größen und geben Sie die Antwort auf mindestens zwei Nachkommastellen gerundet an (kein Bruch)!

Die Spannweite R=

Das arithmetische Mittel \overline{x}=

F(0)=

Der Median x_\text{med}=

H(26)=

h(-5)=

  • Die Spannweite R= 35
  • Das arithmetische Mittel \overline{x}= 10.7
  • F(0)= 0.42
  • Der Median x_\text{med}= 10
  • H(26)= 45
  • h(-5)= 7

Gegeben ist die empirische Verteilungsfunktion F(x) von 25 Beobachtungen im folgenden Diagramm.

Berechnen Sie die folgenden Größen und geben Sie die Antwort auf mindestens zwei Nachkommastellen gerundet an (kein Bruch)!

Der Median x_\text{med}=

Die Spannweite R=

f(-10)=

Das arithmetische Mittel \overline{x}=

F(11)=

h(30)=

  • Der Median x_\text{med}= 10
  • Die Spannweite R= 35
  • f(-10)= 0
  • Das arithmetische Mittel \overline{x}= 11.6
  • F(11)= 0.52
  • h(30)= 2