median(x) gibt den Median zurück, also den Wert, der an mittlerer Position steht, wenn man die Zahlen der Größe nach ordnet. Bei einer geraden Anzahl wird der Mittelwert der beiden mittleren Zahlen.

Wie auch bei den anderen einfachen Statistik- und Aggregationsfunktionen wie sum, mean, var können mit dem Parameter na.rm=TRUE die fehlenden Werte ignoriert werden. Andernfalls geben diese Funktionen NA zurück, wenn nur einer der Werte NA ist.

Der Median ist ziemlich robust gegenüber Ausreißern (siehe Beispiel) und ist daher in Datensätzen mit Ausreißern zu bevorzugen. Wer mehr wissen will, schaut mal in den Wikipedia-Artikel zum Median.

Mathematisch ist der Median auch definiert für nicht-numerische ordinale Variablen, also für Variablen, die zwar geordnet werden können, aber eben keine Zahlen sind. Unklar ist aber, welcher Wert bei einer geraden Anzahl an Werten der Median ist, es kann ja kein arithmetisches Mittel gebildet werden. Es wird dann je nach Definition der Ober- oder Untermedian verwendet. Das ist aber in Standard-R nicht umgesetzt, dafür benötigt ihr das Package DescTools. Achtung: In dem Package ist die Funktion Median() großgeschrieben. Im Beispiel-Code seht ihr die Anwendung.

Beispiel-Code für median

#ungerade Anzahl an Elementen
median(1:3)
#[1] 2
#gerade Anzahl an Elementen
median(1:10)
#[1] 5.5
 
# Robustheit gegenüber Ausreißern
set.seed(5)
x <- c(rnorm(100),500:510)
range(x)
#[1]  -2.183967 510.000000
mean(x)
#[1] 50.07355
median(x)
#[1] -0.02408287
 
 
#für ordinale Variablen
#einmalige Installation
#install.packages("DescTools")
 
library(DescTools)
buchstaben <- as.factor(c("a","b","c","d","e"))
buchstaben <- as.ordered(buchstaben)
#[1] a b c d e
#Levels: a < b < c < d < e
 
#für ungerade Anzahl
Median(buchstaben)
#[1] c
#Levels: a < b < c < d < e
buchstaben <- as.factor(c("b","c","d","e"))
buchstaben <- as.ordered(buchstaben)
#für gerade Anzahl wird eine Warnung ausgegeben, dass der untere
Median(buchstaben)
#[1] c
#Levels: b < c < d < e
#Warning message:
#  In Median.factor(buchstaben) :
#  Median is between two values; using the first one
LERNE DATA SCIENCE mit R

Ein Data Science Experte ist in der heutigen datengetriebenen Welt viel gefragt. Mit der entsprechenden Erfahrung kann man sich den gutbezahlten, interessanten Job aussuchen. In meinem Onlinekurs Data Science mit R lernst Du die Grundlagen.