Hej Leute,

heute stelle ich Euch die supernützliche R-Funktion aggregate vor.

 

Die Funktion aggregate aggregiert Werte mittels einer frei wählbaren Funktion nach Gruppen. Ok, klingt immer noch kompliziert, ist aber eigentlich ganz simpel. Ich teile einen Datensatz in verschiedene Teilmengen (z.B. Altersklassen) und berechne innerhalb jeder Teilmenge eine Kennzahl (z.B. Mittelwert). Denken wir das Beispiel zu Ende, könnten wir die mittlere Körpergröße nach Altersklasse berechnen

Wer mit SQL vertraut ist, der kann an group by denken.

Das Konzept ist extrem flexibel, denn erstens können wir beliebige Formeln zur Gruppierung verwenden, zum anderen kann die Aggregat-Funktion völlig frei definiert werden.

Ich verwende den aggregate-Befehl ständig, z.B. wenn ich mehrere Datensätze zu einem Kunden habe und den ersten/letzten/größten/kleinsten/… Wert einer Variable haben möchte.

 

Hier ein paar Beispiele, die die Funktionsweise zeigen:

Viel Spaß beim Ausprobieren!

 

P.S.: Schaut doch mal bei der Data Science Deutschland Facebookgruppe vorbei.