Das Buch „Datenanalyse mit Python“ von Wes McKinney ist bei O’Reilly erschienen und kostet im Handel 44,90€. Die zweite Auflage, auf Deutsch erschienen im Oktober 2018, ist mit 522 Seiten ganz schön umfangreich, man bekommt also schon mal einige Seiten für sein Geld. Die erste Auflage ist übrigens von 2012. Der Untertitel „Auswertung von Daten mit Pandas, Numpy und IPython“ sagt eigentlich schon, dass es im Wesentlichen um die Aufbereitung und Manipulation von strukturierten Daten (Tabellen, Matrizen, Zeitreihen) – englisch data munging –  mittels Pandas und Numpy geht. Datenvisualisierung mittels Matplotlib wird in einem Kapitel beschrieben. ML-Algorithmen und statistische Auswertungen per scikit-learn und statsmodels werden im vorletzten Kapitel angekratzt.

Über den Autor

Der Amerikaner Wes McKinney hat Mathematik am MIT studiert und entwickelt seit 2007 Datenanalyse-Software, hauptsächlich für Python. So ist er der Hauptautor der Python-Bibliothek pandas, um die kein Data Scientist herumkommt. Zudem ist er in Apache Arrow involviert, einer Plattform für In-Memory-Daten, welche mehrere Programmiersprachen unterstützt. In 2018 hat McKinney Ursa Labs zusammen mit Hadley Wickham, den jeder R-Programmierer kennt, gegründet. Ursa Labs ist eine Non-Profit-Organisation, die sich open-source, cross-language Software für Data Science auf die Fahne geschrieben haben.

Die deutsche Übersetzung wurde von Christian Tismer, Kristian Rother und Kathrin Lichtenberg angefertigt.

Inhaltsverzeichnis

  1. Einleitung
  2. Grundlagen von Python, IPython und Jupyter-Notebooks
  3. In Python integrierte Datenstrukturen, Funktionen und Dateien
  4. Grundlagen von NumPy: Arrays und vektorisierte Berechnung
  5. Erste Schritte mit pandas
  6. Laden und Speichern von Daten sowie Dateiformate
  7. Daten bereinigen und vorbereiten
  8. Datenaufbereitung: Verknüpfung, Kombinieren und Umformen
  9. Plotten und Visualisieren
  10. Aggregation von Daten und Gruppenoperationen
  11. Zeitreihen
  12. Pandas für Fortgeschrittenen
  13. Einführung in Modellierungsbibliotheken in Python
  14. Beispiele aus der Datenanalyse

Anhang A: NumPy für Fortgeschrittene

Anhang B: Mehr zum IPython-System

Für wen ist „Datenanalyse mit Python“ geeignet?

Prinzipiell ist das Buch für jeden Python-Programmierer geeignet, der sich mit Datenaufbereitung und –manipulation herumschlagen muss. Das sind vermutlich weniger die reinen Software-Entwickler, sondern eher die Data Engineers und Data Scientists, die zwar meistens noch tiefergehende Analysen machen, aber das sogenannte Data Munging nimmt eben einen großen Teil der Arbeit in Anspruch. Da schadet es nichts, sich damit auszukennen, um effizient und schnell zu programmieren.

Die ersten Kapitel sind sehr elementar und richten sich an diejenigen, die noch nie mit Python, numpy und pandas zu tun hatten. Aber es ist ja ein dickes Buch. Es macht also nichts, wenn man die ersten 100 Seiten überspringen kann. Los geht es also eigentlich in Kapitel 4, in dem die Grundlagen von Numpy behandelt werden.

Fazit

Wer Daten mit Python analysieren will, kommt um die Bibliotheken numpy und pandas nicht herum und das ist genau der Schwerpunkt dieses Buchs. Es beschreibt die Datenstrukturen und Funktionsweisen mit präziser Sprache. Das macht es zwar nicht gerade zu einem einfach zu lesendem Buch, dafür hat es die benötigte Genauigkeit, die man als Programmierer benötigt.

An der ein oder anderen Stelle hätte ich mir praxisnähere Beispiele gewünscht. Hier wurde auf Kürze und Konzentration auf das Wesentliche mehr Wert gelegt. In Kapitel 14 kommen dann aber doch noch einige spannende Beispiele aus der Praxis.

Insgesamt kann ich dieses Buch allen angehenden Data Scientisten, die Python lernen wollen, empfehlen. Es ist nicht mal eben am Wochenende durchgearbeitet, enthält dafür umfangreiches Wissen zu numpy und pandas. So eignet es sich auch später noch als Nachschlagewerk.

Auf der Website von O’Reilly gibt es eine Leseprobe, das gesamte Kapitel 4