Was ist Pandas?
Pandas ist ein schnelles, leistungsstarkes, flexibles und benutzerfreundliches Open-Source-Tool zur Datenanalyse und -bearbeitung, das auf der Programmiersprache Python basiert.
An dieser Stelle möchte ich Ihnen einen Cheat Sheet für Pandas vorstellen, der locker 95% der Operationen beinhaltet, die Sie für ihre Arbeite mit Pandas jemals benötigen werden.
Allgemeine Infos
Die Pandas Library ist auf NumPy aufgebaut und bietet den einfachen Umgang mit Datenstrukturen und Datenanalysen mit Python.
Modul importieren mit ‘import pandas as pd’
Datenstrukturen
Serie

s = pd.Series([3, -5, 7, 4], index=[‘a’, ‘b’, ‘c’, ‘d’])
Datensatz

data = {'Country': ['Belgium', 'India',
'Brazil'], 'Capital': ['Brussels',
'New Delhi', 'Brasília'], 'Population':
[11190846, 1303171035, 207847528]}
df = pd.DataFrame(data,columns = ['Country',
'Capital', 'Population'])
Lesen und Schreiben
CSV
pd.read_csv('file.csv', header=None, nrows=5)
df.to_csv('myDataFrame.csv')
Excel
pd.read_excel('file.xlsx')
d.to_excel('dir/myDataFrame.xlsx', sheet_name='Sheet1')
# lesen mehrere Blätter derselben Datei
xlsx = pd.ExcelFile('file.xls')
df = pd.read_excel(xlsx, 'Sheet1')
Operationen/Manipulationen
s[‘b’] # Zeige ein Element
df[1:] # Teilmenge des Datensatzes
df.iloc([0],[0]) # Auswahl bei Zeile & Spalte
df.loc([0], ['Country']) # Auswahl von Zeile & Spaltenname
df.ix[2] # Zeile von Teilmenge
df.ix[:,'Capital'] # Spalte von Teilmenge
df.ix[1,'Capital'] # Reihen und Spalten
s[~(s > 1)] # Reihe s Werte nicht >1
s[(s < -1) | (s > 2)] # Reihe s Werte <-1 oder >2
df[df['Population']>1200000000] # Filter für Datensatzanpassungen
s['a'] = 6 # setzt Index a auf 6
s.drop(['a', 'c']) # Streicht Werte der Reihe
df.drop('Country', axis=1) # Streicht Werte der Spalte
df.sort_index() # Sortiert Achsenbenennungen
df.sort_values(by='Country') # Sortiert Werte der Achse
df.rank() # Ordnet Einträgen Ränge zu
df.shape # Form des Datensatzes
df.index # Beschreibt Index
df.columns # Beschreibt Spalten
df.info() # Info über Datensatze
df.count() # Anzahl der non-NA Werte
df.sum() # Summe der Werte
df.cumsum() # Kumulative Summe der Werte
df.min()/df.max() # Minimaler/maximaler Wert
df.idxmin()/df.idxmax() # Minimaler/maximaler Index-Wert
df.describe() # Zusammenfassende Statistik
df.mean() # Mittwelwert
df.median() # Median
s.add(s3, fill_value=0) # Addition
s.sub(s3, fill_value=2) # Subtraktion
s.mul(s3, fill_value=3) # Multiplikation
s.div(s3, fill_value=4) # Division
f = lambda x: x*2 # Funktionen anwenden
df.apply(f) # Funktion anwenden
df.applymap(f) # Elementweise anwenden
# Hilfe
help(pd.Series.loc)