pandas

Pandas – Cheat Sheet

Was ist Pandas?

Pandas ist ein schnelles, leistungsstarkes, flexibles und benutzerfreundliches Open-Source-Tool zur Datenanalyse und -bearbeitung, das auf der Programmiersprache Python basiert.

An dieser Stelle möchte ich Ihnen einen Cheat Sheet für Pandas vorstellen, der locker 95% der Operationen beinhaltet, die Sie für ihre Arbeite mit Pandas jemals benötigen werden.

Allgemeine Infos

Die Pandas Library ist auf NumPy aufgebaut und bietet den einfachen Umgang mit Datenstrukturen und Datenanalysen mit Python.
Modul importieren mit ‘import pandas as pd’

Datenstrukturen
Serie
Serie
s = pd.Series([3, -5, 7, 4], index=[‘a’, ‘b’, ‘c’, ‘d’])

Datensatz
Datensatz
data = {'Country': ['Belgium', 'India',
       'Brazil'], 'Capital': ['Brussels',
       'New Delhi', 'Brasília'], 'Population':
       [11190846, 1303171035, 207847528]}
df = pd.DataFrame(data,columns = ['Country',
                  'Capital', 'Population'])


Lesen und Schreiben

CSV

pd.read_csv('file.csv', header=None, nrows=5)
df.to_csv('myDataFrame.csv')

Excel

pd.read_excel('file.xlsx')
d.to_excel('dir/myDataFrame.xlsx', sheet_name='Sheet1')

# lesen mehrere Blätter derselben Datei
xlsx = pd.ExcelFile('file.xls')
df = pd.read_excel(xlsx, 'Sheet1')


Operationen/Manipulationen

s[‘b’]                                    # Zeige ein Element
df[1:]                                    # Teilmenge des Datensatzes
df.iloc([0],[0])                          # Auswahl bei Zeile & Spalte

df.loc([0], ['Country'])                  # Auswahl von Zeile & Spaltenname
df.ix[2]	                          # Zeile von Teilmenge
df.ix[:,'Capital']                        # Spalte von Teilmenge
df.ix[1,'Capital']                        # Reihen und Spalten
s[~(s > 1)]	                          # Reihe s Werte nicht >1
s[(s < -1) | (s > 2)]                     # Reihe s Werte <-1 oder >2
 
df[df['Population']>1200000000]           # Filter für Datensatzanpassungen
 s['a'] = 6	                          # setzt Index a auf 6
s.drop(['a', 'c'])                        # Streicht Werte der Reihe
df.drop('Country', axis=1)                # Streicht Werte der Spalte
df.sort_index()                           # Sortiert Achsenbenennungen
df.sort_values(by='Country')              # Sortiert Werte der Achse

df.rank()                                 # Ordnet Einträgen Ränge zu
df.shape                                  # Form des Datensatzes
df.index	                          # Beschreibt Index
df.columns                                # Beschreibt Spalten
df.info()                                 # Info über Datensatze
df.count()                                # Anzahl der non-NA Werte
df.sum()                                  # Summe der Werte
df.cumsum()                               # Kumulative Summe der Werte             
df.min()/df.max()                         # Minimaler/maximaler Wert
df.idxmin()/df.idxmax()                   # Minimaler/maximaler Index-Wert

df.describe()	                          # Zusammenfassende Statistik
df.mean()	                          # Mittwelwert
df.median()	                          # Median

s.add(s3, fill_value=0)                   # Addition
s.sub(s3, fill_value=2)                   # Subtraktion
s.mul(s3, fill_value=3)                   # Multiplikation
s.div(s3, fill_value=4)                   # Division

f = lambda x: x*2                         # Funktionen anwenden
df.apply(f)	                          # Funktion anwenden
df.applymap(f)                            # Elementweise anwenden

# Hilfe
help(pd.Series.loc)

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert