panda – THE DATA SCIENCE LIBRARY

Opisywanie statystyczne	`df.describe()`
Opisywanie statystyczne tylko określonych typów kolumn (np. tylko typu: 'object’)	df.describe(include= 'float64′) df.describe(include=’object’)
Opisywanie statystyczne tylko określonych typów kolumn (np. tylko typu: 'number’)	df.describe(include=[np.number])
Wyświetla tylko kolumny typu 'object’	df.describe(include=[„object”]).columns
osdfiltrowanie zmiennych dyskretnych do innego dataframe	cat_sdf = df.select_dtypes(include=[’object’]).copy()
Zaokrąglenie	print({round(celsius, 2)})
Wydrukowanie bez wartości setnych, wydruk z zaokrągleniem	print(’Kendall correlation coefficient: %.3f’ % p_values)
zobaczyć jaki typ danych mają kolumny	df.dtypes
Wyświetanie typu danych np.number	df.select_dtypes(include=[np.number]) df.select_dtypes(’object’) df.select_dtypes(’float’)
ile jest pustych komórek NaN	df.isnull().sum()
Pokazać wszystkie brakujące komórki graficznie w Seaborn fioletowy wykres, wykres braków	import seaborn as sns import matplotlib.pyplot as plt plt.figure(figsize=(10,8)) sns.heatmap(sdf.isnull(),yticklabels=False,cbar=False,cmap=’viridis’)
wiersze z brakującymi danymi w kolumnie AAA (z loc)	df.loc[sdf.AAA.isnull(), :] df[sdf[’Shape Reported’].isnull()]
Ile jest wartości pustych NaN w kolumnie AAA.	df.AAA.isnull().sum()
Pokazywanie outlayersów, wartości odstających, kropki to są wartości odstające!	data.plot(kind=”box”,subplots=True,figsize=(15,5),title=”Data with Outliers”)
Funkcja usuwająca outleyery, usuwa wartości odstające	`def outlier_removal(X,factor): # factor np. 1.5` `X = pd.DataFrame(X).copy()` `for i in range(X.shape[1]):` `x = pd.Series(X.iloc[:,i]).copy()` `q1 = x.quantile(0.25)` `q3 = x.quantile(0.75)` `iqr = q3 - q1` `lower_bound = q1 - (factor * iqr)` `upper_bound = q3 + (factor * iqr)` `X.iloc[((X.iloc[:,i] < lower_bound) \| (X.iloc[:,i] > upper_bound)),i] = np.nan` `return X`