panda

Opisywanie statystyczne df.describe()
Opisywanie statystyczne tylko określonych typów kolumn (np. tylko typu: 'object’) df.describe(include= 'float64′)
df.describe(include=’object’)
Opisywanie statystyczne tylko określonych typów kolumn (np. tylko typu: 'number’) df.describe(include=[np.number])
Wyświetla tylko kolumny typu 'object’ df.describe(include=[„object”]).columns
osdfiltrowanie zmiennych dyskretnych do innego dataframe cat_sdf = df.select_dtypes(include=[’object’]).copy()
Zaokrąglenie print({round(celsius, 2)})
Wydrukowanie bez wartości setnych, wydruk z zaokrągleniem print(’Kendall correlation coefficient:
zobaczyć jaki typ danych mają kolumny df.dtypes
Wyświetanie typu danych np.number df.select_dtypes(include=[np.number])
df.select_dtypes(’object’)
df.select_dtypes(’float’)
ile jest pustych komórek NaN df.isnull().sum()
Pokazać wszystkie brakujące komórki graficznie w Seaborn

fioletowy wykres, wykres braków

import seaborn as sns
import matplotlib.pyplot as plt

plt.figure(figsize=(10,8))
sns.heatmap(sdf.isnull(),yticklabels=False,cbar=False,cmap=’viridis’)

wiersze z brakującymi danymi w kolumnie AAA (z loc) df.loc[sdf.AAA.isnull(), :]
df[sdf[’Shape Reported’].isnull()]
Ile jest wartości pustych NaN w kolumnie AAA. df.AAA.isnull().sum()
Pokazywanie outlayersów, wartości odstających, kropki to są wartości odstające! data.plot(kind=”box”,subplots=True,figsize=(15,5),title=”Data with Outliers”)

Funkcja usuwająca outleyery, usuwa wartości odstające def outlier_removal(X,factor): # factor np. 1.5
   X = pd.DataFrame(X).copy()
   for i in range(X.shape[1]):
      x = pd.Series(X.iloc[:,i]).copy()
      q1 = x.quantile(0.25)
      q3 = x.quantile(0.75)
      iqr = q3 - q1
      lower_bound = q1 - (factor * iqr)
      upper_bound = q3 + (factor * iqr)
      X.iloc[((X.iloc[:,i] < lower_bound) | (X.iloc[:,i] >             upper_bound)),i] = np.nan
 

return X