Opisywanie statystyczne | df.describe() |
Opisywanie statystyczne tylko określonych typów kolumn (np. tylko typu: 'object’) | df.describe(include= 'float64′) df.describe(include=’object’) |
Opisywanie statystyczne tylko określonych typów kolumn (np. tylko typu: 'number’) | df.describe(include=[np.number]) |
Wyświetla tylko kolumny typu 'object’ | df.describe(include=[„object”]).columns |
osdfiltrowanie zmiennych dyskretnych do innego dataframe | cat_sdf = df.select_dtypes(include=[’object’]).copy() |
Zaokrąglenie | print({round(celsius, 2)}) |
Wydrukowanie bez wartości setnych, wydruk z zaokrągleniem | print(’Kendall correlation coefficient: |
zobaczyć jaki typ danych mają kolumny | df.dtypes |
Wyświetanie typu danych np.number | df.select_dtypes(include=[np.number]) df.select_dtypes(’object’) df.select_dtypes(’float’) |
ile jest pustych komórek NaN | df.isnull().sum() |
Pokazać wszystkie brakujące komórki graficznie w Seaborn
fioletowy wykres, wykres braków |
import seaborn as sns import matplotlib.pyplot as plt plt.figure(figsize=(10,8)) |
wiersze z brakującymi danymi w kolumnie AAA (z loc) | df.loc[sdf.AAA.isnull(), :] df[sdf[’Shape Reported’].isnull()] |
Ile jest wartości pustych NaN w kolumnie AAA. | df.AAA.isnull().sum() |
Pokazywanie outlayersów, wartości odstających, kropki to są wartości odstające! | data.plot(kind=”box”,subplots=True,figsize=(15,5),title=”Data with Outliers”) |
Funkcja usuwająca outleyery, usuwa wartości odstające | def outlier_removal(X,factor): # factor np. 1.5 X = pd.DataFrame(X).copy() for i in range(X.shape[1]): x = pd.Series(X.iloc[:,i]).copy() q1 = x.quantile(0.25) q3 = x.quantile(0.75) iqr = q3 - q1 lower_bound = q1 - (factor * iqr) upper_bound = q3 + (factor * iqr) X.iloc[((X.iloc[:,i] < lower_bound) | (X.iloc[:,i] > upper_bound)),i] = np.nan
|