Baza danych: AirQualityUCI

Source of data: https://archive.ics.uci.edu/ml/datasets/Air+Quality

In [47]:

import pandas as pd
df = pd.read_csv('c:/TS/AirQualityUCI.csv', sep=';')
df.head(3)

AirQualityUCI

Jak uzupełnić brakujące dane w dataframe Python?

Informacje o zestawie danych:

Zestaw danych zawiera 9358 wystąpień uśrednionych co godzinę odpowiedzi z szeregu 5 czujników chemicznych tlenków metali osadzonych w wieloczujnikowym urządzeniu chemicznym jakości powietrza. Urządzenie znajdowało się na polu, w bardzo zanieczyszczonym obszarze, na poziomie drogi, w włoskim mieście. Dane były rejestrowane od marca 2004 r. Do lutego 2005 r. (Jeden rok), reprezentując najdłuższe i swobodnie dostępne zapisy odpowiedzi czujników chemicznych jakości powietrza rozmieszczonych w terenie. Uśrednione co godzinę uśrednione stężenia prawdy dla CO, węglowodorów niemetanowych, benzenu, tlenków azotu ogółem (NOx) i dwutlenku azotu (NO2) i zostały dostarczone przez certyfikowany analizator referencyjny z tej samej lokalizacji. Dowody wrażliwości krzyżowej, jak również dryftu koncepcji i czujnika są obecne, jak opisano w De Vito i in., Sens. I Act. B, t. 129,2, 2008 (wymagany cytat) ostatecznie wpływa na możliwości szacowania stężeń czujników. Brakujące wartości są oznaczone wartością -200.

Jak uzupełnić brakujące dane w dataframe Python?

Informacje o atrybucie:

0 Date
1 Time, Czas (GG.MM.SS)
2 CO(GT) Rzeczywiste uśrednione godzinne stężenie CO w mg / m ^ 3 (analizator referencyjny)
3 PT08.S1 (tlenek cyny) uśredniona co godzinę reakcja czujnika (nominalnie ukierunkowana na CO )
4 NMHC(GT) Rzeczywiste uśrednione godzinne ogólne stężenie węglowodorów niemetanicznych w mikrog / m ^ 3 (analizator referencyjny)
5 C6H6(GT) Rzeczywiste uśrednione godzinne stężenie benzenu w mikrog / m ^ 3 (analizator referencyjny)
6 PT08.S2(NMHC) (Tytania) uśredniona co godzinę reakcja czujnika (nominalnie NMHC ukierunkowane)
7 NOx(GT) Rzeczywiste uśrednione godzinne stężenie NOx w ppb (analizator referencyjny)
8 PT08.S3(NOx) (tlenek wolframu) uśredniona co godzinę odpowiedź czujnika (nominalnie ukierunkowane na NOx)
9 NO2(GT) Prawdziwie uśrednione godzinne stężenie NO2 w mikrog / m ^ 3 (analizator referencyjny)
10 PT08.S4(NO2) (tlenek wolframu) uśredniona godzinowo reakcja czujnika (nominalnie ukierunkowane na NO2)
11 PT08.S5(O3) (tlenek indu) godzinna uśredniona reakcja czujnika (nominalnie ukierunkowane na O3)
12 T Temperatura w ° C
13 RH Wilgotność względna 
14 AH Wilgotność bezwzględna

Jak uzupełnić brakujące dane w dataframe Python?
</span>

Sprawdzamy kompletność danych

df.isnull().sum()

Date              114
Time              114
CO(GT)            114
PT08.S1(CO)       114
NMHC(GT)          114
C6H6(GT)          114
PT08.S2(NMHC)     114
NOx(GT)           114
PT08.S3(NOx)      114
NO2(GT)           114
PT08.S4(NO2)      114
PT08.S5(O3)       114
T                 114
RH                114
AH                114
Unnamed: 15      9471
Unnamed: 16      9471
dtype: int64

#df = df.dropna(how='any')
#df.isnull().sum()

df.head()

df.shape

(9471, 17)

del df['Unnamed: 15']
del df['Unnamed: 16']

df.isnull().sum()

Date             114
Time             114
CO(GT)           114
PT08.S1(CO)      114
NMHC(GT)         114
C6H6(GT)         114
PT08.S2(NMHC)    114
NOx(GT)          114
PT08.S3(NOx)     114
NO2(GT)          114
PT08.S4(NO2)     114
PT08.S5(O3)      114
T                114
RH               114
AH               114
dtype: int64

df[df['NMHC(GT)'].isnull()]

df = df.dropna(how='all')
df.isnull().sum()

Date             0
Time             0
CO(GT)           0
PT08.S1(CO)      0
NMHC(GT)         0
C6H6(GT)         0
PT08.S2(NMHC)    0
NOx(GT)          0
PT08.S3(NOx)     0
NO2(GT)          0
PT08.S4(NO2)     0
PT08.S5(O3)      0
T                0
RH               0
AH               0
dtype: int64

Szukamy zmiennych o wartości -200 ponieważ to oznacza, że nie ma tam danych.

import numpy as np

df = df.replace(-200,np.NaN)
df = df.replace('-200',np.NaN)
df = df.replace('-200.0',np.NaN)
df = df.replace('-200,0',np.NaN)

df.isnull().sum()

Date                0
Time                0
CO(GT)           1683
PT08.S1(CO)       366
NMHC(GT)         8443
C6H6(GT)          366
PT08.S2(NMHC)     366
NOx(GT)          1639
PT08.S3(NOx)      366
NO2(GT)          1642
PT08.S4(NO2)      366
PT08.S5(O3)       366
T                 366
RH                366
AH                366
dtype: int64

Wykres struktury brskujścych danych

import seaborn as sns

sns.heatmap(df.isnull(),yticklabels=False,cbar=False,cmap='viridis')

<matplotlib.axes._subplots.AxesSubplot at 0x1d737eef1d0>

Zmienna NMHC(GT) jest najbardziej niekompletna eliminujemy ją z badań

del df['NMHC(GT)']

Wyświetlamy rekordy z brakującymi danymi Funkcja isna()

df1 = df[df.isna().any(axis=1)]
df1

CO(GT) brakuje tam danych co kilka pomiarów, trzeba sprawdzić z czy się ta zmiennna koreluje

df.dtypes

Date              object
Time              object
CO(GT)            object
PT08.S1(CO)      float64
C6H6(GT)          object
PT08.S2(NMHC)    float64
NOx(GT)          float64
PT08.S3(NOx)     float64
NO2(GT)          float64
PT08.S4(NO2)     float64
PT08.S5(O3)      float64
T                 object
RH                object
AH                object
dtype: object

# df['CO(GT)'].astype(float)

ValueError: could not convert string to float: ‘2,6’

Zamieniamy przecinki na kropki

df['CO(GT)'] = df['CO(GT)'].str.replace(',','.')
df['C6H6(GT)'] = df['C6H6(GT)'].str.replace(',','.')
df['T'] = df['T'].str.replace(',','.')
df['RH'] = df['RH'].str.replace(',','.')
df['AH'] = df['AH'].str.replace(',','.')

Zmieniamy format z object na float

df[['CO(GT)','C6H6(GT)', 'T','RH','AH']] = df[['CO(GT)','C6H6(GT)', 'T','RH','AH']].astype(float)

df.dtypes

Date              object
Time              object
CO(GT)           float64
PT08.S1(CO)      float64
C6H6(GT)         float64
PT08.S2(NMHC)    float64
NOx(GT)          float64
PT08.S3(NOx)     float64
NO2(GT)          float64
PT08.S4(NO2)     float64
PT08.S5(O3)      float64
T                float64
RH               float64
AH               float64
dtype: object

Teraz możemy sprawdzić poziom korelacji bezpośredniej

df.corr()

Uzupełnianie braków w zmiennej CO(GT)

Sprawdzam z czym jest mocno skorelowana ta zmienna i uzupełniam na podstawie tej zmiennej jak nie to uzupełniam jako ostatnią lub następną wartość.

df.corr()

df.dtypes

print('brakuje wartości: ',df['CO(GT)'].isnull().sum())

brakuje wartości:  1683

brakuje wartości:  383

brakuje wartości:  370

brakuje wartości:  0

brakuje wartości:  366

brakuje wartości:  0

brakuje wartości:  1639

brakuje wartości:  0

brakuje wartości:  1642

brakuje wartości:  0

CORREL = df.corr()
CORREL['CO(GT)'].to_frame().sort_values('CO(GT)')

Największa korelacja z CO(GT) występuje dla C6H6(GT) które jest dość kompletne. Na bazie tej zmiennej uzupełniam braki w CO(GT).

df['CO(GT)'] = df.groupby('C6H6(GT)')['CO(GT)'].apply(lambda x: x.ffill().bfill())

print('brakuje wartości: ',df['CO(GT)'].isnull().sum())

brakuje wartości:  383

brakuje wartości:  370

brakuje wartości:  0

brakuje wartości:  366

brakuje wartości:  0

brakuje wartości:  1639

brakuje wartości:  0

brakuje wartości:  1642

brakuje wartości:  0

<matplotlib.axes._subplots.AxesSubplot at 0x1d73821d7b8>

df['CO(GT)'] = df.groupby('PT08.S1(CO)')['CO(GT)'].apply(lambda x: x.ffill().bfill())

print('brakuje wartości: ',df['CO(GT)'].isnull().sum())

brakuje wartości:  370

brakuje wartości:  0

brakuje wartości:  366

brakuje wartości:  0

brakuje wartości:  1639

brakuje wartości:  0

brakuje wartości:  1642

brakuje wartości:  0

<matplotlib.axes._subplots.AxesSubplot at 0x1d73821d7b8>

(9357, 14)

Teraz robie uzupełnianie proste – ostatnia dobra wartość

df['CO(GT)'].fillna(method='ffill', inplace=True)

print('brakuje wartości: ',df['CO(GT)'].isnull().sum())

brakuje wartości:  0

brakuje wartości:  366

brakuje wartości:  0

brakuje wartości:  1639

brakuje wartości:  0

brakuje wartości:  1642

brakuje wartości:  0

<matplotlib.axes._subplots.AxesSubplot at 0x1d73821d7b8>

(9357, 14)

(9357, 14)

Uzupełnianie braków w zmiennej ‘C6H6(GT)’

print('brakuje wartości: ',df['C6H6(GT)'].isnull().sum())

brakuje wartości:  366

brakuje wartości:  0

brakuje wartości:  1639

brakuje wartości:  0

brakuje wartości:  1642

brakuje wartości:  0

<matplotlib.axes._subplots.AxesSubplot at 0x1d73821d7b8>

(9357, 14)

(9357, 14)

<matplotlib.axes._subplots.AxesSubplot at 0x1d738275a58>

df['C6H6(GT)'] = df.groupby('CO(GT)')['C6H6(GT)'].apply(lambda x: x.ffill().bfill())

print('brakuje wartości: ',df['C6H6(GT)'].isnull().sum())

brakuje wartości:  0

brakuje wartości:  1639

brakuje wartości:  0

brakuje wartości:  1642

brakuje wartości:  0

<matplotlib.axes._subplots.AxesSubplot at 0x1d73821d7b8>

(9357, 14)

(9357, 14)

<matplotlib.axes._subplots.AxesSubplot at 0x1d738275a58>

Date             0
Time             0
CO(GT)           0
PT08.S1(CO)      0
C6H6(GT)         0
PT08.S2(NMHC)    0
NOx(GT)          0
PT08.S3(NOx)     0
NO2(GT)          0
PT08.S4(NO2)     0
PT08.S5(O3)      0
T                0
RH               0
AH               0
dtype: int64

Uzupełnianie braków w zmiennej ‘NOx(GT)’

print('brakuje wartości: ',df['NOx(GT)'].isnull().sum())

brakuje wartości:  1639

brakuje wartości:  0

brakuje wartości:  1642

brakuje wartości:  0

<matplotlib.axes._subplots.AxesSubplot at 0x1d73821d7b8>

(9357, 14)

(9357, 14)

<matplotlib.axes._subplots.AxesSubplot at 0x1d738275a58>

Date             0
Time             0
CO(GT)           0
PT08.S1(CO)      0
C6H6(GT)         0
PT08.S2(NMHC)    0
NOx(GT)          0
PT08.S3(NOx)     0
NO2(GT)          0
PT08.S4(NO2)     0
PT08.S5(O3)      0
T                0
RH               0
AH               0
dtype: int64

CORREL['NOx(GT)'].to_frame().sort_values('NOx(GT)')

df['NOx(GT)'] = df.groupby('CO(GT)')['NOx(GT)'].apply(lambda x: x.ffill().bfill())

print('brakuje wartości: ',df['NOx(GT)'].isnull().sum())

brakuje wartości:  0

brakuje wartości:  1642

brakuje wartości:  0

<matplotlib.axes._subplots.AxesSubplot at 0x1d73821d7b8>

(9357, 14)

(9357, 14)

<matplotlib.axes._subplots.AxesSubplot at 0x1d738275a58>

Date             0
Time             0
CO(GT)           0
PT08.S1(CO)      0
C6H6(GT)         0
PT08.S2(NMHC)    0
NOx(GT)          0
PT08.S3(NOx)     0
NO2(GT)          0
PT08.S4(NO2)     0
PT08.S5(O3)      0
T                0
RH               0
AH               0
dtype: int64

Uzupełnianie braków w zmiennej ‘NO2(GT)’

print('brakuje wartości: ',df['NO2(GT)'].isnull().sum())

brakuje wartości:  1642

brakuje wartości:  0

<matplotlib.axes._subplots.AxesSubplot at 0x1d73821d7b8>

(9357, 14)

(9357, 14)

<matplotlib.axes._subplots.AxesSubplot at 0x1d738275a58>

Date             0
Time             0
CO(GT)           0
PT08.S1(CO)      0
C6H6(GT)         0
PT08.S2(NMHC)    0
NOx(GT)          0
PT08.S3(NOx)     0
NO2(GT)          0
PT08.S4(NO2)     0
PT08.S5(O3)      0
T                0
RH               0
AH               0
dtype: int64

CORREL['NO2(GT)'].to_frame().sort_values('NO2(GT)')

df['NO2(GT)'] = df.groupby('PT08.S5(O3)')['NO2(GT)'].apply(lambda x: x.ffill().bfill())

df['NO2(GT)'] = df.groupby('CO(GT)')['NO2(GT)'].apply(lambda x: x.ffill().bfill())

print('brakuje wartości: ',df['NO2(GT)'].isnull().sum())

brakuje wartości:  0

<matplotlib.axes._subplots.AxesSubplot at 0x1d73821d7b8>

(9357, 14)

(9357, 14)

<matplotlib.axes._subplots.AxesSubplot at 0x1d738275a58>

Date             0
Time             0
CO(GT)           0
PT08.S1(CO)      0
C6H6(GT)         0
PT08.S2(NMHC)    0
NOx(GT)          0
PT08.S3(NOx)     0
NO2(GT)          0
PT08.S4(NO2)     0
PT08.S5(O3)      0
T                0
RH               0
AH               0
dtype: int64

sns.heatmap(df.isnull(),yticklabels=False,cbar=False,cmap='YlGnBu')

<matplotlib.axes._subplots.AxesSubplot at 0x1d73821d7b8>

(9357, 14)

(9357, 14)

<matplotlib.axes._subplots.AxesSubplot at 0x1d738275a58>

Date             0
Time             0
CO(GT)           0
PT08.S1(CO)      0
C6H6(GT)         0
PT08.S2(NMHC)    0
NOx(GT)          0
PT08.S3(NOx)     0
NO2(GT)          0
PT08.S4(NO2)     0
PT08.S5(O3)      0
T                0
RH               0
AH               0
dtype: int64

Uzupełniam rekordy gdzie całe urządzenie pomiarowe nie pracowało

Na rysunku widać to jako linie ciągłe.

df.shape

(9357, 14)

df.fillna(method='ffill', inplace=True)

df.shape

(9357, 14)

sns.heatmap(df.isnull(),yticklabels=False,cbar=False,cmap='Reds')

<matplotlib.axes._subplots.AxesSubplot at 0x1d738275a58>

Date             0
Time             0
CO(GT)           0
PT08.S1(CO)      0
C6H6(GT)         0
PT08.S2(NMHC)    0
NOx(GT)          0
PT08.S3(NOx)     0
NO2(GT)          0
PT08.S4(NO2)     0
PT08.S5(O3)      0
T                0
RH               0
AH               0
dtype: int64

df.isnull().sum()

Date             0
Time             0
CO(GT)           0
PT08.S1(CO)      0
C6H6(GT)         0
PT08.S2(NMHC)    0
NOx(GT)          0
PT08.S3(NOx)     0
NO2(GT)          0
PT08.S4(NO2)     0
PT08.S5(O3)      0
T                0
RH               0
AH               0
dtype: int64

Dane zostały uzupełnione

Jak uzupełnić brakujące dane w dataframe Python?

	Date	Time	CO(GT)	PT08.S1(CO)	NMHC(GT)	C6H6(GT)	PT08.S2(NMHC)	NOx(GT)	PT08.S3(NOx)	NO2(GT)	PT08.S4(NO2)	PT08.S5(O3)	T	RH	AH	Unnamed: 15	Unnamed: 16
0	10/03/2004	18.00.00	2,6	1360.0	150.0	11,9	1046.0	166.0	1056.0	113.0	1692.0	1268.0	13,6	48,9	0,7578	NaN	NaN
1	10/03/2004	19.00.00	2	1292.0	112.0	9,4	955.0	103.0	1174.0	92.0	1559.0	972.0	13,3	47,7	0,7255	NaN	NaN
2	10/03/2004	20.00.00	2,2	1402.0	88.0	9,0	939.0	131.0	1140.0	114.0	1555.0	1074.0	11,9	54,0	0,7502	NaN	NaN

	Date	Time	CO(GT)	PT08.S1(CO)	NMHC(GT)	C6H6(GT)	PT08.S2(NMHC)	NOx(GT)	PT08.S3(NOx)	NO2(GT)	PT08.S4(NO2)	PT08.S5(O3)	T	RH	AH	Unnamed: 15	Unnamed: 16
0	10/03/2004	18.00.00	2,6	1360.0	150.0	11,9	1046.0	166.0	1056.0	113.0	1692.0	1268.0	13,6	48,9	0,7578	NaN	NaN
1	10/03/2004	19.00.00	2	1292.0	112.0	9,4	955.0	103.0	1174.0	92.0	1559.0	972.0	13,3	47,7	0,7255	NaN	NaN
2	10/03/2004	20.00.00	2,2	1402.0	88.0	9,0	939.0	131.0	1140.0	114.0	1555.0	1074.0	11,9	54,0	0,7502	NaN	NaN
3	10/03/2004	21.00.00	2,2	1376.0	80.0	9,2	948.0	172.0	1092.0	122.0	1584.0	1203.0	11,0	60,0	0,7867	NaN	NaN
4	10/03/2004	22.00.00	1,6	1272.0	51.0	6,5	836.0	131.0	1205.0	116.0	1490.0	1110.0	11,2	59,6	0,7888	NaN	NaN

	Date	Time	CO(GT)	PT08.S1(CO)	C6H6(GT)	PT08.S2(NMHC)	NOx(GT)	PT08.S3(NOx)	NO2(GT)	PT08.S4(NO2)	PT08.S5(O3)	T	RH	AH
9	11/03/2004	03.00.00	0,6	1010.0	1,7	561.0	NaN	1705.0	NaN	1235.0	501.0	10,3	60,2	0,7517
10	11/03/2004	04.00.00	NaN	1011.0	1,3	527.0	21.0	1818.0	34.0	1197.0	445.0	10,1	60,5	0,7465
33	12/03/2004	03.00.00	0,8	889.0	1,9	574.0	NaN	1680.0	NaN	1187.0	512.0	7,0	62,3	0,6261
34	12/03/2004	04.00.00	NaN	831.0	1,1	506.0	21.0	1893.0	32.0	1134.0	384.0	6,1	65,9	0,6248
39	12/03/2004	09.00.00	NaN	1545.0	22,1	1353.0	NaN	767.0	NaN	2058.0	1588.0	9,2	56,2	0,6561
57	13/03/2004	03.00.00	1,7	1172.0	5,4	783.0	NaN	1179.0	NaN	1380.0	996.0	7,8	67,5	0,7173
58	13/03/2004	04.00.00	NaN	1147.0	6,2	821.0	109.0	1132.0	83.0	1412.0	992.0	7,0	71,1	0,7158
81	14/03/2004	03.00.00	2,4	1344.0	9,7	968.0	NaN	921.0	NaN	1620.0	1278.0	11,6	63,4	0,8674
82	14/03/2004	04.00.00	NaN	1130.0	5,2	773.0	70.0	1130.0	82.0	1452.0	1051.0	12,1	61,1	0,8603
105	15/03/2004	03.00.00	1,1	1078.0	4,4	734.0	NaN	1128.0	NaN	1487.0	1021.0	12,6	63,5	0,9230
106	15/03/2004	04.00.00	NaN	1078.0	4,0	711.0	66.0	1150.0	71.0	1468.0	1013.0	12,3	65,4	0,9351
129	16/03/2004	03.00.00	0,7	929.0	2,3	608.0	NaN	1376.0	NaN	1364.0	826.0	13,6	62,1	0,9636
130	16/03/2004	04.00.00	NaN	941.0	2,6	626.0	59.0	1316.0	59.0	1373.0	840.0	12,3	66,2	0,9450
153	17/03/2004	03.00.00	0,7	933.0	2,6	625.0	NaN	1292.0	NaN	1332.0	884.0	13,1	57,9	0,8666
154	17/03/2004	04.00.00	NaN	883.0	1,9	577.0	54.0	1396.0	60.0	1303.0	808.0	12,7	57,9	0,8447
177	18/03/2004	03.00.00	0,7	970.0	3,6	687.0	NaN	1196.0	NaN	1351.0	969.0	13,9	53,9	0,8501
178	18/03/2004	04.00.00	NaN	954.0	2,9	645.0	60.0	1260.0	78.0	1334.0	925.0	11,6	61,9	0,8442
201	19/03/2004	03.00.00	0,7	961.0	2,5	622.0	NaN	1382.0	NaN	1301.0	430.0	12,5	67,5	0,9768
202	19/03/2004	04.00.00	NaN	934.0	1,8	569.0	20.0	1440.0	32.0	1280.0	397.0	12,3	67,7	0,9665
225	20/03/2004	03.00.00	1,3	997.0	3,4	677.0	NaN	1252.0	NaN	1359.0	591.0	13,8	55,1	0,8666
226	20/03/2004	04.00.00	NaN	945.0	2,9	646.0	44.0	1308.0	55.0	1332.0	505.0	13,8	54,6	0,8574
249	21/03/2004	03.00.00	1,6	1195.0	6,5	836.0	NaN	987.0	NaN	1554.0	885.0	15,2	57,9	0,9941
250	21/03/2004	04.00.00	NaN	1117.0	5,8	802.0	85.0	1029.0	87.0	1539.0	818.0	15,4	57,8	1,0021
273	22/03/2004	03.00.00	0,4	842.0	0,7	468.0	NaN	1813.0	NaN	1274.0	394.0	16,9	53,9	1,0309
274	22/03/2004	04.00.00	NaN	854.0	0,8	481.0	17.0	1756.0	27.0	1304.0	396.0	16,1	55,9	1,0153
297	23/03/2004	03.00.00	0,5	892.0	1,2	522.0	NaN	1522.0	NaN	1285.0	456.0	11,0	70,0	0,9215
298	23/03/2004	04.00.00	NaN	855.0	0,8	478.0	20.0	1701.0	31.0	1261.0	401.0	10,1	76,8	0,9483
321	24/03/2004	03.00.00	0,6	878.0	1,6	551.0	NaN	1493.0	NaN	1272.0	683.0	10,6	61,6	0,7856
322	24/03/2004	04.00.00	NaN	908.0	1,7	559.0	44.0	1477.0	66.0	1287.0	721.0	10,2	62,7	0,7813
333	24/03/2004	15.00.00	NaN	1112.0	6,7	842.0	100.0	1015.0	91.0	1494.0	680.0	11,3	63,9	0,8554
…	…	…	…	…	…	…	…	…	…	…	…	…	…	…
8601	04/03/2005	03.00.00	1,2	982.0	2,5	617.0	NaN	891.0	NaN	977.0	1024.0	4,5	70,6	0,6004
8625	05/03/2005	03.00.00	1,5	1041.0	4,4	732.0	NaN	789.0	NaN	1003.0	1076.0	4,9	62,6	0,5477
8626	05/03/2005	04.00.00	NaN	1009.0	4,0	710.0	191.0	819.0	136.0	974.0	1011.0	4,4	63,9	0,5385
8649	06/03/2005	03.00.00	0,8	856.0	1,5	545.0	NaN	1166.0	NaN	803.0	398.0	7,2	47,3	0,4830
8673	07/03/2005	03.00.00	0,6	841.0	0,7	470.0	NaN	1311.0	NaN	708.0	289.0	5,3	51,0	0,4563
8697	08/03/2005	03.00.00	0,8	876.0	1,9	576.0	NaN	1040.0	NaN	815.0	900.0	1,0	56,7	0,3803
8698	08/03/2005	04.00.00	NaN	872.0	1,7	558.0	114.0	1054.0	101.0	807.0	853.0	0,5	59,4	0,3841
8721	09/03/2005	03.00.00	0,8	937.0	2,2	600.0	NaN	985.0	NaN	873.0	885.0	4,7	53,1	0,4589
8745	10/03/2005	03.00.00	1,1	1014.0	4,4	731.0	NaN	784.0	NaN	1062.0	1038.0	4,6	78,2	0,6684
8755	10/03/2005	13.00.00	2,3	1176.0	9,8	969.0	NaN	612.0	NaN	1196.0	1300.0	18,8	26,2	0,5637
8770	11/03/2005	04.00.00	NaN	942.0	3,2	665.0	134.0	923.0	91.0	912.0	956.0	4,4	56,4	0,4761
8777	11/03/2005	11.00.00	3,0	NaN	NaN	NaN	812.0	NaN	235.0	NaN	NaN	NaN	NaN	NaN
8794	12/03/2005	04.00.00	NaN	1015.0	2,3	608.0	113.0	873.0	85.0	1027.0	655.0	10,3	59,4	0,7459
8795	12/03/2005	05.00.00	NaN	979.0	1,5	547.0	73.0	952.0	55.0	1039.0	470.0	9,8	68,9	0,8329
8796	12/03/2005	06.00.00	NaN	972.0	1,5	542.0	103.0	1029.0	65.0	1056.0	443.0	9,2	75,3	0,8764
8797	12/03/2005	07.00.00	NaN	992.0	1,8	565.0	121.0	912.0	84.0	1074.0	547.0	9,4	73,1	0,8621
8817	13/03/2005	03.00.00	NaN	940.0	2,0	583.0	93.0	942.0	69.0	991.0	416.0	12,7	51,8	0,7574
8818	13/03/2005	04.00.00	NaN	963.0	2,5	617.0	85.0	902.0	63.0	1006.0	398.0	13,2	49,7	0,7503
8819	13/03/2005	05.00.00	NaN	971.0	2,0	585.0	79.0	928.0	61.0	1004.0	394.0	12,3	55,9	0,7966
8820	13/03/2005	06.00.00	NaN	887.0	0,9	488.0	55.0	1184.0	42.0	908.0	312.0	13,3	50,1	0,7624
8821	13/03/2005	07.00.00	NaN	944.0	1,6	551.0	98.0	1063.0	68.0	985.0	381.0	12,3	51,8	0,7384
8822	13/03/2005	08.00.00	NaN	970.0	2,1	592.0	190.0	909.0	120.0	1018.0	509.0	12,9	50,4	0,7448
8842	14/03/2005	04.00.00	NaN	1036.0	2,8	636.0	122.0	845.0	90.0	1084.0	976.0	8,9	71,9	0,8202
8914	17/03/2005	04.00.00	NaN	959.0	1,9	578.0	100.0	909.0	81.0	1016.0	822.0	10,1	61,9	0,7631
8986	20/03/2005	04.00.00	NaN	993.0	2,8	640.0	85.0	848.0	66.0	1110.0	548.0	13,0	65,3	0,9704
9058	23/03/2005	04.00.00	NaN	993.0	2,3	604.0	85.0	848.0	65.0	1160.0	762.0	14,5	66,4	1,0919
9130	26/03/2005	04.00.00	NaN	1122.0	6,0	811.0	181.0	641.0	92.0	1336.0	1122.0	16,2	71,2	1,3013
9202	29/03/2005	04.00.00	NaN	883.0	1,3	530.0	63.0	997.0	46.0	1102.0	617.0	13,7	68,2	1,0611
9274	01/04/2005	04.00.00	NaN	818.0	0,8	473.0	47.0	1257.0	41.0	898.0	323.0	13,7	48,8	0,7606
9346	04/04/2005	04.00.00	NaN	864.0	0,8	478.0	52.0	1116.0	43.0	958.0	489.0	11,8	56,0	0,7743

	CO(GT)	PT08.S1(CO)	C6H6(GT)	PT08.S2(NMHC)	NOx(GT)	PT08.S3(NOx)	NO2(GT)	PT08.S4(NO2)	PT08.S5(O3)	T	RH	AH
CO(GT)	1.000000	0.879288	0.931078	0.915514	0.795028	-0.703446	0.683343	0.630703	0.854182	0.022109	0.048890	0.048556
PT08.S1(CO)	0.879288	1.000000	0.883795	0.892964	0.713654	-0.771938	0.641529	0.682881	0.899324	0.048627	0.114606	0.135324
C6H6(GT)	0.931078	0.883795	1.000000	0.981950	0.718839	-0.735744	0.614474	0.765731	0.865689	0.198956	-0.061681	0.167972
PT08.S2(NMHC)	0.915514	0.892964	0.981950	1.000000	0.704435	-0.796703	0.646245	0.777254	0.880578	0.241373	-0.090380	0.186933
NOx(GT)	0.795028	0.713654	0.718839	0.704435	1.000000	-0.655707	0.763111	0.233731	0.787046	-0.269683	0.221032	-0.149323
PT08.S3(NOx)	-0.703446	-0.771938	-0.735744	-0.796703	-0.655707	1.000000	-0.652083	-0.538468	-0.796569	-0.145112	-0.056740	-0.232017
NO2(GT)	0.683343	0.641529	0.614474	0.646245	0.763111	-0.652083	1.000000	0.157360	0.708128	-0.186533	-0.091759	-0.335022
PT08.S4(NO2)	0.630703	0.682881	0.765731	0.777254	0.233731	-0.538468	0.157360	1.000000	0.591144	0.561270	-0.032188	0.629641
PT08.S5(O3)	0.854182	0.899324	0.865689	0.880578	0.787046	-0.796569	0.708128	0.591144	1.000000	-0.027172	0.124956	0.070751
T	0.022109	0.048627	0.198956	0.241373	-0.269683	-0.145112	-0.186533	0.561270	-0.027172	1.000000	-0.578621	0.656397
RH	0.048890	0.114606	-0.061681	-0.090380	0.221032	-0.056740	-0.091759	-0.032188	0.124956	-0.578621	1.000000	0.167971
AH	0.048556	0.135324	0.167972	0.186933	-0.149323	-0.232017	-0.335022	0.629641	0.070751	0.656397	0.167971	1.000000

THE DATA SCIENCE LIBRARY

Wojciech Moszczyński

Jak uzupełnić brakujące dane w dataframe Python?

Linear Regression model in Python Sklearn part 1 [Polish Version]

Jak uzupełnić brakujące dane w dataframe Python?

Baza danych: AirQualityUCI

AirQualityUCI

Informacje o zestawie danych:

Informacje o atrybucie:

Sprawdzamy kompletność danych

Zamieniamy przecinki na kropki

Zmieniamy format z object na float

Uzupełnianie braków w zmiennej CO(GT)

Uzupełnianie braków w zmiennej ‘C6H6(GT)’

Uzupełnianie braków w zmiennej ‘NOx(GT)’

Uzupełnianie braków w zmiennej ‘NO2(GT)’

Uzupełniam rekordy gdzie całe urządzenie pomiarowe nie pracowało

	Date	Time	CO(GT)	PT08.S1(CO)	NMHC(GT)	C6H6(GT)	PT08.S2(NMHC)	NOx(GT)	PT08.S3(NOx)	NO2(GT)	PT08.S4(NO2)	PT08.S5(O3)	T	RH	AH
9357	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN
9358	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN
9359	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN
9360	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN
9361	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN
9362	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN
9363	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN
9364	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN
9365	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN
9366	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN
9367	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN
9368	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN
9369	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN
9370	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN
9371	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN
9372	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN
9373	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN
9374	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN
9375	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN
9376	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN
9377	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN
9378	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN
9379	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN
9380	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN
9381	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN
9382	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN
9383	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN
9384	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN
9385	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN
9386	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN
…	…	…	…	…	…	…	…	…	…	…	…	…	…	…	…
9441	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN
9442	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN
9443	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN
9444	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN
9445	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN
9446	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN
9447	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN
9448	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN
9449	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN
9450	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN
9451	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN
9452	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN
9453	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN
9454	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN
9455	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN
9456	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN
9457	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN
9458	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN
9459	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN
9460	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN
9461	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN
9462	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN
9463	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN
9464	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN
9465	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN
9466	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN
9467	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN
9468	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN
9469	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN
9470	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN