Exercise 29

Naive Bayes Classifier

Naiwny Bayes to prosta technika konstruowania klasyfikatorów: modele, które przypisują etykiety klas do wystąpień problemowych, reprezentowane jako wektory wartości cech , w których etykiety klas są rysowane z pewnego zbioru skończonego. Nie istnieje jeden algorytm do szkolenia takich klasyfikatorów, ale rodzina algorytmów oparta na wspólnej zasadzie: wszystkie naiwne klasyfikatory Bayesa zakładają, że wartość określonej cechy jest niezależna od wartości innej cechy, biorąc pod uwagę zmienną klasy. Na przykład owoc można uznać za jabłko, jeśli jest czerwone, okrągłe i ma około 10 cm średnicy. Naiwny klasyfikator Bayesa uważa, że każda z tych cech przyczynia się niezależnie do prawdopodobieństwa, że ten owoc jest jabłkiem, niezależnie od wszelkich możliwych korelacje między kolorem, okrągłością i średnicą.

W przypadku niektórych rodzajów modeli prawdopodobieństwa naiwnych klasyfikatorów Bayesa można bardzo skutecznie trenować w nadzorowanym środowisku uczenia się . W wielu praktycznych zastosowaniach estymacja parametrów dla naiwnych modeli Bayesa wykorzystuje metodę maksymalnego prawdopodobieństwa ; innymi słowy, można pracować z naiwnym modelem Bayesa bez akceptacji prawdopodobieństwa bayesowskiego lub przy użyciu jakichkolwiek metod bayesowskich.

Pomimo naiwnego projektu i pozornie uproszczonych założeń, naiwne klasyfikatory Bayesa działały całkiem dobrze w wielu złożonych rzeczywistych sytuacjach. W 2004 r. Analiza problemu klasyfikacji bayesowskiej wykazała, że istnieją uzasadnione teoretyczne powody pozornie nieprawdopodobnej skuteczności naiwnych klasyfikatorów Bayesa. [6] Jednak kompleksowe porównanie z innymi algorytmami klasyfikacji w 2006 r. Wykazało, że klasyfikacja Bayesa jest lepsza niż inne podejścia, takie jak wzmocnione drzewa lub losowe lasy . [7]
Zaletą naiwnych Bayesa jest to, że wymaga jedynie niewielkiej liczby danych treningowych do oszacowania parametrów niezbędnych do klasyfikacji.
źródło: https://en.wikipedia.org/wiki/Naive_Bayes_classifier

import numpy as np
import pandas as pd
import seaborn as sns

from sklearn.preprocessing import LabelEncoder
import matplotlib.pylab as plt
from pylab import plot, show, subplot, specgram, imshow, savefig
from sklearn import preprocessing
from sklearn.preprocessing import Normalizer
from sklearn.preprocessing import Imputer

import matplotlib.pyplot as plote



plt.style.use('ggplot')

df = pd.read_csv('c:/1/bank.csv')
df.head()

Jak w praktyce zastosować Naive Bayes Classifier w marketingu bankowym?

Departament marketingu bankowego niedawno przeprowadził akcję promocyjną. Klienci byli zachęcani do skorzystania z oferty banku – zaciągania kredytów w rachunku bieżącym. Cała operacja została skrupulatnie odnotowana w formie tabeli danych. Tabelę danych można znaleźć pod adresem: https://archive.ics.uci.edu/ml/machine-learning-databases/00222/

Dane klienta banku

age: (numerycznie)

job: rodzaj pracy (kategorycznie: „admin.”, „Pracownik fizyczny”, „przedsiębiorca”, „pokojówka”, „zarządzanie”, „emerytowany”, „samozatrudniony”, „ usługi ”,„ student ”,„ technik ”,„ bezrobotny ”,„ nieznany ”)

marital: stan cywilny (kategorycznie:„ rozwiedziony ”,„ żonaty ”,„ samotny ”,„ nieznany ”; uwaga:„ rozwiedziony ”oznacza rozwiedziony lub owdowiały)

education: (kategoryczne: „podstawowy. 4 lata”, „podstawowy. 6 lat”, „podstawowy. 9 lat”, „szkoła średnia”, „analfabeta”, „kurs zawodowy”, „uniwersytet. stopień”, „nieznane”)

default: czy kredyt jest niespłacony? (kategorycznie: „nie”, „tak”, „nieznany”)

housing: ma kredyt mieszkaniowy? (kategorycznie: „nie”, „tak”, „nieznany”)

loan: czy pożyczka osobista? (kategorycznie: „nie”, „tak”, „nieznany”)
Powiązane z ostatnim kontaktem bieżącej kampanii

contact: typ komunikacji kontaktowej (kategorycznie: „komórkowy”, „telefon”)

month:ostatni miesiąc kontaktowy w roku (kategorycznie: „jan”, „lut”, „mar”, …, „lis”, „dec”)

day_of_week: ostatni dzień tygodnia w tygodniu (kategorycznie: „pon”, „wt”, „środ”, „czw”, „pt”)

duration: czas trwania ostatniego kontaktu, w sekundach (numerycznie) . Ważna uwaga: ten atrybut ma duży wpływ na docelowy wynik (np. Jeśli czas trwania = 0, to y = „nie”). Jednak czas trwania nie jest znany przed wykonaniem połączenia. Ponadto po zakończeniu połączenia y jest oczywiście znane. W związku z tym dane te należy uwzględnić wyłącznie do celów porównawczych i należy je odrzucić, jeżeli intencją jest stworzenie realistycznego modelu predykcyjnego.
Inne atrybuty

campaign: liczba kontaktów wykonanych podczas tej kampanii i dla tego klienta (numerycznie, obejmuje ostatni kontakt)

pdays: liczba dni, które upłynęły od ostatniego kontaktu klienta z poprzedniej kampanii (numerycznie; 999 oznacza, że klient nie był wcześniej skontaktowano się)

previous: liczba kontaktów wykonanych przed tą kampanią i dla tego klienta (numerycznie)

poutcome:wynik poprzedniej kampanii marketingowej (kategorycznie: „porażka”, „nieistniejąca”, „sukces”)
Atrybuty kontekstu społecznego i gospodarczego

emp.var.rate: wskaźnik zmienności zatrudnienia – wskaźnik kwartalny (liczbowy)

Cons.price.idx: wskaźnik cen konsumpcyjnych – wskaźnik miesięczny (liczbowy)

cons.conf.idx: wskaźnik zaufania konsumentów – wskaźnik miesięczny (liczbowy )

euribor3 mln: stawka 3-miesięczna euribor – wskaźnik dzienny (liczbowy)

nr_employed: liczba zatrudnionych: liczba pracowników – wskaźnik kwartalny (liczbowy)

df = pd.read_csv('c:/1/bank.csv')

df.shape

(41188, 23)

Sprawdzamy czy baza zawiera komórki puste, Naive Bayes Classifier nie działa gdy baza zawiera komórki puste.

df.isnull().sum()

Unnamed: 0        0
Unnamed: 0.1      0
age               0
job               0
marital           0
education         0
default           0
housing           0
loan              0
contact           0
month             0
day_of_week       0
duration          0
campaign          0
pdays             0
previous          0
poutcome          0
emp_var_rate      0
cons_price_idx    0
cons_conf_idx     0
euribor3m         0
nr_employed       0
y                 0
dtype: int64

Brak komórek pustych w rejestrze bankowym.

df.head()

Kasujemy z rejestru następujące klumny:

Usuwam kolumny: 'day_of_week’,’month’,’previous’,’campaign’,’duration’, 'contact’, 'y’

df.columns

Index(['age', 'job', 'marital', 'education', 'default', 'housing', 'loan',
       'poutcome', 'emp_var_rate', 'cons_price_idx', 'cons_conf_idx',
       'euribor3m', 'nr_employed', 'y', 'ResultTH09', 'ResultTH08',
       'ResultTH07', 'ResultTH06', 'ResultTH05', 'ResultTH04', 'ResultTH03',
       'ResultTH02', 'Customer_classification'],
      dtype='object')

df = df[['age', 'job', 'marital', 'education','default', 'housing', 'loan', 'poutcome', 'emp_var_rate','cons_price_idx', 'cons_conf_idx', 'euribor3m', 'nr_employed','y']]

df.head(5)

Tworzenie Dummy Variables

Naive Bayes Classifier działa na zmiennych numerycznych. Trzeba więc zamienić zmienne tekstowe na format numeryczny.

Wyświetlamy kolumny zmiennnych dyskretnych

df.describe(include=["object"]).columns

Index(['job', 'marital', 'education', 'default', 'housing', 'loan',
       'poutcome'],
      dtype='object')

list = ['job', 'marital', 'education', 'default', 'housing', 'loan','poutcome']

Transforumjemy na dane dummy variables

df[list] = df[list].apply(LabelEncoder().fit_transform)
df[list].head()

Dzielimy nowy zbiór df na zmienne opisujące i zmienną wynikową.

y = df['y']
X = df.drop('y', axis=1)

Dzielimy zbiór df na zbiór testowy i zbiór treningowy.

from sklearn.model_selection import train_test_split 
Xtrain, Xtest, ytrain, ytest = train_test_split(X,y, test_size=0.33, stratify = y, random_state = 148)

OVERSAMPLING

Dla zbioru df bo zmienna wynikowa nie jest zbilansowana. Oversampling robimy na zmiennych treningowych.

df.y.value_counts(dropna = False, normalize=True)

0    0.887346
1    0.112654
Name: y, dtype: float64

Proporcja = sum(ytrain == 0) / sum(ytrain == 1) 
Proporcja = np.round(Proporcja, decimals=0)
Proporcja = Proporcja.astype(int)
print('Ile na jedną sybskrypcje przypada nieprzedłużonych subskrypcji:',Proporcja)

Ile na jedną sybskrypcje przypada nieprzedłużonych subskrypcji: 8

Ilość zmiennych wynikowych y  w zbiorze treningowym df po replikacji: 24872

Ilość zmiennych niezależnychX  z zbiorze treningowym df po replikacji:

age               24872
job               24872
marital           24872
education         24872
default           24872
housing           24872
loan              24872
poutcome          24872
emp_var_rate      24872
cons_price_idx    24872
cons_conf_idx     24872
euribor3m         24872
nr_employed       24872
dtype: int64

Zbiór X treningowy:  (27595, 13)
Zbiór X testowy:     (13593, 13)
Zbiór y treningowy:  (27595,)
Zbiór y testowy:     (13593,)

GaussianNB(priors=None, var_smoothing=1e-09)

Recall Training data:      0.669
Precision Training data:   0.7853
----------------------------------------------------------------------
Recall Test data:          0.6571
Precision Test data:       0.2769
----------------------------------------------------------------------
Confusion Matrix Test data
[[9435 2627]
 [ 525 1006]]
----------------------------------------------------------------------
              precision    recall  f1-score   support

           0       0.95      0.78      0.86     12062
           1       0.28      0.66      0.39      1531

    accuracy                           0.77     13593
   macro avg       0.61      0.72      0.62     13593
weighted avg       0.87      0.77      0.80     13593

Lista kierownika marketingu bankowego

(41188, 13)

Replikacja zmiennych wynikowych w zbiorze treningowym

ytrain_pos_OVS = pd.concat([ytrain[ytrain==1]] * Proporcja, axis = 0) 
print('Ilość zmiennych wynikowych y  w zbiorze treningowym df po replikacji:' ,ytrain_pos_OVS.count())

Ilość zmiennych wynikowych y  w zbiorze treningowym df po replikacji: 24872

Ilość zmiennych niezależnychX  z zbiorze treningowym df po replikacji:

age               24872
job               24872
marital           24872
education         24872
default           24872
housing           24872
loan              24872
poutcome          24872
emp_var_rate      24872
cons_price_idx    24872
cons_conf_idx     24872
euribor3m         24872
nr_employed       24872
dtype: int64

Zbiór X treningowy:  (27595, 13)
Zbiór X testowy:     (13593, 13)
Zbiór y treningowy:  (27595,)
Zbiór y testowy:     (13593,)

GaussianNB(priors=None, var_smoothing=1e-09)

Recall Training data:      0.669
Precision Training data:   0.7853
----------------------------------------------------------------------
Recall Test data:          0.6571
Precision Test data:       0.2769
----------------------------------------------------------------------
Confusion Matrix Test data
[[9435 2627]
 [ 525 1006]]
----------------------------------------------------------------------
              precision    recall  f1-score   support

           0       0.95      0.78      0.86     12062
           1       0.28      0.66      0.39      1531

    accuracy                           0.77     13593
   macro avg       0.61      0.72      0.62     13593
weighted avg       0.87      0.77      0.80     13593

Lista kierownika marketingu bankowego

(41188, 13)

0    0.737059
1    0.262941
Name: ResultTH05, dtype: float64

Replikacja zmiennych niezależnych w zbiorze treningowym

Xtrain_pos_OVS = pd.concat([Xtrain.loc[ytrain==1, :]] * Proporcja, axis = 0)

ytrain_pos_OVS = pd.concat([ytrain[ytrain==1]] * Proporcja, axis = 0) 
print('Ilość zmiennych niezależnychX  z zbiorze treningowym df po replikacji:')
Xtrain_pos_OVS.count()

Ilość zmiennych niezależnychX  z zbiorze treningowym df po replikacji:

age               24872
job               24872
marital           24872
education         24872
default           24872
housing           24872
loan              24872
poutcome          24872
emp_var_rate      24872
cons_price_idx    24872
cons_conf_idx     24872
euribor3m         24872
nr_employed       24872
dtype: int64

Zbiór X treningowy:  (27595, 13)
Zbiór X testowy:     (13593, 13)
Zbiór y treningowy:  (27595,)
Zbiór y testowy:     (13593,)

GaussianNB(priors=None, var_smoothing=1e-09)

Recall Training data:      0.669
Precision Training data:   0.7853
----------------------------------------------------------------------
Recall Test data:          0.6571
Precision Test data:       0.2769
----------------------------------------------------------------------
Confusion Matrix Test data
[[9435 2627]
 [ 525 1006]]
----------------------------------------------------------------------
              precision    recall  f1-score   support

           0       0.95      0.78      0.86     12062
           1       0.28      0.66      0.39      1531

    accuracy                           0.77     13593
   macro avg       0.61      0.72      0.62     13593
weighted avg       0.87      0.77      0.80     13593

Lista kierownika marketingu bankowego

(41188, 13)

0    0.737059
1    0.262941
Name: ResultTH05, dtype: float64

Wprowadzenie nowych, zreplikowanych zmiennych do zbioru treningowego

ytrain_OVS = pd.concat([ytrain, ytrain_pos_OVS], axis = 0).reset_index(drop = True)
Xtrain_OVS = pd.concat([Xtrain, Xtrain_pos_OVS], axis = 0).reset_index(drop = True)

Sprawdzenie ilość wierszy w zbiorach przed i po oversampling

print ('Zbiór X treningowy: ',Xtrain.shape)
print ('Zbiór X testowy:    ', Xtest.shape)
print ('Zbiór y treningowy: ', ytrain.shape)
print ('Zbiór y testowy:    ', ytest.shape)

Zbiór X treningowy:  (27595, 13)
Zbiór X testowy:     (13593, 13)
Zbiór y treningowy:  (27595,)
Zbiór y testowy:     (13593,)

GaussianNB(priors=None, var_smoothing=1e-09)

Recall Training data:      0.669
Precision Training data:   0.7853
----------------------------------------------------------------------
Recall Test data:          0.6571
Precision Test data:       0.2769
----------------------------------------------------------------------
Confusion Matrix Test data
[[9435 2627]
 [ 525 1006]]
----------------------------------------------------------------------
              precision    recall  f1-score   support

           0       0.95      0.78      0.86     12062
           1       0.28      0.66      0.39      1531

    accuracy                           0.77     13593
   macro avg       0.61      0.72      0.62     13593
weighted avg       0.87      0.77      0.80     13593

Lista kierownika marketingu bankowego

(41188, 13)

0    0.737059
1    0.262941
Name: ResultTH05, dtype: float64

Xtrain_OVS.head(3)

Naive Bayes Classifier na zbiorze df

from sklearn.naive_bayes import GaussianNB
gnb = GaussianNB()
gnb.fit(Xtrain, ytrain)

GaussianNB(priors=None, var_smoothing=1e-09)

Podstawienie do wzoru

y_pred = gnb.predict(Xtest)

Blok diagnostyczny

from sklearn import metrics
from sklearn.metrics import classification_report, confusion_matrix
from sklearn.metrics import confusion_matrix, log_loss, auc, roc_curve, roc_auc_score, recall_score, precision_recall_curve
from sklearn.metrics import make_scorer, precision_score, fbeta_score, f1_score, classification_report

print("Recall Training data:     ", np.round(recall_score(ytrain_OVS, gnb.predict(Xtrain_OVS)), decimals=4))
print("Precision Training data:  ", np.round(precision_score(ytrain_OVS, gnb.predict(Xtrain_OVS)), decimals=4))
print("----------------------------------------------------------------------")
print("Recall Test data:         ", np.round(recall_score(ytest, gnb.predict(Xtest)), decimals=4)) 
print("Precision Test data:      ", np.round(precision_score(ytest, gnb.predict(Xtest)), decimals=4))
print("----------------------------------------------------------------------")
print("Confusion Matrix Test data")
print(confusion_matrix(ytest, gnb.predict(Xtest)))
print("----------------------------------------------------------------------")
print(classification_report(ytest, gnb.predict(Xtest)))
y_pred_proba = gnb.predict_proba(Xtest)[::,1]
fpr, tpr, _ = metrics.roc_curve(ytest,  y_pred_proba)
auc = metrics.roc_auc_score(ytest, y_pred_proba)
plt.plot(fpr, tpr, label='Logistic Regression (auc = 
plt.xlabel('False Positive Rate',color='grey', fontsize = 13)
plt.ylabel('True Positive Rate',color='grey', fontsize = 13)
plt.title('Receiver operating characteristic')
plt.legend(loc="lower right")
plt.legend(loc=4)
plt.plot([0, 1], [0, 1],'r--')
plt.show()

Recall Training data:      0.669
Precision Training data:   0.7853
----------------------------------------------------------------------
Recall Test data:          0.6571
Precision Test data:       0.2769
----------------------------------------------------------------------
Confusion Matrix Test data
[[9435 2627]
 [ 525 1006]]
----------------------------------------------------------------------
              precision    recall  f1-score   support

           0       0.95      0.78      0.86     12062
           1       0.28      0.66      0.39      1531

    accuracy                           0.77     13593
   macro avg       0.61      0.72      0.62     13593
weighted avg       0.87      0.77      0.80     13593

Lista kierownika marketingu bankowego

(41188, 13)

0    0.737059
1    0.262941
Name: ResultTH05, dtype: float64

Tworzenie listy dla kierownika marketingu

print('Lista dla kierownika marketingu bankowego')
df3[df3['Wynik']==1].head(4)

Lista kierownika marketingu bankowego

(41188, 13)

0    0.737059
1    0.262941
Name: ResultTH05, dtype: float64

Statystyka

Threshold ROC curve

Klasyfikacja dla progów od 0.2 do 0.9 Threshold ROC curve

gnb_ytest = gnb.predict_proba(X)[:, 1]

X.shape

(41188, 13)

Klasyfikacja dla progów threshold = od 0.2 do 0.9

y_predT09 = (gnb_ytest >= 0.9).astype(int)
df['ResultTH09'] = y_predT09

y_predT08 = (gnb_ytest >= 0.8).astype(int)
df['ResultTH08'] = y_predT08

y_predT07 = (gnb_ytest >= 0.7).astype(int)
df['ResultTH07'] = y_predT07

y_predT06 = (gnb_ytest >= 0.6).astype(int)
df['ResultTH06'] = y_predT06

y_predT05 = (gnb_ytest >= 0.5).astype(int)
df['ResultTH05'] = y_predT05

y_predT04 = (gnb_ytest >= 0.4).astype(int)
df['ResultTH04'] = y_predT04

y_predT03 = (gnb_ytest >= 0.3).astype(int)
df['ResultTH03'] = y_predT03

y_predT02 = (gnb_ytest >= 0.2).astype(int)
df['ResultTH02'] = y_predT02

df.head(3)

Punktacja dla każdego klienta

df['Customer_classification']= df['ResultTH02']+df['ResultTH03']+df['ResultTH04']+df['ResultTH05']+df['ResultTH06']+df['ResultTH07']+df['ResultTH08']+df['ResultTH09']

df.sort_values('Customer_classification').head(4)

df.pivot_table(index =['Customer_classification'],values='marital', aggfunc='count').plot(kind='bar', legend=False)

0    0.737059
1    0.262941
Name: ResultTH05, dtype: float64

df['ResultTH05'].value_counts(normalize=True)

0    0.737059
1    0.262941
Name: ResultTH05, dtype: float64

Podsumowanie

Porównaine Logistic Regression Classifier z Naive Bayes Classifier.

Logistic Regression na zbiorze df

                   precision    recall  f1-score   support

               0       0.95      0.76      0.85     12062
               1       0.27      0.68      0.38      1531

        accuracy                           0.75     13593
       macro avg       0.61      0.72      0.61     13593
    weighted avg       0.87      0.75      0.79     13593

Naive Bayes Classifier na zbiorze df¶

                    precision    recall  f1-score   support

               0       0.95      0.78      0.86     12062
               1       0.28      0.66      0.39      1531

        accuracy                           0.77     13593
       macro avg       0.61      0.72      0.62     13593
    weighted avg       0.87      0.77      0.80     13593

Exercise 25

Istnieją dwa sposoby budowania modelu na zmiennych dyskretnych.

PYTANIE: czy model zbudowany na różnych metodach kodowania może mieć różne właściwości predykcyjne?

15 kwietnia 1912 r. Podczas swojej dziewiczej podróży Titanic zatonął po zderzeniu z górą lodową, Zginęło 1502 spośród 2224 pasażerów i załogi. Ta sensacyjna tragedia zszokowała społeczność międzynarodową i doprowadziła do lepszych przepisów bezpieczeństwa dla statków.
Jednym z powodów tragedii, był brak wystarczającej liczby łodzi ratunkowych. Zaobserwowano, że niektóre grupy ludzi miały większe szanse na przetrwanie niż inne. Były to kobiety, dzieci oraz klasa pierwsza.
Celem ćwiczenia jest określenia, jakie grupy pasażerów miały większe szanse przeżycia katastrofy.

Zmienne:

Survived: (0 = No, 1 = Yes) Zmienna wynikowa określająca przeżycie
pclass: (1 = 1st, 2 = 2nd, 3 = 3rd) Klasa biletu

Sex: (male, female) płeć pasażera

Age: wiek pasażera w latach
Wiek jest ułamkowy, jeśli jest mniejszy niż 1. Jeżeli wiek jest szacowany, to czy ma on postać xx.5

SibSp: Liczba rodzeństwa / małżonków na pokładzie Titanica
Zestaw danych definiuje relacje rodzinne w ten sposób… Rodzeństwo = brat, siostra, przyrodni brat, przyrodnia siostra Współmałżonek = mąż, żona (kochanki i narzeczone zostały zignorowane).

Parch: liczba rodziców / dzieci na pokładzie Titanica
Zestaw danych definiuje relacje rodzinne w ten sposób… Rodzic = matka, ojciec Dziecko = córka, syn, pasierbica, pasierb Niektóre dzieci podróżowały tylko z nianią, dlatego dla nich parch = 0.

Ticket: numer biletu

Fare: opłata za bilet

Cabin: Numer kabiny

Embarked: (C = Cherbourg, Q = Queenstown, S = Southampton) Kod portu zaokrętowania.

Zobacz też:

http://sigmaquality.pl/pandas/who-had-a-chance-to-survive-on-the-titanic/

import pandas as pd
import seaborn as sns
import matplotlib as plt
import numpy as np

df = pd.read_csv('c:/1/kaggletrain.csv')
df.head(5)

Sprawdzamy kompletnoiść danych

df.isnull().sum()

Unnamed: 0       0
PassengerId      0
Survived         0
Pclass           0
Name             0
Sex              0
Age            177
SibSp            0
Parch            0
Ticket           0
Fare             0
Cabin          687
Embarked         2
dtype: int64

df.shape

(891, 13)

Naszym zadaniem jest porównanie dwóch metod tworzenia modeli regresji logistycznej. Kasujemy kolumnę 'Cabin’ ponieważ w około 3/4 rekordów jest niekompletna poza tym ma zbyt wiele wartości unikalnych.

df.Cabin.unique()

array([nan, 'C85', 'C123', 'E46', 'G6', 'C103', 'D56', 'A6',
       'C23 C25 C27', 'B78', 'D33', 'B30', 'C52', 'B28', 'C83', 'F33',
       'F G73', 'E31', 'A5', 'D10 D12', 'D26', 'C110', 'B58 B60', 'E101',
       'F E69', 'D47', 'B86', 'F2', 'C2', 'E33', 'B19', 'A7', 'C49', 'F4',
       'A32', 'B4', 'B80', 'A31', 'D36', 'D15', 'C93', 'C78', 'D35',
       'C87', 'B77', 'E67', 'B94', 'C125', 'C99', 'C118', 'D7', 'A19',
       'B49', 'D', 'C22 C26', 'C106', 'C65', 'E36', 'C54',
       'B57 B59 B63 B66', 'C7', 'E34', 'C32', 'B18', 'C124', 'C91', 'E40',
       'T', 'C128', 'D37', 'B35', 'E50', 'C82', 'B96 B98', 'E10', 'E44',
       'A34', 'C104', 'C111', 'C92', 'E38', 'D21', 'E12', 'E63', 'A14',
       'B37', 'C30', 'D20', 'B79', 'E25', 'D46', 'B73', 'C95', 'B38',
       'B39', 'B22', 'C86', 'C70', 'A16', 'C101', 'C68', 'A10', 'E68',
       'B41', 'A20', 'D19', 'D50', 'D9', 'A23', 'B50', 'A26', 'D48',
       'E58', 'C126', 'B71', 'B51 B53 B55', 'D49', 'B5', 'B20', 'F G63',
       'C62 C64', 'E24', 'C90', 'C45', 'E8', 'B101', 'D45', 'C46', 'D30',
       'E121', 'D11', 'E77', 'F38', 'B3', 'D6', 'B82 B84', 'D17', 'A36',
       'B102', 'B69', 'E49', 'C47', 'D28', 'E17', 'A24', 'C50', 'B42',
       'C148'], dtype=object)

del df['Cabin']
del df['Ticket']
del df['Unnamed: 0']
del df['PassengerId']

Usunąłem kolumnę Cabin, również usunąłem kolumnę 'Ticket’, uważam że numer biletu nie miał wpływu na przeżywalnośc rejsu.
Teraz usunę rekordy gdzie brakuje wartości w kolumnach 'Embarked’ oraz 'Age’.

df = df.dropna(how='any')

Sprawdzenie wyniku

df.shape

(712, 9)

df.isnull().sum()

Survived    0
Pclass      0
Name        0
Sex         0
Age         0
SibSp       0
Parch       0
Fare        0
Embarked    0
dtype: int64

Niekompletne rekordy zostały usunięte. Badam pozostałe zmienne niezależne.

df.Embarked.value_counts(normalize=True)

S    0.778090
C    0.182584
Q    0.039326
Name: Embarked, dtype: float64

df.Sex.value_counts(normalize=True)

male      0.636236
female    0.363764
Name: Sex, dtype: float64

Dość enigmatyczna jest zmienna SibSp, sprawdźmy ją!

df.SibSp.value_counts()

0    469
1    183
2     25
4     18
3     12
5      5
Name: SibSp, dtype: int64

df.SibSp.value_counts(normalize=True).plot(kind='bar')

0    519
1    110
2     68
5      5
3      5
4      4
6      1
Name: Parch, dtype: int64

dtype('int64')

0    lone
1    lone
2    lone
3    lone
4    lone
Name: Parch, dtype: object

Survived      int64
Pclass        int64
Name         object
Sex          object
Age         float64
SibSp        object
Parch        object
Fare        float64
Embarked     object
dtype: object

Index(['Sex', 'SibSp', 'Parch', 'Embarked'], dtype='object')

Index(['Survived', 'Pclass', 'Age', 'Fare'], dtype='object')

Training X set:  (477, 7)
Test X set       (235, 7)
Training y set:  (477,)
Test y set       (235,)

C:ProgramDataAnaconda3libsite-packagessklearnlinear_modellogistic.py:432: FutureWarning: Default solver will be changed to 'lbfgs' in 0.22. Specify a solver to silence this warning.
  FutureWarning)

Tak ja widzimy, 469 pasażerów podróżowała samodzielnie a 183 z jednym członkiem rodziny. Przetwarzam liczby na oznaczenia tekstowe, które łatwiej zrozumieć.

fam = {0:'lone', 1:'couple', 2:'three members', 3:'four members', 4:'five members', 5:'six members'}  
df['SibSp'] = df['SibSp'].map(fam)

Parch – Zestaw danych definiuje relacje rodzinne¶

df.Parch.value_counts()

0    519
1    110
2     68
5      5
3      5
4      4
6      1
Name: Parch, dtype: int64

Ta zmienna jest zbyt trudna do interpretacji, dlatego przetworzę ją na wartość dyskretną.

df.Parch.dtype

dtype('int64')

family = {0:'lone', 1:'mother', 2:'father', 3:'daughter', 4:'son', 5:'stepdaughter', 6:'stepson'}  
df['Parch'] = df['Parch'].map(family)

Podmieniliśmy trudne oznaczenie rozin na oznaczenia bardziej przyjazne, sprawdźmy czy dobrze.

df['Parch'].head(5)

0    lone
1    lone
2    lone
3    lone
4    lone
Name: Parch, dtype: object

df[df.Parch=='daughter'][['Parch','Age', 'Sex', 'Name', 'SibSp']]

Jedena cureczka jest chłopcem. Pani Baclini jest córką innego pasażera, mimo to jest oznaczona jako podrużyująca samotnie. W bazie widać błędy.

df[df.Parch=='son'][['Parch','Age', 'Sex', 'Name', 'SibSp']]

Dwa błędy.

df[df.Parch=='mother'][['Parch','Age', 'Sex', 'Name', 'SibSp']].sample(5)

df[df.Parch=='father'][['Parch','Age', 'Sex', 'Name', 'SibSp']].sample(5)

Niektóre matki mają 9 lat inne 2. Część matek jest mężczyznami. Parametr 'SibSp’ podający ilość towarzyszących członków rodziny dla niektórych rodziców wynosi zero . Wydaje mi się, że to oznaczenie jest błędne. Teraz nie będę tego poprawiał ponieważ nie mieści się to w ramach tego ćwiczenia. Zostawimy dane takimi jakie są.

Analiza zbilansowania zbioru zmiennych wynikowych

Nie będę już badał zmiennych, sprawdzę tylko czy zmienna zależna jest zbilansowana. Czy liczba uratowanych i ofiar jest podobna.

df.Survived.value_counts(normalize=True).plot(kind='bar')

Survived      int64
Pclass        int64
Name         object
Sex          object
Age         float64
SibSp        object
Parch        object
Fare        float64
Embarked     object
dtype: object

Index(['Sex', 'SibSp', 'Parch', 'Embarked'], dtype='object')

Index(['Survived', 'Pclass', 'Age', 'Fare'], dtype='object')

Training X set:  (477, 7)
Test X set       (235, 7)
Training y set:  (477,)
Test y set       (235,)

C:ProgramDataAnaconda3libsite-packagessklearnlinear_modellogistic.py:432: FutureWarning: Default solver will be changed to 'lbfgs' in 0.22. Specify a solver to silence this warning.
  FutureWarning)

GridSearchCV(cv=2, error_score='raise-deprecating',
             estimator=LogisticRegression(C=1.0, class_weight=None, dual=False,
                                          fit_intercept=True,
                                          intercept_scaling=1, l1_ratio=None,
                                          max_iter=100, multi_class='warn',
                                          n_jobs=None, penalty='l2',
                                          random_state=None, solver='warn',
                                          tol=0.0001, verbose=0,
                                          warm_start=True),
             iid='warn', n_jobs=5,
             param_grid={'C': array([1.e-03, 1.e-02, 1.e-01, 1.e+00, 1.e+01, 1.e+02])},
             pre_dispatch='2*n_jobs', refit=True, return_train_score=False,
             scoring='roc_auc', verbose=0)

array([[117,  23],
       [ 23,  72]], dtype=int64)

              precision    recall  f1-score   support

           0       0.84      0.84      0.84       140
           1       0.76      0.76      0.76        95

    accuracy                           0.80       235
   macro avg       0.80      0.80      0.80       235
weighted avg       0.80      0.80      0.80       235

Accuracy:     0.8
Precision:    0.76
Recall:       0.76
F1 score:     0.76

Między zbiorami uratowanych i ofiar nie ma drastycznych różnic. Nie trzeba stosować oversampling.

Regresja logistyczna bez tworzenia Dummy Variables

Przy budowaniu każdego modelu trzeba brać pod uwagę wszystkie możliwe dane, również (a czasem przede wszystkim) dane tekstowe (dyskretne). Aby możliwe było użycie danych tekstowych, należy je przekształcić na dane cyfrowe.
Dummy Variables to dane kategoryczne 0, 1, Z jednej kolumny tekstowej np. zwierzęta domowe, zawierającej np. trzy stany: pies, kot, mysz tworzy się trzy kolumny: zwierzęta domowe_kot, zwierzęta domowe_pies, zwierzęta domowe_mysz. Jeżeli w danym rekordzie jest kot, wartość w kolumnie zwierzęta domowe_kot = 1, w pozostałych kolumnach wartość ta wynosi 0.

Zamiast tworzyć Dummy Variables można styworzyć cyfrowy kod zmiennych tekstowych. Poniżej zrobimy takie przekształcenie dla zmiennych tekstowych.

Dzielimy zmienne niezależne na tekstowe i numeryczne

df.dtypes

Survived      int64
Pclass        int64
Name         object
Sex          object
Age         float64
SibSp        object
Parch        object
Fare        float64
Embarked     object
dtype: object

del df['Name']

categorical = df.describe(include=["object"]).columns
continuous = df.describe().columns

categorical

Index(['Sex', 'SibSp', 'Parch', 'Embarked'], dtype='object')

continuous

Index(['Survived', 'Pclass', 'Age', 'Fare'], dtype='object')

Przekształacamy zmienne dyskretne na zmienne kodowane cyfrowo

Ktoś może zapytać, po co najpierw tworzymy z danych cyfrowych 'SibSp’ i 'Parch’, zmienne tekstowe aby znowu przekształcić je w dane cyfrowe.
Robimy tak aby poprawić czytelność kolumn w metodzie Dummy Variables.

from sklearn.preprocessing import LabelEncoder

df[categorical] = df[categorical].apply(LabelEncoder().fit_transform)

df[categorical].sample(6)

Dzielimy zbiory na testowe i treningowe

y = df['Survived']
X = df.drop('Survived' , axis=1)

from sklearn.model_selection import train_test_split 
Xtrain, Xtest, ytrain, ytest = train_test_split(X,y, test_size=0.33, stratify = y, random_state = 148)

Wielkości zbiorów.

print ('Training X set: ',Xtrain.shape)
print ('Test X set      ', Xtest.shape)
print ('Training y set: ', ytrain.shape)
print ('Test y set      ', ytest.shape)

Training X set:  (477, 7)
Test X set       (235, 7)
Training y set:  (477,)
Test y set       (235,)

C:ProgramDataAnaconda3libsite-packagessklearnlinear_modellogistic.py:432: FutureWarning: Default solver will be changed to 'lbfgs' in 0.22. Specify a solver to silence this warning.
  FutureWarning)

GridSearchCV(cv=2, error_score='raise-deprecating',
             estimator=LogisticRegression(C=1.0, class_weight=None, dual=False,
                                          fit_intercept=True,
                                          intercept_scaling=1, l1_ratio=None,
                                          max_iter=100, multi_class='warn',
                                          n_jobs=None, penalty='l2',
                                          random_state=None, solver='warn',
                                          tol=0.0001, verbose=0,
                                          warm_start=True),
             iid='warn', n_jobs=5,
             param_grid={'C': array([1.e-03, 1.e-02, 1.e-01, 1.e+00, 1.e+01, 1.e+02])},
             pre_dispatch='2*n_jobs', refit=True, return_train_score=False,
             scoring='roc_auc', verbose=0)

array([[117,  23],
       [ 23,  72]], dtype=int64)

              precision    recall  f1-score   support

           0       0.84      0.84      0.84       140
           1       0.76      0.76      0.76        95

    accuracy                           0.80       235
   macro avg       0.80      0.80      0.80       235
weighted avg       0.80      0.80      0.80       235

Accuracy:     0.8
Precision:    0.76
Recall:       0.76
F1 score:     0.76

Index(['Survived', 'Pclass', 'Sex', 'Age', 'SibSp', 'Parch', 'Fare',
       'Embarked'],
      dtype='object')

Survived    0
Pclass      0
Sex         0
Age         0
SibSp       0
Parch       0
Fare        0
Embarked    0
dtype: int64

Index(['Survived', 'Pclass', 'Age', 'Fare', 'Sex_male', 'SibSp_five members',
       'SibSp_four members', 'SibSp_lone', 'SibSp_six members',
       'SibSp_three members', 'Parch_father', 'Parch_lone', 'Parch_mother',
       'Parch_son', 'Parch_stepdaughter', 'Parch_stepson', 'Embarked_Q',
       'Embarked_S'],
      dtype='object')

C:ProgramDataAnaconda3libsite-packagessklearnlinear_modellogistic.py:432: FutureWarning: Default solver will be changed to 'lbfgs' in 0.22. Specify a solver to silence this warning.
  FutureWarning)

Xtrain.head(4)

Logistic Regression bez Dummy Variables

from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import GridSearchCV


Parameteres = {'C': np.power(10.0, np.arange(-3, 3))}
LR = LogisticRegression(warm_start = True)
LR_Grid = GridSearchCV(LR, param_grid = Parameteres, scoring = 'roc_auc', n_jobs = 5, cv=2)

LR_Grid.fit(Xtrain, ytrain)

C:ProgramDataAnaconda3libsite-packagessklearnlinear_modellogistic.py:432: FutureWarning: Default solver will be changed to 'lbfgs' in 0.22. Specify a solver to silence this warning.
  FutureWarning)

GridSearchCV(cv=2, error_score='raise-deprecating',
             estimator=LogisticRegression(C=1.0, class_weight=None, dual=False,
                                          fit_intercept=True,
                                          intercept_scaling=1, l1_ratio=None,
                                          max_iter=100, multi_class='warn',
                                          n_jobs=None, penalty='l2',
                                          random_state=None, solver='warn',
                                          tol=0.0001, verbose=0,
                                          warm_start=True),
             iid='warn', n_jobs=5,
             param_grid={'C': array([1.e-03, 1.e-02, 1.e-01, 1.e+00, 1.e+01, 1.e+02])},
             pre_dispatch='2*n_jobs', refit=True, return_train_score=False,
             scoring='roc_auc', verbose=0)

array([[117,  23],
       [ 23,  72]], dtype=int64)

              precision    recall  f1-score   support

           0       0.84      0.84      0.84       140
           1       0.76      0.76      0.76        95

    accuracy                           0.80       235
   macro avg       0.80      0.80      0.80       235
weighted avg       0.80      0.80      0.80       235

Accuracy:     0.8
Precision:    0.76
Recall:       0.76
F1 score:     0.76

Index(['Survived', 'Pclass', 'Sex', 'Age', 'SibSp', 'Parch', 'Fare',
       'Embarked'],
      dtype='object')

Survived    0
Pclass      0
Sex         0
Age         0
SibSp       0
Parch       0
Fare        0
Embarked    0
dtype: int64

Index(['Survived', 'Pclass', 'Age', 'Fare', 'Sex_male', 'SibSp_five members',
       'SibSp_four members', 'SibSp_lone', 'SibSp_six members',
       'SibSp_three members', 'Parch_father', 'Parch_lone', 'Parch_mother',
       'Parch_son', 'Parch_stepdaughter', 'Parch_stepson', 'Embarked_Q',
       'Embarked_S'],
      dtype='object')

C:ProgramDataAnaconda3libsite-packagessklearnlinear_modellogistic.py:432: FutureWarning: Default solver will be changed to 'lbfgs' in 0.22. Specify a solver to silence this warning.
  FutureWarning)

GridSearchCV(cv=2, error_score='raise-deprecating',
             estimator=LogisticRegression(C=1.0, class_weight=None, dual=False,
                                          fit_intercept=True,
                                          intercept_scaling=1, l1_ratio=None,
                                          max_iter=100, multi_class='warn',
                                          n_jobs=None, penalty='l2',
                                          random_state=None, solver='warn',
                                          tol=0.0001, verbose=0,
                                          warm_start=True),
             iid='warn', n_jobs=5,
             param_grid={'C': array([1.e-03, 1.e-02, 1.e-01, 1.e+00, 1.e+01, 1.e+02])},
             pre_dispatch='2*n_jobs', refit=True, return_train_score=False,
             scoring='roc_auc', verbose=0)

Ocena modelu regresji logistycznej bez Dummy Variables

ypred = LR_Grid.predict(Xtest)

from sklearn.metrics import classification_report, confusion_matrix
from sklearn import metrics

co_matrix = metrics.confusion_matrix(ytest, ypred)
co_matrix

array([[117,  23],
       [ 23,  72]], dtype=int64)

print(classification_report(ytest, ypred))

              precision    recall  f1-score   support

           0       0.84      0.84      0.84       140
           1       0.76      0.76      0.76        95

    accuracy                           0.80       235
   macro avg       0.80      0.80      0.80       235
weighted avg       0.80      0.80      0.80       235

Accuracy:     0.8
Precision:    0.76
Recall:       0.76
F1 score:     0.76

Index(['Survived', 'Pclass', 'Sex', 'Age', 'SibSp', 'Parch', 'Fare',
       'Embarked'],
      dtype='object')

Survived    0
Pclass      0
Sex         0
Age         0
SibSp       0
Parch       0
Fare        0
Embarked    0
dtype: int64

Index(['Survived', 'Pclass', 'Age', 'Fare', 'Sex_male', 'SibSp_five members',
       'SibSp_four members', 'SibSp_lone', 'SibSp_six members',
       'SibSp_three members', 'Parch_father', 'Parch_lone', 'Parch_mother',
       'Parch_son', 'Parch_stepdaughter', 'Parch_stepson', 'Embarked_Q',
       'Embarked_S'],
      dtype='object')

C:ProgramDataAnaconda3libsite-packagessklearnlinear_modellogistic.py:432: FutureWarning: Default solver will be changed to 'lbfgs' in 0.22. Specify a solver to silence this warning.
  FutureWarning)

GridSearchCV(cv=2, error_score='raise-deprecating',
             estimator=LogisticRegression(C=1.0, class_weight=None, dual=False,
                                          fit_intercept=True,
                                          intercept_scaling=1, l1_ratio=None,
                                          max_iter=100, multi_class='warn',
                                          n_jobs=None, penalty='l2',
                                          random_state=None, solver='warn',
                                          tol=0.0001, verbose=0,
                                          warm_start=True),
             iid='warn', n_jobs=5,
             param_grid={'C': array([1.e-03, 1.e-02, 1.e-01, 1.e+00, 1.e+01, 1.e+02])},
             pre_dispatch='2*n_jobs', refit=True, return_train_score=False,
             scoring='roc_auc', verbose=0)

array([[115,  25],
       [ 25,  70]], dtype=int64)

              precision    recall  f1-score   support

           0       0.82      0.82      0.82       140
           1       0.74      0.74      0.74        95

    accuracy                           0.79       235
   macro avg       0.78      0.78      0.78       235
weighted avg       0.79      0.79      0.79       235

Accuracy:     0.79
Precision:    0.74
Recall:       0.74
F1 score:     0.74

print("Accuracy:    ",np.round(metrics.accuracy_score(ytest, ypred), decimals=2))
print("Precision:   ",np.round(metrics.precision_score(ytest, ypred), decimals=2))
print("Recall:      ",np.round(metrics.recall_score(ytest, ypred), decimals=2))
print("F1 score:    ",np.round(metrics.f1_score(ytest, ypred), decimals=2))

Accuracy:     0.8
Precision:    0.76
Recall:       0.76
F1 score:     0.76

Index(['Survived', 'Pclass', 'Sex', 'Age', 'SibSp', 'Parch', 'Fare',
       'Embarked'],
      dtype='object')

Survived    0
Pclass      0
Sex         0
Age         0
SibSp       0
Parch       0
Fare        0
Embarked    0
dtype: int64

Index(['Survived', 'Pclass', 'Age', 'Fare', 'Sex_male', 'SibSp_five members',
       'SibSp_four members', 'SibSp_lone', 'SibSp_six members',
       'SibSp_three members', 'Parch_father', 'Parch_lone', 'Parch_mother',
       'Parch_son', 'Parch_stepdaughter', 'Parch_stepson', 'Embarked_Q',
       'Embarked_S'],
      dtype='object')

C:ProgramDataAnaconda3libsite-packagessklearnlinear_modellogistic.py:432: FutureWarning: Default solver will be changed to 'lbfgs' in 0.22. Specify a solver to silence this warning.
  FutureWarning)

GridSearchCV(cv=2, error_score='raise-deprecating',
             estimator=LogisticRegression(C=1.0, class_weight=None, dual=False,
                                          fit_intercept=True,
                                          intercept_scaling=1, l1_ratio=None,
                                          max_iter=100, multi_class='warn',
                                          n_jobs=None, penalty='l2',
                                          random_state=None, solver='warn',
                                          tol=0.0001, verbose=0,
                                          warm_start=True),
             iid='warn', n_jobs=5,
             param_grid={'C': array([1.e-03, 1.e-02, 1.e-01, 1.e+00, 1.e+01, 1.e+02])},
             pre_dispatch='2*n_jobs', refit=True, return_train_score=False,
             scoring='roc_auc', verbose=0)

array([[115,  25],
       [ 25,  70]], dtype=int64)

              precision    recall  f1-score   support

           0       0.82      0.82      0.82       140
           1       0.74      0.74      0.74        95

    accuracy                           0.79       235
   macro avg       0.78      0.78      0.78       235
weighted avg       0.79      0.79      0.79       235

Accuracy:     0.79
Precision:    0.74
Recall:       0.74
F1 score:     0.74

Usunięcie danych 'Name’, 'Cabin’,’Ticket’,’Unnamed: 0′, 'PassengerId’ poprawiło nieznacznie dobroć modelu.

Logistic Regression z Dummy Variables

Przywracamy kolumny zawierające zmienne tekstowe. Robimy tak żeby mieć identyczne dane jak przy Logistic Regression bez dummy variables.

df.columns

Index(['Survived', 'Pclass', 'Sex', 'Age', 'SibSp', 'Parch', 'Fare',
       'Embarked'],
      dtype='object')

df2 = pd.read_csv('c:/1/kaggletrain.csv', usecols=['Survived','Pclass','Sex','Age','SibSp','Parch','Fare','Embarked'])

df2 = df2.dropna(how='any')
df2.isnull().sum()

Survived    0
Pclass      0
Sex         0
Age         0
SibSp       0
Parch       0
Fare        0
Embarked    0
dtype: int64

fam = {0:'lone', 1:'couple', 2:'three members', 3:'four members', 4:'five members', 5:'six members'}  
df2['SibSp'] = df2['SibSp'].map(fam)

family = {0:'lone', 1:'mother', 2:'father', 3:'daughter', 4:'son', 5:'stepdaughter', 6:'stepson'}  
df2['Parch'] = df2['Parch'].map(family)

Teraz tworzymy zmienne typu Dummy Variables

Dummy_Variables = pd.get_dummies(df2, columns=categorical, drop_first=True)
Dummy_Variables.sample(5)

Dummy_Variables.columns

Index(['Survived', 'Pclass', 'Age', 'Fare', 'Sex_male', 'SibSp_five members',
       'SibSp_four members', 'SibSp_lone', 'SibSp_six members',
       'SibSp_three members', 'Parch_father', 'Parch_lone', 'Parch_mother',
       'Parch_son', 'Parch_stepdaughter', 'Parch_stepson', 'Embarked_Q',
       'Embarked_S'],
      dtype='object')

y = Dummy_Variables['Survived']
X = Dummy_Variables.drop('Survived', axis=1) 

from sklearn.model_selection import train_test_split 
Xtrain, Xtest, ytrain, ytest = train_test_split(X,y, test_size=0.33, stratify = y, random_state = 148)

Parameteres = {'C': np.power(10.0, np.arange(-3, 3))}
LR = LogisticRegression(warm_start = True)
LR_Dummy_Variables = GridSearchCV(LR, param_grid = Parameteres, scoring = 'roc_auc', n_jobs = 5, cv=2)

LR_Dummy_Variables.fit(Xtrain, ytrain)

C:ProgramDataAnaconda3libsite-packagessklearnlinear_modellogistic.py:432: FutureWarning: Default solver will be changed to 'lbfgs' in 0.22. Specify a solver to silence this warning.
  FutureWarning)

GridSearchCV(cv=2, error_score='raise-deprecating',
             estimator=LogisticRegression(C=1.0, class_weight=None, dual=False,
                                          fit_intercept=True,
                                          intercept_scaling=1, l1_ratio=None,
                                          max_iter=100, multi_class='warn',
                                          n_jobs=None, penalty='l2',
                                          random_state=None, solver='warn',
                                          tol=0.0001, verbose=0,
                                          warm_start=True),
             iid='warn', n_jobs=5,
             param_grid={'C': array([1.e-03, 1.e-02, 1.e-01, 1.e+00, 1.e+01, 1.e+02])},
             pre_dispatch='2*n_jobs', refit=True, return_train_score=False,
             scoring='roc_auc', verbose=0)

array([[115,  25],
       [ 25,  70]], dtype=int64)

              precision    recall  f1-score   support

           0       0.82      0.82      0.82       140
           1       0.74      0.74      0.74        95

    accuracy                           0.79       235
   macro avg       0.78      0.78      0.78       235
weighted avg       0.79      0.79      0.79       235

Accuracy:     0.79
Precision:    0.74
Recall:       0.74
F1 score:     0.74

Ocena modelu regresji logistycznej

ypred_DV = LR_Dummy_Variables.predict(Xtest)

co_matrix = metrics.confusion_matrix(ytest, ypred_DV)
co_matrix

array([[115,  25],
       [ 25,  70]], dtype=int64)

print(classification_report(ytest, ypred_DV))

              precision    recall  f1-score   support

           0       0.82      0.82      0.82       140
           1       0.74      0.74      0.74        95

    accuracy                           0.79       235
   macro avg       0.78      0.78      0.78       235
weighted avg       0.79      0.79      0.79       235

Accuracy:     0.79
Precision:    0.74
Recall:       0.74
F1 score:     0.74

print("Accuracy:    ",np.round(metrics.accuracy_score(ytest, ypred_DV), decimals=2))
print("Precision:   ",np.round(metrics.precision_score(ytest, ypred_DV), decimals=2))
print("Recall:      ",np.round(metrics.recall_score(ytest, ypred_DV), decimals=2))
print("F1 score:    ",np.round(metrics.f1_score(ytest, ypred_DV), decimals=2))

Accuracy:     0.79
Precision:    0.74
Recall:       0.74
F1 score:     0.74

Odpowiedź: Model regresji logistycznej wykorzystujący zmienne takstowe zakodowane oraz Model regresji logistycznej wykorzystujący zmienne typu Dummy_Variables mają te same zdolności predykcyjne.

	Unnamed: 0	Unnamed: 0.1	age	job	marital	education	default	housing	loan	contact	…	campaign	pdays	previous	poutcome	emp_var_rate	cons_price_idx	cons_conf_idx	euribor3m	nr_employed	y
0	0	0	44	blue-collar	married	basic.4y	unknown	yes	no	cellular	…	1	999	0	nonexistent	1.4	93.444	-36.1	4.963	5228.1	0
1	1	1	53	technician	married	unknown	no	no	no	cellular	…	1	999	0	nonexistent	-0.1	93.200	-42.0	4.021	5195.8	0
2	2	2	28	management	single	university.degree	no	yes	no	cellular	…	3	6	2	success	-1.7	94.055	-39.8	0.729	4991.6	1
3	3	3	39	services	married	high.school	no	no	no	cellular	…	2	999	0	nonexistent	-1.8	93.075	-47.1	1.405	5099.1	0
4	4	4	55	retired	married	basic.4y	no	yes	no	cellular	…	1	3	1	success	-2.9	92.201	-31.4	0.869	5076.2	1

	age	job	marital	education	default	housing	loan	poutcome	emp_var_rate	cons_price_idx	cons_conf_idx	euribor3m	nr_employed	Wynik
17516	63	retired	married	professional.course	no	no	no	nonexistent	-1.8	93.075	-47.1	1.498	5099.1	1
3037	34	services	married	high.school	no	no	no	nonexistent	-1.8	93.075	-47.1	1.445	5099.1	1
37550	40	blue-collar	married	basic.9y	unknown	no	no	nonexistent	-1.8	93.075	-47.1	1.405	5099.1	1
32961	46	technician	married	professional.course	no	yes	no	nonexistent	-1.8	92.893	-46.2	1.291	5099.1	1

	Unnamed: 0	PassengerId	Survived	Pclass	Name	Sex	Age	SibSp	Ticket	Fare	Cabin	Embarked
0	0	1	0	3	Braund, Mr. Owen Harris	male	22.0	1	A/5 21171	7.2500	NaN	S
1	1	2	1	1	Cumings, Mrs. John Bradley (Florence Briggs Th…	female	38.0	1	PC 17599	71.2833	C85	C
2	2	3	1	3	Heikkinen, Miss. Laina	female	26.0	0	STON/O2. 3101282	7.9250	NaN	S
3	3	4	1	1	Futrelle, Mrs. Jacques Heath (Lily May Peel)	female	35.0	1	113803	53.1000	C123	S
4	4	5	0	3	Allen, Mr. William Henry	male	35.0	0	373450	8.0500	NaN	S

	Sex	SibSp	Parch	Embarked
819	1	2	1	2
661	1	3	2	0
255	0	3	1	0
513	0	0	2	0
722	1	3	2	2
462	1	3	2	2

	Pclass	Sex	Age	SibSp	Parch	Fare	Embarked
715	3	1	19.0	3	2	7.65	2
543	2	1	32.0	0	2	26.00	2
748	1	1	19.0	0	2	53.10	2
357	2	0	38.0	3	2	13.00	2

	age	job	marital	education	default	poutcome	emp_var_rate	cons_price_idx	cons_conf_idx	euribor3m	nr_employed
0	49	1	1	2	1	1	1.4	94.465	-41.8	4.959	5228.1
1	38	9	0	6	1	1	1.4	93.444	-36.1	4.963	5228.1
2	42	0	0	6	0	1	1.4	94.465	-41.8	4.959	5228.1

	age	job	marital	education	default	housing	loan	poutcome	emp_var_rate	cons_price_idx	…
0	44	1	1	0	1	2	0	1	1.4	93.444	…
25048	30	9	1	6	0	2	0	1	-0.1	93.200	…
25047	35	1	0	2	1	2	0	1	1.4	93.918	…
25046	42	7	1	3	1	2	2	1	1.1	93.994	…

	Parch	Age	Sex	Name	SibSp
86	daughter	16.0	male	Ford, Mr. William Neal	couple
437	daughter	24.0	female	Richards, Mrs. Sidney (Emily Hocking)	three members
736	daughter	48.0	female	Ford, Mrs. Edward (Margaret Ann Watson)	couple
774	daughter	54.0	female	Hocking, Mrs. Elizabeth (Eliza Needs)	couple
858	daughter	24.0	female	Baclini, Mrs. Solomon (Latifa Qurban)	lone

	Parch	Age	Sex	Name	SibSp
167	son	45.0	female	Skoog, Mrs. William (Anna Bernhardina Karlsson)	couple
360	son	40.0	male	Skoog, Mr. Wilhelm	couple
438	son	64.0	male	Fortune, Mr. Mark	couple
567	son	29.0	female	Palsson, Mrs. Nils (Alma Cornelia Berglund)	lone

	Parch	Age	Sex	Name	SibSp
698	mother	49.0	male	Thayer, Mr. John Borland	couple
268	mother	58.0	female	Graham, Mrs. William Thompson (Edith Junkins)	lone
312	mother	26.0	female	Lahtinen, Mrs. William (Anna Sylfven)	couple
424	mother	18.0	male	Rosblom, Mr. Viktor Richard	couple
197	mother	42.0	male	Olsen, Mr. Karl Siegwart Andreas	lone

	Parch	Age	Sex	Name	SibSp
165	father	9.0	male	Goldsmith, Master. Frank John William „Frankie”	lone
88	father	23.0	female	Fortune, Miss. Mabel Helen	four members
788	father	1.0	male	Dean, Master. Bertram Vere	couple
419	father	10.0	female	Van Impe, Miss. Catharina	lone
147	father	9.0	female	Ford, Miss. Robina Maggie „Ruby”	three members

	Survived	Pclass	Age	Fare	Sex_male	SibSp_lone	SibSp_three members	Parch_lone	Embarked_S
810	0	3	26.0	7.8875	1	1	0	1	1
762	1	3	20.0	7.2292	1	1	0	1	0
791	0	2	16.0	26.0000	1	1	0	1	1
38	0	3	18.0	18.0000	0	0	1	1	1
349	0	3	42.0	8.6625	1	1	0	1	1

Machine Learning - THE DATA SCIENCE LIBRARY

Artificial Intelligence w Marketingu Bankowym – Naive Bayes Classifier part 4

Naive Bayes Classifier

Jak w praktyce zastosować Naive Bayes Classifier w marketingu bankowym?

Dane klienta banku

Tworzenie Dummy Variables

OVERSAMPLING

Naive Bayes Classifier na zbiorze df

Threshold ROC curve

Klasyfikacja dla progów od 0.2 do 0.9 Threshold ROC curve

Punktacja dla każdego klienta

Podsumowanie

Porównaine Logistic Regression Classifier z Naive Bayes Classifier.

Logistic Regression na zbiorze df

Naive Bayes Classifier na zbiorze df¶

Regresja Logistyczna Dummy_Variables

Parch – Zestaw danych definiuje relacje rodzinne¶

Analiza zbilansowania zbioru zmiennych wynikowych

Regresja logistyczna bez tworzenia Dummy Variables

Dzielimy zmienne niezależne na tekstowe i numeryczne

Przekształacamy zmienne dyskretne na zmienne kodowane cyfrowo

Dzielimy zbiory na testowe i treningowe

Logistic Regression bez Dummy Variables

Ocena modelu regresji logistycznej bez Dummy Variables

Logistic Regression z Dummy Variables

Teraz tworzymy zmienne typu Dummy Variables

Ocena modelu regresji logistycznej

Model Regresji Logistycznej. Część 3: zmiana progu w modelu regresji logistycznej

Zmiana progu w modelu regresji logistycznej

Next part:

Model regresji Logistyczne. Część 4: Zastosowanie class_weight

Zastosowanie class_weight

Przykład tworzenia zamówień automatycznych w piekarni. Model regresji liniowej

Problem zamówień w sklepach piekarni, przykład tworzenia zamówień automatycznych

Model regresji liniowej przewidującej dzienne zapotrzebowanie na produkty

Jednoczynnikowy model regresji liniowej

Wieloczynnikowy model regresji liniowej

Praktyczne użycie modelu regresji wielorakiej jako przykład tworzenia zamówień automatycznych

Uruchomienie modelu regresji liniowej

Model Regresji Logistycznej. Część 2: Oversampling

Oversampling

Tworzenie Oversampling

Procedura oversampling

Next part:

Estimation of the result of the empirical research with machine learning tools (part 2)

Artificial intelligence in process of classification

Existing correlation lead to the conclusion that it is possible effective model of artificial intelligence is applied

Regression Random Forest with a temporary adaptation to discrete results seems to be good!

Next part:

Zastosowanie estymatora liniowego Support Vector Machine (SVM) do tworzenia prognozy zapadalność na cukrzycę

Transformacja i klasyfikacja

Dostrajanie modelu

Istnieją dwa sposoby szukania najlepszych hiperpartametrów do dostrojenia modelu:

Ocena modelu przez Confusion Matrix

Jak interpretować Confusion Matrix?

Porównanie estymatorów

Praktyczne użycie modelu Machine learning

Zastosowanie estymatora Random Forest do tworzenia prognozy zapadalność na cukrzycę

Machine Learning w medycynie

Wczytanie bazy

Wskazanie zmiennych egzogenicznych i zmiennej endogenicznej

Obiekt Pipline

Deklarowanie hiperparametrów

Dostrajanie modelu

Przypomnijmy:

Ocena modelu przez Confusion Matrix

Jak interpretować Confusion Matrix?

Wskaźniki Confusion Matrix

Initial graphical analysis of dependency in analyzing of the incidence of diabetes – Seaborn library

Application of Machine Learning in clinical trials

Let's take a look at our sample