Models - Strona 2 z 2 - THE DATA SCIENCE LIBRARY

Feature Selection Techniques – Recursive Feature Elimination (RFE)

30/03/2020 admin 0

300320201719 It is a greedy optimization algorithm which aims to find the best performing feature subset. It repeatedly creates models and keeps aside the best […]

Feature Selection Techniques – Backward Elimination

30/03/2020 admin 0

300320201313 In backward elimination, we start with all the features and removes the least significant feature at each iteration which improves the performance of the […]

Feature Selection Techniques [numerical result] – Step Forward Selection

30/03/2020 admin 0

300320201248 Forward selection is an iterative method in which we start with no function in the model. In each iteration, we add a function that […]

Feature Selection Techniques – Variance Inflation Factor (VIF)

29/03/2020 admin 0

290320202006 Collinearity is the state where two variables are highly correlated and contain similar information about the variance within a given dataset. The Variance Inflation […]

Feature Selection Techniques – Pearson correlation

29/03/2020 admin 0

290320201454 In [1]: import numpy as np import pandas as pd import seaborn as sns import matplotlib.pyplot as plt from sklearn.preprocessing import LabelEncoder, OneHotEncoder import warnings […]

Feature Selection Techniques (by filter methods): numerical_ input, categorical output

28/03/2020 admin 0

280320200940 Source of data: https://archive.ics.uci.edu/ml/datasets/Air+Quality In this case, statistical methods are used: We always have continuous and discrete variables in the data set. This procedure […]

Feature Selection Techniques (by filter methods): categorical input, categorical output

26/03/2020 admin 0

categorical input – categorical output 260320201223 In this case, statistical methods are used: We always have continuous and discrete variables in the data set. This […]

How to use PCA in logistic regression?

23/03/2020 admin 0

230320200907 Principal component analysis (PCA) https://jakevdp.github.io/PythonDataScienceHandbook/05.08-random-forests.html https://www.geeksforgeeks.org/principal-component-analysis-with-python/ In [1]: import pandas as pd import numpy as np import seaborn as sns import matplotlib.pyplot as plt df= […]

Feature Selection Techniques – Random Forest Classifier

20/03/2020 admin 0

200320200724 In [1]: import pandas as pd df = pd.read_csv(’/home/wojciech/Pulpit/1/kaggletrain.csv’) df = df.dropna(how=’any’) df.dtypes Out[1]: Unnamed: 0 int64 PassengerId int64 Survived int64 Pclass int64 Name […]

Krzywa oceny hiperparametrów _validation curve

27/09/2019 admin 0

Przy budowie modelów ML występuje problrm dobrania najlepszych parametrów. Poniżej dowiemy się jak dobierać optymalne hiperparametry dla modelu. źródło: https://towardsdatascience.com/optimizing-hyperparameters-in-random-forest-classification-ec7741f9d3f6 https://chrisalbon.com/machine_learning/model_evaluation/plot_the_validation_curve/ In [1]: import numpy as […]