PL170120201440

Guerry, Essay on the Moral Statistics of France (1833)

Source: http://datavis.ca/gallery/guerry/guerrydat.html

dept wydział Num ID działu Standardowe numery dla działów, z wyjątkiem Korsyki (200).
Region Region Char (1) Region Region Francji („N” = „Północ”, „S” = „Południe”, „E” = „Wschód”, „W” = „Zachód”, „C” = „Środek”). Korsyka ma kod „” (brak, NA)
Department Departament Char (25) Nazwa departamentu Nazwy departamentów są nazywane zgodnie z użyciem w 1830 roku. Zobacz depts.txt, aby uzyskać alternatywne kodowanie nazw departamentów.
Crime_pers Crime_pers Num Muzyka pop. za przestępstwa przeciwko osobom Źródło: A2 (Compte général, 1825-1830)
Crime_prop Crime_prop Num Muzyka pop. za przestępstwo przeciwko mieniu Źródło: A2 (Compte général, 1825-1830)
Literacy Alfabetyzacja Num Procent odczytu i zapisu Procent poborowych wojskowych, którzy potrafią czytać i pisać Źródło: A2
Donations Darowizny Num Darowizny dla biednych Źródło: A2 (Bulletin des lois)
Infants Niemowlęta Num Muzyka pop. na nielegalne urodzenie Źródło: A2 (Bureaau des Longitudes, 1817-1821)
Suicides Samobójstwa Num Muzyka pop. na samobójstwo Źródło: A2 (Compte général, 1827-1830)
MainCity Główne Miasto Char (5) Rozmiar głównego miasta Rozmiar głównego miasta („1: Sm”, „2: Med”, „3: Lg”), stosowany jako surogat dla gęstości zalewania. Duże odnosi się do górnej 10, małe do dolnej 10; wszystkie pozostałe są sklasyfikowane jako średnie. Źródło: A1
Wealth Bogactwo Ranga Podatek per capita od nieruchomości osobistych Indeks rankingowy oparty na podatkach od nieruchomości osobistych i ruchomych na mieszkańca Źródło: A1
Commerce Handel Ranga Handel i przemysł Handel i przemysł mierzony rangą liczby patentów / populacji Źródło: A1
Clergy Kler Ranga Dystrybucja duchowieństwa Dystrybucja duchowieństwa mierzona stopniem liczby księży katolickich w czynnej służbie / ludności Źródło: A1 (Almanach officiel du clergy, 1829)
Crime_parents Kryminalni rodzice Ranga Przestępstwa przeciwko rodzicom Przestępstwa przeciwko rodzicom, mierzone stopniem stosunku przestępstw przeciwko rodzicom do wszystkich przestępstw – Średnia z lat 1825–1830 Źródło: A1 (Compte général)
Infanticide Dzieciobójca Ranga Liczba dzieciobójstw na jednego mieszkańca Wskaźnik wskaźnikowy liczby dzieciobójstw do liczby ludności – Średnia z lat 1825–1830 Źródło: A1 (Compte général)
Donation_clergy Duchowieństwo Ranga Darowizny dla duchowieństwa Wskaźniki rankingowe liczby zapisów i darowizn między żywymi dla ludności – Średnia dla lat 1815–1824 Źródło: A1 (Bull. Des lois, ordunn. D’autorization)
Lottery Loteria Ranga Zakład per capita w Royal Lottery Ranking rankingowy wpływów z zakładów loterii królewskiej do liczby ludności — Średnia z lat 1822–1826 Źródło: A1 (Compte rendus par le ministre des finances)
Desertion Dezercja Ranga Dezercja wojskowa Desercja wojskowa, stosunek liczby młodych żołnierzy oskarżonych o dezercję do siły kontyngentu wojskowego, minus deficyt spowodowany niewystarczalnością dostępnych polan – średnia z lat 1825–1827. Źródło: A1 (Compte du ministere du guerre, 1829 etat V)
Instruction Instrukcja Ranga Rankingi instrukcji zapisane z mapy instrukcji Guerry’ego. Uwaga: jest to odwrotnie związane z umiejętnością czytania i pisania (zgodnie z definicją tutaj).
Prostitutes Prostytutki Num Prostytutki w Paryżu Liczba prostytutek zarejestrowanych w Paryżu w latach 1816–1834, sklasyfikowanych według departamentu ich urodzenia Źródło: Parent-Duchatelet (1836), De la prostitution en Paris
Distance Dystans Num Odległość do Paryża (km) Odległość każdego centroidu departamentu do centroidu Sekwany (Paryż) Źródło: obliczone na podstawie centroidów departamentów
Area Powierzchnia Num Obszar (1000 km^2) Źródło: Angeville (1836)
Pop1831 Pop1831 Num 1831 populacja ludności w 1831 roku, pochodzi z Angeville (1836), Essai sur la Statistique de la Populacja français w 1000s.

import pandas as pd

df = pd.read_csv('c:/1/Guerry.csv', index_col='Department')
del df['Unnamed: 0']
df.head(4)

import matplotlib.pyplot as plt

CORREL = df.corr().sort_values('Wealth')

plt.figure(figsize=(10,6))
CORREL['Wealth'].plot(kind='barh', color='red')
plt.title('Korelacja ze zmienną wynikową', fontsize=20)
plt.xlabel('Poziom korelacji')
plt.ylabel('Zmienne nezależne ciągłe')

Text(0, 0.5, 'Zmienne nezależne ciągłe')

Sprawdziliśmy już w części drugiej kompletność danych oraz format zmiennych dla zbioru: Guerry.csv.

Teraz będę budował regresjię wieloczynnikową.

Zmienną zależną będzie poziom lokalnej zamożności mieszkańców (‘Wealth’)
zmiennymi opisującymi będą: prostytucja (Prostitutes) – wskazująca na istnienie lokalnego nadmiaru siły roboczej i braku zajęcia, poziom darowizn na kościół (‘Donation_clergy’), oraz poziom lokalnego przemysłu i handlu (‘Commerce’).

from statsmodels.formula.api import ols
import statsmodels.api as sm

X = df[['Commerce','Prostitutes','Donation_clergy']]
y = df['Wealth']

model = sm.OLS(y, sm.add_constant(X))
model_fit = model.fit()

model_fit.summary()

C:ProgramDataAnaconda3libsite-packagesnumpycorefromnumeric.py:2389: FutureWarning: Method .ptp is deprecated and will be removed in a future version. Use numpy.ptp instead.
  return ptp(axis=axis, out=out, **kwargs)

<matplotlib.axes._subplots.AxesSubplot at 0x16115308ac8>

<matplotlib.axes._subplots.AxesSubplot at 0x16115818b00>

Przykład dobrej odpowiedzi modelu: zmienna ‘Donation_clergy’¶

fig, ax = plt.subplots(figsize=(12, 8))
fig = sm.graphics.plot_fit(model_fit, "Donation_clergy", ax=ax)

<matplotlib.axes._subplots.AxesSubplot at 0x16115308ac8>

<matplotlib.axes._subplots.AxesSubplot at 0x16115818b00>

import seaborn as sns

sns.regplot(x='Donation_clergy', y='Wealth', data=df)

<matplotlib.axes._subplots.AxesSubplot at 0x16115308ac8>

<matplotlib.axes._subplots.AxesSubplot at 0x16115818b00>

Przykład złej odpowiedzi modelu: zmienna ‘Prostitutes’

fig, ax = plt.subplots(figsize=(12, 8))
fig = sm.graphics.plot_fit(model_fit, "Prostitutes", ax=ax)

<matplotlib.axes._subplots.AxesSubplot at 0x16115818b00>

sns.regplot(x='Prostitutes', y='Wealth', data=df)

<matplotlib.axes._subplots.AxesSubplot at 0x16115818b00>

	dept	Region	Crime_pers	Crime_prop	Literacy	Donations	Infants	Suicides	MainCity	Wealth	…	Crime_parents	Infanticide	Donation_clergy	Lottery	Desertion	Instruction	Prostitutes	Distance	Area	Pop1831
Department
Ain	1	E	28870	15890	37	5098	33120	35039	2:Med	73	…	71	60	69	41	55	46	13	218.372	5762	346.03
Aisne	2	N	26226	5521	51	8901	14572	12831	2:Med	22	…	4	82	36	38	82	24	327	65.945	7369	513.00
Allier	3	C	26747	7925	13	10973	17044	114121	2:Med	61	…	46	42	76	66	16	85	34	161.927	7340	298.26
Basses-Alpes	4	E	12935	7289	46	2733	23018	14238	1:Sm	76	…	70	12	37	80	32	29	2	351.399	6925	155.90

Dep. Variable:	Wealth	R-squared:	0.335
Model:	OLS	Adj. R-squared:	0.311
Method:	Least Squares	F-statistic:	13.78
Date:	Fri, 17 Jan 2020	Prob (F-statistic):	2.33e-07
Time:	14:39:43	Log-Likelihood:	-380.69
No. Observations:	86	AIC:	769.4
Df Residuals:	82	BIC:	779.2
Df Model:	3
Covariance Type:	nonrobust

	coef	std err	t	P>\|t\|	[0.025	0.975]
const	17.3567	5.772	3.007	0.003	5.875	28.838
Commerce	0.3788	0.095	4.001	0.000	0.190	0.567
Prostitutes	-0.0099	0.004	-2.204	0.030	-0.019	-0.001
Donation_clergy	0.2605	0.092	2.846	0.006	0.078	0.443

Omnibus:	2.237	Durbin-Watson:	1.588
Prob(Omnibus):	0.327	Jarque-Bera (JB):	1.776
Skew:	0.194	Prob(JB):	0.412
Kurtosis:	2.412	Cond. No.	1.39e+03

THE DATA SCIENCE LIBRARY

Wojciech Moszczyński

DIAGNOSTYKA REGRESJI LINIOWEJ część 4. Fit Plot

Guerry, Essay on the Moral Statistics of France (1833)

Teraz będę budował regresjię wieloczynnikową.

Przykład dobrej odpowiedzi modelu: zmienna ‘Donation_clergy’¶

Przykład złej odpowiedzi modelu: zmienna ‘Prostitutes’