import pandas as pd
import warnings
import numpy as np
import matplotlib.pyplot as plt
import matplotlib.image as image
import pandas_profiling
import yellowbrick
from yellowbrick import ClassBalance
from __future__ import print_function
plt.style.use('ggplot')
plt.rcParams['figure.figsize']=(12,8)
warnings.simplefilter('ignore')
%matplotlib inline

df = pd.read_csv('Personnel_data.csv')
df.reset_index(inplace=True)
df.columns = ['satisfaction_level', 'last_evalation', 'number_project', 'average_monthly_hours', 'time_spend_company', 'work_accident', 'quit', 'promotion_last_5years', 'department', 'salary']
df


df.profile_report(title='Report')


plt.rcParams["figure.figsize"] = [16,9]
pd.crosstab(df.salary, df.quit).plot(kind='bar')
plt.title('Turnover Frequency on Salary Bracket')
plt.xlabel('Salary')
plt.ylabel('Frequency of Turnover')
plt.show()


plt.rcParams["figure.figsize"] = [16,9]
pd.crosstab(df.department, df.quit).plot(kind='bar')
plt.title('Turnover Frequency on Department')
plt.xlabel('Department')
plt.ylabel('Frequency of Turnover')
plt.show()


cat_vars = ['department', 'salary']
for var in cat_vars:
    cat_list=pd.get_dummies(df[var], prefix=var)
    df=df.join(cat_list)
df.head()


df.drop(columns=['department', 'salary'], axis=1, inplace=True)
visualizer = ClassBalance(labels=['stayed', 'quit']).fit(df.quit)
visualizer.show();


from sklearn import tree
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score
from sklearn.tree import export_graphviz 
from IPython.display import SVG
from graphviz import Source
from IPython.display import display
from ipywidgets import interactive, IntSlider, FloatSlider, interact
from IPython.display import Image
from sklearn.model_selection import train_test_split
from subprocess import call
import matplotlib.image as mpimg
import ipywidgets

X = df.loc[:, df.columns != 'quit']
y = df.quit

X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=0, test_size=0.2, stratify=y)


import os
os.environ["PATH"] += os.pathsep + 'D:/Program Files (x86)/Graphviz2.38/bin/'

@interact
def plot_tree(crit=['gini', 'entropy'],
              split=['best', 'random'],
              depth=IntSlider(min=1,max=30,value=2, continuous_update=False),
              min_split=IntSlider(min=2,max=5,value=2, continuous_update=False),
              min_leaf=IntSlider(min=1,max=5,value=1, continuous_update=False)):
    estimator = DecisionTreeClassifier(random_state=0,
                                      criterion=crit,
                                      splitter=split,
                                      max_depth=depth,
                                      min_samples_split=min_split,
                                      min_samples_leaf=min_leaf)
    estimator.fit(X_train, y_train)
    print('Decision Tree Training Accuracy: {:.3f}'.format(accuracy_score(y_train, estimator.predict(X_train))))
    print('Decision Tree Accuracy {:.3f}'.format(accuracy_score(y_test, estimator.predict(X_test))))
    graph = Source(tree.export_graphviz(estimator, out_file=None,
                                       feature_names=X_train.columns,
                                       class_names=['stayed', 'quit'],
                                       filled=True))
    display(Image(data=graph.pipe(format='png')))


@interact
def plot_tree(crit=['gini', 'entropy'],
              bootstrap=['True', 'False'],
              depth=IntSlider(min=1,max=30,value=3, continuous_update=False),
              forests=IntSlider(min=1,max=200,value=100, continuous_update=False),
              min_split=IntSlider(min=2,max=5,value=2, continuous_update=False),
              min_leaf=IntSlider(min=1,max=5,value=1, continuous_update=False)):
    
    estimator = RandomForestClassifier(random_state=1,
                                      criterion=crit,
                                      bootstrap=bootstrap,
                                      n_estimators=forests,
                                      max_depth=depth,
                                      min_samples_split=min_split,
                                      min_samples_leaf=min_leaf,
                                      n_jobs=-1,
                                      verbose=False)
    estimator.fit(X_train, y_train)
    print('Random Forest Training Accuracy: {:.3f}'.format(accuracy_score(y_train, estimator.predict(X_train))))
    print('Random Forest Test Accuracy {:.3f}'.format(accuracy_score(y_test, estimator.predict(X_test))))
    num_tree = estimator.estimators_[0]
    print('\Visualizing Tree: ', 0)
    graph = Source(tree.export_graphviz(num_tree, out_file=None,
                                       feature_names=X_train.columns,
                                       class_names=['stayed', 'quit'],
                                       filled=True))
    display(Image(data=graph.pipe(format='png')))


from yellowbrick.model_selection import FeatureImportances
plt.rcParams['figure.figsize']=(12,8)
plt.style.use('ggplot')

rand_forest =  RandomForestClassifier(bootstrap='True', class_weight=None, criterion='gini',
                             max_depth=5, max_features='auto', max_leaf_nodes=None,
                             min_impurity_decrease=0.0, min_impurity_split=None,
                             min_samples_leaf=1, min_samples_split=2,
                             min_weight_fraction_leaf=0.0, n_estimators=100, n_jobs=-1,
                             oob_score=False, random_state=1,verbose=False,
                             warm_start=False)
viz = FeatureImportances(rand_forest)
viz.fit(X_train, y_train)
viz.show();


deci_tree =  DecisionTreeClassifier(class_weight=None, criterion='gini',
                             max_depth=3, max_features=None, max_leaf_nodes=None,
                             min_impurity_decrease=0.0, min_impurity_split=None,
                             min_samples_leaf=1, min_samples_split=2,
                             min_weight_fraction_leaf=0.0, presort=False, random_state=0,
                             splitter='best')
viz = FeatureImportances(deci_tree)
viz.fit(X_train, y_train)
viz.show();


from yellowbrick.classifier import ROCAUC

visualizer = ROCAUC(rand_forest, classes=['stayed', 'quit'])
visualizer.fit(X_train, y_train)
visualizer.score(X_test, y_test)
visualizer.poof();


visualizer = ROCAUC(deci_tree, classes=['stayed', 'quit'])
visualizer.fit(X_train, y_train)
visualizer.score(X_test, y_test)
visualizer.poof();

	satisfaction_level	last_evalation	number_project	average_monthly_hours	time_spend_company	work_accident	quit	promotion_last_5years	department	salary
0	0.40	0.56	2	149	3	0	1	0	accounting	low
1	0.90	0.97	4	258	5	0	1	0	accounting	low
2	0.37	0.46	2	158	3	0	1	0	hr	low
3	0.44	0.54	2	149	3	0	1	0	hr	low
4	0.85	0.95	5	236	5	0	1	0	hr	low
...	...	...	...	...	...	...	...	...	...	...
14770	0.40	0.57	2	151	3	0	1	0	support	low
14771	0.37	0.48	2	160	3	0	1	0	support	low
14772	0.37	0.53	2	143	3	0	1	0	support	low
14773	0.11	0.96	6	280	4	0	1	0	support	low
14774	0.37	0.52	2	158	3	0	1	0	support	low

	satisfaction_level	last_evalation	number_project	average_monthly_hours	time_spend_company	quit	department	salary	...	department_hr	salary_low
0	0.40	0.56	2	149	3	1	accounting	low	...	0	1
1	0.90	0.97	4	258	5	1	accounting	low	...	0	1
2	0.37	0.46	2	158	3	1	hr	low	...	1	1
3	0.44	0.54	2	149	3	1	hr	low	...	1	1
4	0.85	0.95	5	236	5	1	hr	low	...	1	1

Personnel Turnover Prediction - Decision Tree & Random Forest¶

Introduction¶

Objetive¶

Exploratory Data Analysis¶

Training and Test Split¶

Decision Tree and Random Forest Interactive Models¶

Feature Importance and Evaluation Metrics¶

Conclussion¶