dtrizna · September 21, 2022 06:28 · Sep 21, 2022 · Sep 21, 2022 · Sep 21, 2022 · Sep 21, 2022
diff --git a/cross_validation_xgbclassifier.py b/cross_validation_xgbclassifier.py
@@ -1,4 +1,3 @@
-from xgboost import XGBClassifier
 from sklearn.model_selection import cross_validate
 from sklearn.model_selection import StratifiedKFold
 

diff --git a/cross_validation_xgbclassifier.py b/cross_validation_xgbclassifier.py
@@ -15,4 +15,4 @@ def print_scores(cv):
     cv[key] = cross_validate(xgb_model, X[key], y, cv=skf, scoring=metrics)
 
     print(f"{key}:")
-    print_scores(cv)
+    print_scores(cv[key])
diff --git a/cross_validation_xgbclassifier.py b/cross_validation_xgbclassifier.py
@@ -2,9 +2,17 @@
 from sklearn.model_selection import cross_validate
 from sklearn.model_selection import StratifiedKFold
 
+def print_scores(cv):
+    means = np.mean(list(cv.values()), axis=1)
+    [print(f"\tAverage {x[0].strip('test_'):<10} over all folds: {x[1]:.2f}") for x in zip(cv.keys(), means) if "test_" in x[0]]
+    print()
+
 cv = {}
 metrics = ["accuracy", "precision", "recall", "f1", "roc_auc"]
 for key in ["HashingVectorizer", "TfidfVectorizer"]:
     xgb_model = XGBClassifier(n_estimators=100, use_label_encoder=False, eval_metric="logloss")
     skf = StratifiedKFold(n_splits=5, random_state=42, shuffle=True)
-    cv[key] = cross_validate(xgb_model, X[key], y, cv=skf, scoring=metrics)
+    cv[key] = cross_validate(xgb_model, X[key], y, cv=skf, scoring=metrics)
+
+    print(f"{key}:")
+    print_scores(cv)
diff --git a/cross_validation_xgbclassifier.py b/cross_validation_xgbclassifier.py
@@ -6,5 +6,5 @@
 metrics = ["accuracy", "precision", "recall", "f1", "roc_auc"]
 for key in ["HashingVectorizer", "TfidfVectorizer"]:
     xgb_model = XGBClassifier(n_estimators=100, use_label_encoder=False, eval_metric="logloss")
-    skf = StratifiedKFold(n_splits=5, random_state=RANDOM_SEED, shuffle=True)
+    skf = StratifiedKFold(n_splits=5, random_state=42, shuffle=True)
     cv[key] = cross_validate(xgb_model, X[key], y, cv=skf, scoring=metrics)
diff --git a/cross_validation_xgbclassifier.py b/cross_validation_xgbclassifier.py
@@ -3,6 +3,7 @@
 from sklearn.model_selection import StratifiedKFold
 
 cv = {}
+metrics = ["accuracy", "precision", "recall", "f1", "roc_auc"]
 for key in ["HashingVectorizer", "TfidfVectorizer"]:
     xgb_model = XGBClassifier(n_estimators=100, use_label_encoder=False, eval_metric="logloss")
     skf = StratifiedKFold(n_splits=5, random_state=RANDOM_SEED, shuffle=True)

diff --git a/cross_validation_xgbclassifier.py b/cross_validation_xgbclassifier.py
@@ -3,7 +3,7 @@
 from sklearn.model_selection import StratifiedKFold
 
 cv = {}
-for key in ["HashingVectorizer", "TF-IDF", "One-Hot"]:
+for key in ["HashingVectorizer", "TfidfVectorizer"]:
     xgb_model = XGBClassifier(n_estimators=100, use_label_encoder=False, eval_metric="logloss")
     skf = StratifiedKFold(n_splits=5, random_state=RANDOM_SEED, shuffle=True)
     cv[key] = cross_validate(xgb_model, X[key], y, cv=skf, scoring=metrics)
diff --git a/cross_validation_xgbclassifier.py b/cross_validation_xgbclassifier.py
@@ -0,0 +1,9 @@
+from xgboost import XGBClassifier
+from sklearn.model_selection import cross_validate
+from sklearn.model_selection import StratifiedKFold
+
+cv = {}
+for key in ["HashingVectorizer", "TF-IDF", "One-Hot"]:
+    xgb_model = XGBClassifier(n_estimators=100, use_label_encoder=False, eval_metric="logloss")
+    skf = StratifiedKFold(n_splits=5, random_state=RANDOM_SEED, shuffle=True)
+    cv[key] = cross_validate(xgb_model, X[key], y, cv=skf, scoring=metrics)
No results found