xgboost的使用场景（使用XGBoost进行多类分类）

小君 2023-06-12 14:22:07 597

xgboost的使用场景（使用XGBoost进行多类分类）max_depth：树的最大深度。增加这个值会使模型更复杂，更容易过度拟合。只有当tree_方法被设为histand时，0才被接受，它的深度没有限制。注意，在训练深度树时，XGBoost会大量消耗内存。params = { 'max_depth': 6 'objective': 'multi:softmax' 'num_class': 3 } 参数表示：features = [ 'alcohol' 'malic_acid' 'ash' 'alcalinity_of_ash' 'magnesium' 'total_phenols' 'flavanoids' 'nonflavanoid_phenols' 'proanthocyanins' 'color_intensity' 'hue' 'od280/od315_of_diluted_wines' 'pr

xgboost的使用场景（使用XGBoost进行多类分类）(1)

XGBoost在各种Kaggle比赛中表现出色，在准确性和分数方面与深度学习算法有着良好的竞争，已经非常出名。

尽管XGBoost是机器学习问题的众多解决方案之一，要将XGBoost主模块用于多类分类问题，需要更改两个参数的值:objective和num_class。让我们在wine数据集（https://archive.ics.uci.edu/ml/datasets/wine）的实践中看看它。

我们首先从Scikit Learn dataset API读取数据。

import pandas as pd from sklearn.datasets import load_wine from sklearn.model_selection import train_test_split X y = load_wine(return_X_y=True)

xgboost的使用场景（使用XGBoost进行多类分类）(2)

然后添加列名，以获得外观正确的机器学习数据集。

features = [ 'alcohol' 'malic_acid' 'ash' 'alcalinity_of_ash' 'magnesium' 'total_phenols' 'flavanoids' 'nonflavanoid_phenols' 'proanthocyanins' 'color_intensity' 'hue' 'od280/od315_of_diluted_wines' 'proline' ] X = pd.DataFrame(data=X columns=features) y = pd.DataFrame(data=y columns=['classes'])

xgboost的使用场景（使用XGBoost进行多类分类）(3)

为训练集和测试集分割数据并得到我们的dmatrices。

X_train X_test y_train y_test = train_test_split(X y test_size=0.3 random_state=42 stratify=y) dtrain = xgb.DMatrix(data=X_train label=y_train) dtest = xgb.DMatrix(data=X_test)

xgboost的使用场景（使用XGBoost进行多类分类）(4)