Python使用Scikit-learn决策树实战

环境搭建和准备工作: 1. 确保已安装Python和pip，建议使用Python 3.x版本。 2. 安装Scikit-learn库：可以使用以下命令进行安装： pip install -U scikit-learn 3. 导入所需类库： import pandas as pd from sklearn.tree import DecisionTreeClassifier from sklearn.model_selection import train_test_split from sklearn import metrics 数据集介绍和下载网址: 本例使用的是Iris（鸢尾花）数据集，它是一个常用的分类实验数据集，包含了150个样本，分为3类，每类50个样本，每个样本包含4个特征：花萼长度、花萼宽度、花瓣长度和花瓣宽度。数据集下载网址：https://archive.ics.uci.edu/ml/datasets/iris 样例代码实现: python # 读取数据集 url = "https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data" names = ['sepal-length', 'sepal-width', 'petal-length', 'petal-width', 'class'] dataset = pd.read_csv(url, names=names) # 数据集划分为特征和目标变量 X = dataset.iloc[:, :-1] y = dataset.iloc[:, -1] # 数据集划分为训练集和测试集 X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=1) # 创建决策树分类器 clf = DecisionTreeClassifier() # 使用训练集训练模型 clf.fit(X_train, y_train) # 预测测试集 y_pred = clf.predict(X_test) # 计算准确率 accuracy = metrics.accuracy_score(y_test, y_pred) print("准确率:", accuracy) 总结: 本文介绍了Python使用Scikit-learn库中的决策树算法进行分类任务的实战。首先进行了环境搭建和准备工作，包括安装Scikit-learn和导入所需类库。然后介绍了使用的数据集Iris，并提供了数据集下载网址。接着给出了完整的样例代码，包括数据集读取、特征和目标变量划分、训练模型、预测和计算准确率等步骤。最后对整个过程进行了总结。