Python使用Scikit-learn决策树实战
环境搭建和准备工作:
1. 确保已安装Python和pip,建议使用Python 3.x版本。
2. 安装Scikit-learn库:可以使用以下命令进行安装:
pip install -U scikit-learn
3. 导入所需类库:
import pandas as pd
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import train_test_split
from sklearn import metrics
数据集介绍和下载网址:
本例使用的是Iris(鸢尾花)数据集,它是一个常用的分类实验数据集,包含了150个样本,分为3类,每类50个样本,每个样本包含4个特征:花萼长度、花萼宽度、花瓣长度和花瓣宽度。
数据集下载网址:https://archive.ics.uci.edu/ml/datasets/iris
样例代码实现:
python
# 读取数据集
url = "https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data"
names = ['sepal-length', 'sepal-width', 'petal-length', 'petal-width', 'class']
dataset = pd.read_csv(url, names=names)
# 数据集划分为特征和目标变量
X = dataset.iloc[:, :-1]
y = dataset.iloc[:, -1]
# 数据集划分为训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=1)
# 创建决策树分类器
clf = DecisionTreeClassifier()
# 使用训练集训练模型
clf.fit(X_train, y_train)
# 预测测试集
y_pred = clf.predict(X_test)
# 计算准确率
accuracy = metrics.accuracy_score(y_test, y_pred)
print("准确率:", accuracy)
总结:
本文介绍了Python使用Scikit-learn库中的决策树算法进行分类任务的实战。首先进行了环境搭建和准备工作,包括安装Scikit-learn和导入所需类库。然后介绍了使用的数据集Iris,并提供了数据集下载网址。接着给出了完整的样例代码,包括数据集读取、特征和目标变量划分、训练模型、预测和计算准确率等步骤。最后对整个过程进行了总结。