Python使用Scikit-learn的K-Means实战
环境搭建及准备工作:
1. 安装Python环境:Scikit-learn是基于Python的机器学习库,需要首先安装Python。可以从官方网站(https://www.python.org/)下载Python的最新版本然后进行安装。
2. 安装Scikit-learn库:使用pip命令来安装Scikit-learn库,命令如下:
pip install scikit-learn
依赖的类库:
本示例中仅使用Scikit-learn库。
数据集介绍:
本示例以Iris鸢尾花数据集为例,该数据集是机器学习领域中非常经典的数据集之一,用于多分类问题。数据集包含了150个样本,每个样本有4个特征,分为3类。
数据集下载网址:
Iris数据集是Scikit-learn库自带的示例数据集,可以通过以下代码进行加载:
python
from sklearn.datasets import load_iris
iris = load_iris()
样例数据:
Iris数据集中的样本包含了4个特征,分别是花萼长度、花萼宽度、花瓣长度和花瓣宽度。每个样本都带有标签,标签表示花的品种。
完整的样例代码如下:
python
from sklearn.datasets import load_iris
from sklearn.cluster import KMeans
# 加载Iris数据集
iris = load_iris()
X = iris.data
# 创建KMeans模型,并设置聚类中心数量为3
kmeans = KMeans(n_clusters=3)
# 训练模型
kmeans.fit(X)
# 预测类别
labels = kmeans.predict(X)
# 输出每个样本的类别
for i in range(len(X)):
print("Sample:", X[i], " Label:", labels[i])
运行上述代码,可以得到每个样本的特征以及它们所属的聚类类别。
总结:
本示例介绍了Python中使用Scikit-learn库的K-Means算法的实战。首先进行环境搭建及准备工作,然后介绍了相关的类库和数据集。样例代码中加载了Iris数据集,使用K-Means算法对数据集进行聚类,并输出每个样本的聚类类别。最后,通过运行代码可以得到每个样本的类别。