【机器学习基础】获取机器学习和深度学习的练习数据

您所在的位置：网站首页 › yelp官网 › 【机器学习基础】获取机器学习和深度学习的练习数据

【机器学习基础】获取机器学习和深度学习的练习数据

2022-12-29 08:17| 来源: 网络整理| 查看: 265

0.导语

初学者学习机器学习和深度学习的时候，经常会找不到练习的数据，本文提供了获取数据的一些方法。

一、scikit-learn自带数据集

Scikit-learn内置了很多可以用于机器学习的数据，可以用两行代码就可以使用这些数据。

一、自带数据集

自带的小的数据集为：sklearn.datasets.load_

load_boston

Boston房屋价格

回归

506*13

fetch_california_housing

加州住房

回归

20640*9

load_diabetes

糖尿病

回归

442*10

load_digits

手写字

分类

1797*64

load_breast_cancer

乳腺癌

分类、聚类

(357+212)*30

load_iris

鸢尾花

分类、聚类

(50*3)*4

load_wine

葡萄酒

分类

(59+71+48)*13

load_linnerud

体能训练

多分类

怎么用：

数据集的信息关键字：

DESCR：数据集的描述信息data：内部数据（即：X）feature_names：数据字段名target：数据标签（即：y）target_names：标签字段名(回归数据集无此项）使用方法（以load_iris为例）

数据介绍：

一般用于做分类测试有150个数据集，共分为3类，每类50个样本。每个样本有4个特征。每条记录都有 4 项特征：包含4个特征（Sepal.Length（花萼长度）、Sepal.Width（花萼宽度）、Petal.Length（花瓣长度）、Petal.Width（花瓣宽度）），特征值都为正浮点数，单位为厘米。可以通过这4个特征预测鸢尾花卉属于（iris-setosa（山鸢尾）, iris-versicolour（杂色鸢尾）, iris-virginica（维吉尼亚鸢尾））中的哪一品种。

第一步：

导入数据

from sklearn.datasets import load_irisiris = load_iris()第二步：

定义X和yX, y = iris.data, iris.target此外，可以看下数据的维度：

X.shape,y.shape输出为：

((150, 4), (150,))查看特征名：iris.feature_names输出为：['sepal length (cm)', 'sepal width (cm)', 'petal length (cm)', 'petal width (cm)']查看标签名：

iris.target_names

输出为：

array(['setosa', 'versicolor', 'virginica'], dtype='

【本文地址】

【机器学习基础】获取机器学习和深度学习的练习数据

【机器学习基础】获取机器学习和深度学习的练习数据

今日新闻

推荐新闻