【机器学习基础】获取机器学习和深度学习的练习数据

您所在的位置:网站首页 yelp官网 【机器学习基础】获取机器学习和深度学习的练习数据

【机器学习基础】获取机器学习和深度学习的练习数据

2022-12-29 08:17| 来源: 网络整理| 查看: 265

0.导语

初学者学习机器学习和深度学习的时候,经常会找不到练习的数据,本文提供了获取数据的一些方法。

一、scikit-learn自带数据集

Scikit-learn内置了很多可以用于机器学习的数据,可以用两行代码就可以使用这些数据。

一、自带数据集

自带的小的数据集为:sklearn.datasets.load_

load_boston

Boston房屋价格

回归

506*13

fetch_california_housing

加州住房

回归

20640*9

load_diabetes

糖尿病

回归

442*10

load_digits

手写字

分类

1797*64

load_breast_cancer

乳腺癌

分类、聚类

(357+212)*30

load_iris

鸢尾花

分类、聚类

(50*3)*4

load_wine

葡萄酒

分类

(59+71+48)*13

load_linnerud

体能训练

多分类

20

怎么用:

数据集的信息关键字:

DESCR:数据集的描述信息data:内部数据(即:X)feature_names:数据字段名target:数据标签(即:y)target_names:标签字段名(回归数据集无此项) 使用方法(以load_iris为例)

数据介绍:

一般用于做分类测试有150个数据集,共分为3类,每类50个样本。每个样本有4个特征。每条记录都有 4 项特征:包含4个特征(Sepal.Length(花萼长度)、Sepal.Width(花萼宽度)、Petal.Length(花瓣长度)、Petal.Width(花瓣宽度)),特征值都为正浮点数,单位为厘米。可以通过这4个特征预测鸢尾花卉属于(iris-setosa(山鸢尾), iris-versicolour(杂色鸢尾), iris-virginica(维吉尼亚鸢尾))中的哪一品种。

第一步:

导入数据

from sklearn.datasets import load_irisiris = load_iris()第二步:

定义X和yX, y = iris.data, iris.target此外,可以看下数据的维度:

X.shape,y.shape输出为:

((150, 4), (150,))查看特征名:iris.feature_names输出为:['sepal length (cm)', 'sepal width (cm)', 'petal length (cm)', 'petal width (cm)']查看标签名:

iris.target_names

输出为:

array(['setosa', 'versicolor', 'virginica'], dtype='


【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3