【机器学习基础】获取机器学习和深度学习的练习数据 |
您所在的位置:网站首页 › yelp官网 › 【机器学习基础】获取机器学习和深度学习的练习数据 |
0.导语 初学者学习机器学习和深度学习的时候,经常会找不到练习的数据,本文提供了获取数据的一些方法。 一、scikit-learn自带数据集Scikit-learn内置了很多可以用于机器学习的数据,可以用两行代码就可以使用这些数据。 一、自带数据集自带的小的数据集为:sklearn.datasets.load_ load_boston Boston房屋价格 回归 506*13 fetch_california_housing 加州住房 回归 20640*9 load_diabetes 糖尿病 回归 442*10 load_digits 手写字 分类 1797*64 load_breast_cancer 乳腺癌 分类、聚类 (357+212)*30 load_iris 鸢尾花 分类、聚类 (50*3)*4 load_wine 葡萄酒 分类 (59+71+48)*13 load_linnerud 体能训练 多分类 20 怎么用: 数据集的信息关键字: DESCR:数据集的描述信息data:内部数据(即:X)feature_names:数据字段名target:数据标签(即:y)target_names:标签字段名(回归数据集无此项) 使用方法(以load_iris为例)数据介绍: 一般用于做分类测试有150个数据集,共分为3类,每类50个样本。每个样本有4个特征。每条记录都有 4 项特征:包含4个特征(Sepal.Length(花萼长度)、Sepal.Width(花萼宽度)、Petal.Length(花瓣长度)、Petal.Width(花瓣宽度)),特征值都为正浮点数,单位为厘米。可以通过这4个特征预测鸢尾花卉属于(iris-setosa(山鸢尾), iris-versicolour(杂色鸢尾), iris-virginica(维吉尼亚鸢尾))中的哪一品种。第一步: 导入数据 from sklearn.datasets import load_irisiris = load_iris()第二步:定义X和yX, y = iris.data, iris.target此外,可以看下数据的维度: X.shape,y.shape输出为: ((150, 4), (150,))查看特征名:iris.feature_names输出为:['sepal length (cm)', 'sepal width (cm)', 'petal length (cm)', 'petal width (cm)']查看标签名: iris.target_names输出为: array(['setosa', 'versicolor', 'virginica'], dtype=' |
今日新闻 |
推荐新闻 |
CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3 |