K近邻算法02 |
您所在的位置:网站首页 › 归一化处理使用sklearn的哪一个包和类实现 › K近邻算法02 |
K近邻算法02---sklearn数据集获取(特征值、标签等)、查看数据分布(散点图)、数据集划分(测试和训练集)、特征工程(标准化和归一化)、鸢尾花种类预测的实现流程
原创
wx5cee84fb43fbb 2023-01-09 17:09:29 博主文章分类:机器学习 ©著作权 文章标签 sklearn 近邻算法 机器学习 归一化 数据集 文章分类 机器学习 人工智能 ©著作权归作者所有:来自51CTO博客作者wx5cee84fb43fbb的原创作品,请联系作者获取转载授权,否则将追究法律责任 文章目录1.sklearn数据集的获取(1)scikit-learn数据集API介绍(2) sklearn数据集返回值介绍(3)举例子2.查看数据分布3.数据集划分4.特征工程-特征预处理(标准化和归一化)(1)特征预处理定义(2)归一化(3)标准化(4)标准化和归一化的区别(5)标准化和归一化的例子5.大整合---鸢尾花种类预测(实现流程)1.sklearn数据集的获取(1)scikit-learn数据集API介绍将数据用散点图表示出来。 机器学习一般的数据集会划分为两个部分: 训练数据:用于训练,构建模型测试数据:在模型检验时使用,用于评估模型是否有效划分比例: 训练集:70% 80% 75%测试集:30% 20% 25%通过一些转换函数将特征数据转换成更加适合算法模型的特征数据过程。 为什么我们要进行归一化/标准化? 特征的单位或者大小相差较大,或者某特征的方差相比其他的特征要大出几个数量级,容易影响(支配)目标结果,使得一些算法无法学习到其它的特征。 (2)归一化定义: 通过对原始数据进行变换把数据映射到(默认为[0,1])之间。 公式:定义: 归一化:通过对原始数据进行变换把数据映射到(默认为[0,1])之间。 标准化:通过对原始数据进行变换把数据变换到均值为0,标准差为1范围内 公式:# 1.获取数据load_iris# 2.数据基本处理_数据集划分# 3.特征工程 标准化# 4.机器学习:1.建立模型 2.模型训练# 5.模型评估 准确率 # 1.获取数据 load_iris()iris = load_iris() # 2.数据基本处理-数据集划分x_train,x_test, y_train, y_test = train_test_split(iris.data,iris.target, test_size=0.2) # 3.特征工程# 3.1实例化转换器transfer = StandardScaler()# 3.2转换数据transfer.fit(x_train) #把x_train的数据进行平均值、方差等的计算x_train = transfer.transform(x_train) #把x_train的数据标准化x_test = transfer.transform(x_test) #把x_text的数据表转化 # 4.机器学习# 4.1 建立模型 实例化 估计器estimator = KNeighborsClassifier(n_neighbors=5, algorithm='kd_tree') # 4,2训练模型estimator.fit(x_train, y_train) # 5.模型评估 准确率estimator.score(x_test, y_test) 结果: 0.9666666666666667 赞 收藏 评论 分享 举报 上一篇:A1011 World Cup Betting (20 分) 下一篇:A1036 Boys vs Girls (25 分) |
今日新闻 |
推荐新闻 |
CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3 |