K近邻算法02

您所在的位置:网站首页 归一化处理使用sklearn的哪一个包和类实现 K近邻算法02

K近邻算法02

2023-07-08 11:21| 来源: 网络整理| 查看: 265

K近邻算法02---sklearn数据集获取(特征值、标签等)、查看数据分布(散点图)、数据集划分(测试和训练集)、特征工程(标准化和归一化)、鸢尾花种类预测的实现流程 原创

wx5cee84fb43fbb 2023-01-09 17:09:29 博主文章分类:机器学习 ©著作权

文章标签 sklearn 近邻算法 机器学习 归一化 数据集 文章分类 机器学习 人工智能

©著作权归作者所有:来自51CTO博客作者wx5cee84fb43fbb的原创作品,请联系作者获取转载授权,否则将追究法律责任

文章目录​​1.sklearn数据集的获取​​​​(1)scikit-learn数据集API介绍​​​​(2) sklearn数据集返回值介绍​​​​(3)举例子​​​​2.查看数据分布​​​​3.数据集划分​​​​4.特征工程-特征预处理(标准化和归一化)​​​​(1)特征预处理定义​​​​(2)归一化​​​​(3)标准化​​​​(4)标准化和归一化的区别​​​​(5)标准化和归一化的例子​​​​5.大整合---鸢尾花种类预测(实现流程)​​1.sklearn数据集的获取(1)scikit-learn数据集API介绍

K近邻算法02---sklearn数据集获取(特征值、标签等)、查看数据分布(散点图)、数据集划分(测试和训练集)、特征工程(标准化和归一化)、鸢尾花种类预测的实现流程_近邻算法

(2) sklearn数据集返回值介绍

K近邻算法02---sklearn数据集获取(特征值、标签等)、查看数据分布(散点图)、数据集划分(测试和训练集)、特征工程(标准化和归一化)、鸢尾花种类预测的实现流程_机器学习_02

(3)举例子小数据 获取数据

K近邻算法02---sklearn数据集获取(特征值、标签等)、查看数据分布(散点图)、数据集划分(测试和训练集)、特征工程(标准化和归一化)、鸢尾花种类预测的实现流程_sklearn_03

获取特征值

K近邻算法02---sklearn数据集获取(特征值、标签等)、查看数据分布(散点图)、数据集划分(测试和训练集)、特征工程(标准化和归一化)、鸢尾花种类预测的实现流程_sklearn_04

获取目标值

K近邻算法02---sklearn数据集获取(特征值、标签等)、查看数据分布(散点图)、数据集划分(测试和训练集)、特征工程(标准化和归一化)、鸢尾花种类预测的实现流程_机器学习_05

获取特征名字

K近邻算法02---sklearn数据集获取(特征值、标签等)、查看数据分布(散点图)、数据集划分(测试和训练集)、特征工程(标准化和归一化)、鸢尾花种类预测的实现流程_机器学习_06

获取大数据集合

K近邻算法02---sklearn数据集获取(特征值、标签等)、查看数据分布(散点图)、数据集划分(测试和训练集)、特征工程(标准化和归一化)、鸢尾花种类预测的实现流程_数据集_07

2.查看数据分布

将数据用散点图表示出来。

K近邻算法02---sklearn数据集获取(特征值、标签等)、查看数据分布(散点图)、数据集划分(测试和训练集)、特征工程(标准化和归一化)、鸢尾花种类预测的实现流程_近邻算法_08

使用sns

K近邻算法02---sklearn数据集获取(特征值、标签等)、查看数据分布(散点图)、数据集划分(测试和训练集)、特征工程(标准化和归一化)、鸢尾花种类预测的实现流程_sklearn_09

使用plt绘制散点图3.数据集划分

机器学习一般的数据集会划分为两个部分:

训练数据:用于训练,构建模型测试数据:在模型检验时使用,用于评估模型是否有效

划分比例:

训练集:70% 80% 75%测试集:30% 20% 25%

K近邻算法02---sklearn数据集获取(特征值、标签等)、查看数据分布(散点图)、数据集划分(测试和训练集)、特征工程(标准化和归一化)、鸢尾花种类预测的实现流程_近邻算法_10

K近邻算法02---sklearn数据集获取(特征值、标签等)、查看数据分布(散点图)、数据集划分(测试和训练集)、特征工程(标准化和归一化)、鸢尾花种类预测的实现流程_sklearn_11

4.特征工程-特征预处理(标准化和归一化)(1)特征预处理定义

通过一些转换函数将特征数据转换成更加适合算法模型的特征数据过程。

为什么我们要进行归一化/标准化?

特征的单位或者大小相差较大,或者某特征的方差相比其他的特征要大出几个数量级,容易影响(支配)目标结果,使得一些算法无法学习到其它的特征。

(2)归一化

定义: 通过对原始数据进行变换把数据映射到(默认为[0,1])之间。

公式:

K近邻算法02---sklearn数据集获取(特征值、标签等)、查看数据分布(散点图)、数据集划分(测试和训练集)、特征工程(标准化和归一化)、鸢尾花种类预测的实现流程_归一化_12

API

K近邻算法02---sklearn数据集获取(特征值、标签等)、查看数据分布(散点图)、数据集划分(测试和训练集)、特征工程(标准化和归一化)、鸢尾花种类预测的实现流程_归一化_13

(3)标准化

定义: 归一化:通过对原始数据进行变换把数据映射到(默认为[0,1])之间。 标准化:通过对原始数据进行变换把数据变换到均值为0,标准差为1范围内

公式:

K近邻算法02---sklearn数据集获取(特征值、标签等)、查看数据分布(散点图)、数据集划分(测试和训练集)、特征工程(标准化和归一化)、鸢尾花种类预测的实现流程_归一化_14

API

K近邻算法02---sklearn数据集获取(特征值、标签等)、查看数据分布(散点图)、数据集划分(测试和训练集)、特征工程(标准化和归一化)、鸢尾花种类预测的实现流程_归一化_15

(4)标准化和归一化的区别对于归一化来说:如果出现异常点,影响了最大值和最小值,那么结果显然会发生改变对于标准化来说:如果出现异常点,由于具有一定数据量,少量的异常点对于平均值的影响并不大,从而方差改变较小。(5)标准化和归一化的例子导入数据

K近邻算法02---sklearn数据集获取(特征值、标签等)、查看数据分布(散点图)、数据集划分(测试和训练集)、特征工程(标准化和归一化)、鸢尾花种类预测的实现流程_sklearn_16

归一化

K近邻算法02---sklearn数据集获取(特征值、标签等)、查看数据分布(散点图)、数据集划分(测试和训练集)、特征工程(标准化和归一化)、鸢尾花种类预测的实现流程_机器学习_17

特征化

K近邻算法02---sklearn数据集获取(特征值、标签等)、查看数据分布(散点图)、数据集划分(测试和训练集)、特征工程(标准化和归一化)、鸢尾花种类预测的实现流程_机器学习_18

5.大整合—鸢尾花种类预测(实现流程)from sklearn.datasets import load_iris #获取数据from sklearn.model_selection import train_test_split # 数据分析from sklearn.preprocessing import StandardScaler #标准化from sklearn.neighbors import KNeighborsClassifier #KNN算法from sklearn.model_selection import GridSearchCVimport pandas as pd

# 1.获取数据load_iris# 2.数据基本处理_数据集划分# 3.特征工程 标准化# 4.机器学习:1.建立模型 2.模型训练# 5.模型评估 准确率

# 1.获取数据 load_iris()iris = load_iris()

# 2.数据基本处理-数据集划分x_train,x_test, y_train, y_test = train_test_split(iris.data,iris.target, test_size=0.2)

# 3.特征工程# 3.1实例化转换器transfer = StandardScaler()# 3.2转换数据transfer.fit(x_train) #把x_train的数据进行平均值、方差等的计算x_train = transfer.transform(x_train) #把x_train的数据标准化x_test = transfer.transform(x_test) #把x_text的数据表转化

# 4.机器学习# 4.1 建立模型 实例化 估计器estimator = KNeighborsClassifier(n_neighbors=5, algorithm='kd_tree')

# 4,2训练模型estimator.fit(x_train, y_train)

# 5.模型评估 准确率estimator.score(x_test, y_test)

结果:

0.9666666666666667

收藏 评论 分享 举报

上一篇:A1011 World Cup Betting (20 分)

下一篇:A1036 Boys vs Girls (25 分)



【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3