机器学习算法：决策树、聚类算法和回归理解

您所在的位置：网站首页 › 聚类算法是什么专业 › 机器学习算法：决策树、聚类算法和回归理解

机器学习算法：决策树、聚类算法和回归理解

2024-07-12 07:33| 来源: 网络整理| 查看: 265

在这篇文章中我将介绍三大类的机器学习算法，针对大范围的数据科学问题，相信你都能满怀自信去解决。

在接下来的文章中，我们将讨论决策树、聚类算法和回归，指出它们之间的差异，并找出如何为你的案例选择最合适的模型。

有监督的学习 vs. 无监督的学习

理解机器学习的基础，就是要学会对有监督的学习和无监督的学习进行分类，因为机器学习中的任何一个问题，都属于这两大类的范畴。

在有监督学习的情况下，我们有一个数据集，它们将作为输入提供给一些算法。但前提是，我们已经知道正确输出的格式应该是什么样子（假设输入和输出之间存在一些关系）。

我们随后将看到的回归和分类问题都属于这个类别。

另一方面，在我们不知道输出应该是什么样子的情况下，就应该使用无监督学习。事实上，我们需要从输入变量的影响未知的数据中推导出正确的结构。聚类问题是这个类别的主要代表。

为了使上面的分类更清晰，我会列举一些实际的问题，并试着对它们进行相应的分类。

示例一

假设你在经营一家房地产公司。考虑到新房子的特性，你要根据你以前记录的其他房屋的销售量来预测它的售价是多少。你输入的数据集包括多个房子的特性，比如卫生间的数量和大小等，而你想预测的变量（通常称为“目标变量”）就是价格。预测房屋的售价是一个有监督学习问题，更确切地说，是回归问题。

示例二

假设一个医学实验的目的是预测一个人是否会因为一些体质测量和遗传导致近视程度加深。在这种情况下，输入的数据集是这个人的体质特征，而目标变量有两种：

1 表示可能加深近视，而 0 表示不太可能。预测一个人是否会加深近视也是一个有监督学习问题，更确切地说，是分类问题。

示例三

假设你的公司拥有很多客户。根据他们最近与贵公司的互动情况、他们近期购买的产品以及他们的人口统计数据，你想要形成相似顾客的群体，以便以不同的方式应对他们 - 例如向他们中的一些人提供独家折扣券。在这种情况下，你将使用上述提及的特征作为算法的输入，而算法将决定应该形成的组的数量或类别。这显然是一个无监督学习的例子，因为我们没有任何关于输出会如何的线索，完全不知道结果会怎样。

接下来，我将介绍一些更具体的算法……

回归

首先，回归不是一个单一的监督学习技术，而是一个很多技术所属的完整类别。

回归的主要思想是给定一些输入变量，我们要预测目标值。在回归的情况下，目标变量是连续的 - 这意味着它可以在指定的范围内取任何值。另一方面，输入变量可以是离散的也可以是连续的。

在回归技术中，最流行的是线性回归和逻辑回归。让我们仔细研究一下。

线性回归

在线性回归中，我们尝试在输入变量和目标变量之间构建一段关系，并将这种关系用条直线表示，我们通常将其称为回归线。

例如，假设我们有两个输入变量 X1 和 X2，还有一个目标变量 Y，它们的关系可以用数学公式表示如下：

Y = a * X1 + b*X2 +c

假设 X1 和 X2 的值已知，我们需要将 a，b 和 c 进行调整，从而使 Y 能尽可能的接近真实值。

举个例子！

假设我们拥有著名的 Iris 数据集，它提供了一些方法，能通过花朵的花萼大小以及花瓣大小判断花朵的类别，如：Setosa，Versicolor 和 Virginica。

使用 R 软件，假设花瓣的宽度和长度已给定，我们将实施线性回归来预测萼片的长度。

在数学上，我们会通过以下公式来获取 a、b 值：

SepalLength = a * PetalWidth + b* PetalLength +c

相应的代码如下所示：

# Load required packageslibrary(ggplot2)# Load iris datasetdata(iris)# Have a look at the first 10 observations of the datasethead(iris)# Fit the regression linefitted_model

【本文地址】

机器学习算法：决策树、聚类算法和回归理解

机器学习算法：决策树、聚类算法和回归理解

今日新闻

推荐新闻