图像数据集分布的理解

2024-07-10 11:33| 来源: 网络整理| 查看: 265

图像数据分布在深度学习，计算机视觉中经常会看到，并且会有这么一句话：“要求测试集和训练集的的数据分布是相同的”。那么数据集分布到底是什么？是如何进行分布的呢？如果说两个图像服从同一分布，到底是什么意思呢？

首先我们需要先了解到一张图片可以通过其像素值表示出来，例如一张256*256的灰度图可以通过65536维的向量，每个维度值的范围是0-255，来表示出来。

想象一下，如果这个向量服从均匀分布的话，他会是什么样子呢。如果我们将这样一种随机采样得到的向量解释为图像的话，我们看到一张人脸的可能性极其渺茫，实际上能看到的是一张充满噪声的图像。

为什么你知道看到的不是一张人脸呢？因为你知道一张脸不是由均匀分布的像素组成，而是有另外的一种分布。

因此，两个图像服从同一分布，其实就是将它们转化为向量后，该向量服从某一种分布。直觉上你自然知道mnist和mnist-m分布不同，但是其内部图像服从同一分布。

对于样本空间的分布我们以二维空间为例，我们认为该样本空间的分布就是随机变量X和Y的联合概率分布。而X和Y呢，分别代表二维空间的维度，X和Y代表所有数据的第一维度和第二维度。

因此，对于高维空间来说，我们认为是所有维度的联合概率分布，就是该样本空间或者说是数据集的分布情况了。

【本文地址】

今日新闻