如何科学地评估和评判深度学习模型?

您所在的位置:网站首页 显著性大于095 如何科学地评估和评判深度学习模型?

如何科学地评估和评判深度学习模型?

2024-07-14 05:03| 来源: 网络整理| 查看: 265

最近在考虑要发Paper,在模型的性能比较中,除了采用Precision/Recall的比较之外,为了进一步验证论文中的选择是存在可证明性的,因此考虑了使用F-test对多种模型算法进行统计显著性检验。

常见的模型评估与方法 误分率(misclassification rate),即准确度。 精确率(precision)和召回率(recall) 计算F1 ROC曲线,ROC_AUC k-fold cross-validation

以上这些方法都能为模型的评估和选择提供有利的帮助,但是有时候会存在几个模型精度相差不多,无法科学的评判选择的情况。此时,为了更进一步的检验其显著性,统计显著性检验的方法就起到很好的的作用。

常用的显著性检验方法 Student's t-test

通过小样本来对总体均值或者总体之间均值的差异的推断通常使用t检验。

\[假设X_1,X_2,...,X_n 遵循独立的分布 N(\mu,\sigma^2),i.e. 样本数量为n ,均值为 \mu ,方差为\sigma^2 .\\ 随机变量 \frac{\overline{X}-\mu}{\sigma/\sqrt{n}} 有一个标准的正态分布。由于总体方差未知,可以通过样本方差来估计,但是对于小样本,\\ \frac{\overline{X}-\mu}{S/\sqrt{n}}不再服从正态分布,而是服从 Student's t-distribution(n-1).\\ 其中,样本方差为 S^2 = \frac{1}{n-1}\sum_{i=1}^n(X_i-\overline{X})^2.得到的统计量t:\\ t=\frac{\overline{X}-\mu}{S/\sqrt{n}}\\ 随着n的增大,S逐渐趋近于\sigma,而t分布也越来越接近正态分布。 \]

一般常用双总体t检验,two-sample t-test 。 来检验总体的均值的差异是否显著。

检验统计量为:

\[t=\frac{\overline{X_1}-\overline{X_2}}{\sqrt{\frac{(n_1-1)S_1^2+(n_2-1)S_2^2}{(n_1+n_2-2)}(\frac{1}{n_1}+\frac{1}{n_2})}} \]

F-test

F检验又叫方差齐性检验。在两样本t检验中要用到F检验。

从两研究总体中随机抽取样本,要对这两个样本进行比较的时候,首先要判断两总体方差是否相同,即方差齐性。若两总体方差相等,则直接用t检验,若不等,可采用t'检验或变量变换或秩和检验等方法。

其中要判断两总体方差是否相等,就可以用F检验。

假设检验中 P



【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3