医疗健康相关的人工智能(AI)的底层逻辑是什么?

您所在的位置:网站首页 publicholiday什么意思 医疗健康相关的人工智能(AI)的底层逻辑是什么?

医疗健康相关的人工智能(AI)的底层逻辑是什么?

2023-04-15 12:03| 来源: 网络整理| 查看: 265

人工智能(AI)这个词最早出现在1956年达特茅斯夏季研讨会上,当时它被广泛地称为“思考机器”。简单地说,人工智能可以被定义为一种机器从足够多的有代表性的例子中学习和识别模式和关系,并有效地利用这些信息对看不见的数据进行决策的能力。人工智能是一个涵盖机器学习和深度学习(有时是同义词)的广泛术语。

广义上,机器学习是AI的一个子领域,而深度学习是机器学习的一个子集,主要关注于深度人工神经网络(即具有多个完全连接的隐含层的人工神经网络。近年来,由于在人脸识别和图像分类等计算机视觉任务中取得了前所未有的成功,深度学习获得了巨大的吸引力。

卷积神经网络(CNN)是最受欢迎的用于医学相关图像分类的深度学习架构(图一)。CNN对结构化数据(比如图像的原始像素)应用一系列非线性变换来自动学习相关特征,不像传统的机器学习模型经常需要手动的特征管理。另一方面,很难说CNN学到了哪些特性,这使得他们成为了很多人所说的“黑盒子”。其结果之一是,用于CNN的图像应该经过仔细的预处理,以减少模型从图像伪影中学习的风险。

CNN模型主要有两种方法。一种是转移学习,它使用来自大量自然对象集合的图像(比如ImageNet)来训练模型的初始层(其中模型学习识别一般特征,如形状和边缘),然后使用特定疾病的数据来微调最后一层的训练参数。CNN的第二次变化是基于一个自编码器,模型从一个有代表性的图像子集中学习背景特征,然后将其编码为基本特征的压缩表示,之后用于初始化CNN。

在CAMELYON挑战赛——一场从苏苏素和伊红染色肿瘤全幻灯片图像(WSI)中识别和分类乳腺癌患者淋巴结转移的众包竞赛中,提交的32种算法中有25种是CNNs,排名前5的分类模型是专门基于转移学习的,分别是GoogLeNet、ResNet、 Khosravi和同时对几种最先进的深度学习模型进行了培训和测试,以将WSI从癌症基因组图谱(TCGA)队列中HE染色的肿瘤组织中分类。

数据选择:从其他大型数据集生成预测模型

在过去的十年中,一些国家和国际的倡议产生了大量的癌症数据集。这些数据集是通过使用不同的高通量平台和技术对肿瘤样本进行分析获得的。它们经常被用来建立预测模型,为研究提供信息,并可能最终为临床决策提供信息。

TCGA是迄今为止最全面的公开可获得的肿瘤图谱汇编,包括大量涵盖基因组学、表观基因组学、蛋白质组学、组织病理学和放射学图像的数据类型。其他努力,如泛癌症全基因组分析(PCAWG)、METABRIC和GENIE也编译了大量癌症基因组图谱并将这些数据公开。性能分析技术随着时间的推移而不断发展。例如,基因组DNA图谱已经从目标面板扩展到整个外显体和整个基因组。基因表达谱分析已经从全基因组微阵列技术发展到RNA测序技术(RNA-seq),再到更细粒度的单细胞RNA-seq技术(scRNA-seq)。

其他成熟的技术已经产生了广泛的数据集,包括DNA甲基化谱、大规模的蛋白质组学研究、微扰研究,包括使用小分子的细胞存活率或细胞毒性测定、RNAi或CRISPR筛选、蛋白质-蛋白质相互作用网络等等。数据集的广度和多样性可以公开使用,也可以在最短的时间内生成,这为集成各种数据类型提供了一个独特的机会。在多个集成的而不是单一的数据源上训练预测模型,如Cheerla和Gevaert,可以提高对癌症患者总体生存率的预测准确率。

数据质量与AI质量:数据质量和模型选择是关键

机器学习工作流的基本策略是相当标准的。数据收集和清理是任何工作流的首要和关键组件,因为模型和它所训练的数据一样好。为了确保收集到的数据的高质量,需要对非图像(如不准确的数据条目和缺失的值)和图像(如来自人工制品的高强度像素和不均匀的光照)数据类型中的可能噪声进行检查和校正。还需要对数据进行审查,以防止可能的偏差导致模型拟合不足或方差过高导致模型拟合过度。

当模型从数据中的伪影或噪声而不是真实信号中学习时,模型就会过度拟合数据。过度拟合的结果是,一个模型可能很难推广到不可见的数据具有不同的偏差。交叉验证、增加训练集大小、手动规划预测特征和使用集成方法等策略被推荐用于减少过拟合的风险。

AI动态调节:机器学习工作流的另一个关键步骤是根据其性能选择和微调最优模型。

AI模型是否准确的量化指标:机器学习模型的性能通常用受试者工作特性曲线下的面积(AUC-ROC,或者简称AUC),它量化了敏感性和特异性之间的权衡。一个好的分类器应该同时达到高灵敏度和高特异性,但强调其中任何一个可能对某些应用是重要的。

AI准确性的判定:

AUC-ROC曲线[1]是针对各种阈值设置下的分类问题的性能度量。ROC是概率曲线,AUC表示可分离的程度或测度,它告诉我们多少模型能够区分类别。AUC越高,模型在将False预测为False,将True预测为True时越好。实例中:AUC越高,该模型在区分有疾病和无疾病的患者中越好。

一般来说,AUC>0.80的曲线下面积(AUC)被认为是好的,但是这个阈值在临床上是否也可以接受取决于临床应用。即使被广泛使用,盲目地依赖AUC作为性能度量也是有缺陷的。对于存在类不平衡的数据集,例如正类(感兴趣的类)示例比负类示例少得多,并且模型的重点是准确地检测出正类的数据集,精确回忆率曲线(AUPRC)下的区域是比AUC更可取的选择。

https://blog.csdn.net/shiaiao/article/details/108936801,深入了解可以点击这个链接

在给定队列(通常分为训练和测试集)上训练和测试模型之后,同样重要的是在外部独立数据集上验证模型,保证模型的稳定性和通用性。人工智能模型的开发不是一个静态的过程,当更新的数据集可用时,需要不时地对模型进行测试。经常需要进行日常维护,以确保模型性能不会由于概念漂移(即输入和输出变量之间的关系随着时间以不可预见的方式变化)而降低。

尽管预测能力一直很高,但数字病理学中使用的许多人工智能方法可以被描述为“黑盒”。也就是说,人工智能方法可以用来区分不同类型的疾病,但通常不能在分类过程中提供一个容易解释的解释。这与训练有素的医生所使用的方法不同,后者使用有充分证据证明的图像特征和细胞形态等数据,并经过数十年的训练来评估疾病。

总结:深度学习架构的选择(例如:卷积神经网络CNN,AlexNe、VGG Net、GoogleNet等方式)+大数据(影像图片、病理图片、基因组&蛋白质结构等数据)+模型训练+检查模型性能精度(AUC等方法)+外部独立数据集上验证模型+日常维护与测试保证通用性。

AI的应用场景:1.癌症的早期发现、诊断和分期

癌症检测的时间、诊断的准确性和分期是肿瘤侵袭性的关键决定因素,并影响临床决策和结果。在短短几年时间里,人工智能对肿瘤学的这一关键领域做出了重大贡献,有时其性能可与人类专家相媲美,并具有可扩展性和自动化方面的额外优势。

2.使用机器学习检测癌症突变

NGS的普遍可用性使得成千上万的癌症实验室有可能对癌症基因、外显体和基因组进行常规测序。识别NGS数据中的遗传变异和突变可以使用多种计算工具完成,但在某些情况下经常失败,如低覆盖率或复杂、重复丰富的基因组区域。

有几个小组已经探索了将突变检测重新定位为机器学习问题的想法。例如,有研究人员开发了基于DNN (incet - v2架构)的深度变异体方法,首先为候选变异体生成读聚图像(从而使其成为一项图像分类任务),然后预测其基因型似然状态(纯合参考、杂合变异体或纯合变异体)的概率,从对齐的NGS reads中检测变异体。该方法在第二届精密FDA真相挑战赛(2016)中获得了SNP检测的最佳性能奖。

3.确定肿瘤细胞的来源

在临床上,确定肿瘤的细胞来源可以提供位点特异性治疗,这已经被报道比全身化疗更有效。这与原发部位未知的肿瘤或从液体活检中获得的cf-DNA有关。不同的肿瘤类型有不同的体细胞突变模式,这些模式可以用来识别肿瘤的起源组织。传统上,来源组织是通过包括免疫组化和基因表达谱分析在内的方法来确定的,但这些方法的准确性估计约为80%,需要进一步改进。作为一种替代方案,PCAWG联盟的研究员建立了基于多类DNN的模型,并将其应用于从包括原发和转移瘤在内的28种癌症类型的大约6000个肿瘤的全基因组中获取的BIN突变计数。该方法背后的基本思想是,区域突变计数代表了基因组区域的染色质可及性,因此可能再现细胞的表观遗传状态的起源。

4.肿瘤的特征(肿瘤微环境)

人工智能有可能帮助自动化病理细胞识别过程,并简化对病理学家来说相对耗时的常规任务,例如估计组织中肿瘤细胞的数量,或从组织形态上确定给定标本的细胞来源。肿瘤细胞性,即肿瘤细胞在标本中的比例,是治疗后残留疾病(病理反应)的一个重要指标。在更实际的层面上,肿瘤细胞性的估计也可以帮助病理学家选择合适的组织块进行进一步的分析,如基因组测序。传统上,病理学家通过检查染色的组织切片来确定肿瘤细胞,这种方法不仅费力,而且由于观察者内和观察者间的差异性,也非常主观。

随着对肿瘤纯度分析的进一步扩展,AI方法被用于肿瘤微环境(TME)的空间和定量评估。肿瘤细胞不断与微环境中的其他细胞相互作用,如免疫细胞和基质细胞,这些相互作用部分决定了肿瘤的进化、转移或对治疗的反应。因此,表征TME对研究这些机制非常重要。这一特性对于在免疫检查点疗法的背景下理解肿瘤-免疫相互作用尤其重要。

5.治疗靶点和药物的发现(药物设计、药物再利用)

ECLIPSE机器学习方法通过利用基因特异性和细胞系特异性数据,基于DepMap数据预测癌症特异性药物靶点。

有研究员从DepMap数据中检测了广泛的分子特征,发现蛋白质组数据(特别是反向蛋白阵列数据)可以高度预测癌细胞系依赖性。这一发现强调了人工智能的通用性,不仅可以预测治疗靶点,还可以评估与预测模型最相关的实验数据类型。

6.患者预后和对治疗的反应

除了免疫疗法,通过组学或图像数据预测患者对其他癌症疗法反应的模型也被广泛报道。Sun和同事将DNNs应用于从乳腺癌患者(来自METABRIC和TCGA)的基因表达、拷贝数改变和临床特征中提取的特征,以预测患者在不同适应症治疗后的预后(AUC > 0.80)

7.预测药效和协同作用

更广泛地说,机器学习算法已经应用于基于分子特征预测药物疗效。这项工作之所以具有重要意义,是因为有大量的癌症药物疗效数据,这些数据来自细胞系实验。虽然细胞系由于遗传漂变或交叉污染是不完善的模型,但它们为人工智能模型提供了大量的数据以供学习。与所有数据集一样,通常需要进行预处理以将潜在噪音降到最低,例如细胞系认证或体内数据验证。

参考^https://blog.csdn.net/shiaiao/article/details/108936801


【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3