基于光谱特征分析对中药材的鉴别 |
您所在的位置:网站首页 › 波数和吸光度 › 基于光谱特征分析对中药材的鉴别 |
基于光谱特征相关性分析对中药材的鉴别
摘要 本文研究中药材的鉴别,基于不同中药材的光谱特征对中药材的种类和产地进行鉴别。中药材的产地对药材的道地性有很大的影响,仅从红外光谱图的表观图谱特征无法对不同的药材进行鉴别,必须借助于数学分析手段。结合系统聚类分析、相关性分析建立数学模型。 针对问题一,根据中红外光谱数据鉴别药材的种类,分析不同种类药材的特征和差异性。本文建立聚类分析数学模型,用SPSS软件根据欧氏距离的分类方法对425个样本数据分类,类间距离为1.5将其分为12类,对分好的12类进行皮尔逊相关性分析,检验模型的合理性。用Excel绘制其光谱图计算其特征值,进行特征和差异性分析。 针对问题二,根据一种药材的中红外光谱数据鉴别药材的产地,分析不同产地药材的特征和差异性。对已知的药材样本根据产地分为11类,将11类数据样本做为样本库,取样本库平均值代表每库样本,空白产地的样本与11个代表样本进行相关性分析,根据相关系数定位其产地。 针对问题三,根据一种药材的近红外和中红外数据鉴别药材的产地,对已知的近红外和中红外药材样本根据产地各分为17类,通过欧氏距离检验分析出中红外光谱数据离散程度大,不同产地药材区别明显,采用中红外数据鉴别该类药材的产地。同问题二的模型处理方法,进行空白值药材产地的补全。 针对问题四,根据几种药材的近红外光谱数据鉴别药材的种类和产地,附件4中已给出大部分药材的种类,根据已知种类的特征通过相关系数补全缺失样本数据的种类,整理后为A,B,C三类,根据已知种类和产地的样本进行分类研究,分为A1,A2…C4,共25个样本库,根据平均值算出代表样本,根据空白产地样本与代表样本的相关系数进行产地定位。 关键词: 聚类分析 欧式距离 SPSS 皮尔逊相关系数 相关性分析 问题重述1.1 情况说明 不同中药材表现的光谱特征是不同的,即使来自不同产地的同一药材,因其无机元素的化学成分、有机物等存在的差异性,在近红外、中红外光谱的照射下也会表现出不同的光谱特征,因此可以利用这些特征来鉴别中药材的种类及产地。中药材的种类鉴别相对比较容易,不同种类的中药材呈现的光谱的区别比较明显。 中药材的道地性[3]以产地为主要指标,产地的鉴别对于药材品质鉴别尤为重要。然而,不同产地的同一种药材在同一波段内的光谱比较接近,使得光谱鉴别的误差较大。另外,有些中药材的近红外区别比较明显,而有些药材的中红外区别比较明显,当样本量不够充足时,我们可以通过近红外和中红外的光谱数据相互验证来对中药材产地进行综合鉴别。 1.2 相关信息 附件 1 :几种药材的中红外光谱数据。 附件 2 :某一种药材的中红外光谱数据。 附件 3 :某一种药材的近红外和中红外光谱数据。 附件 4 :几种药材的近红外光谱数据。 其中 No 列表示中药材的编号,Class 列表示中药材的类别, OP 列表示该种药材的产地,其余各列第一行的数据是光谱的波数(单位 )、第二行以后的数据表示该行编号的药材在对应波段光谱照射下的吸光度(注:该吸光度为仪器矫正后的值,可能存在负值)。 1.3 需要解决的问题 (1)依据附件1中几种药材的中红外光谱数据,分析研究不同种类药材的特征和差异性,并鉴别药材的种类。 (2)依据附件2中某一种药材的中红外光谱数据,分析不同产地的药材的特征和差异性,试鉴别药材的种类,并将表中给出的编号药材产地的鉴别结果填入表格中。 (3)依据附件3中某一种药材的近红外和中红外数据,鉴别该药材的产地,并将表中给出的药材产地的鉴别结果填入表中。 (4)依据附件4给出的几种药材的近红外光谱数据,鉴别药材的类别和产地,并将表中给出的药材类别和产地鉴别结果填入表中。 问题分析2.1 问题一分析 针对问题一,利用附件1所给几种药材的中红外光谱数据,研究不同种类药材的特性和差异性,并鉴别药材的种类。不同地区同一种药材在同一波段内的光谱是比较相似的,所以对药材分类可以不考虑产地的影响,为解决此问题我们可以建立聚类分析数学模型对425个药材样本进行分类,对样本分类实现可视化,便于呈现数据结构。将分好的每一大类的数据样本用Excel进行筛选并绘制出光谱图,对每一大类的数据计算其皮尔逊相关系数,进行相关性检验,验证分类的合理性,最后用数学分析手段对不同类药材的特征和差异性进行分析。 2.2 问题二分析 针对问题二,利用附件2所给某一种药材的中红外光谱数据,研究不同产地药材的特征和差异性,并鉴别部分药材的产地,同一产地的同一种药材在相同的光谱波数照射下光的吸光度是大致相同的。用Excel筛选可以得到数据中共有11个药材产地,根据药材产地的不同将药材样本对应分成11类。用Excel绘制每一类样本数据的光谱图,找出每一类中具有代表性的一组数据,将光谱图绘制在同一张图中,通过数学分析的手段进行特征和差异性分析。对于鉴别部分药材的产地,根据皮尔逊相关系数,空白产地的样本数据与分好类的样本数据进行相关性分析,根据相关系数判断药材的产地。 2.3 问题三分析 对于问题三,附件3是一种药材的近红外和中红外光谱数据,研究鉴别部分药材的产地,有些中药材的近红外区别比较明显,而有些药材的中红外区别比较明显,在样本量不充足时,需要通过近红外和中红外的光谱数据相互验证综合分析。用Excel筛选可以得到数据中共有17个药材产地,鉴别药材的产地,将近红外和中红外光谱数据根据产地的不同进行分类,各分为17类。根据皮尔逊相关系数,空白产地的样本数据与分好类的样本数据进行相关性分析,选取相关系数最大的即为药材的产地。 2.4 问题四分析 对于问题四,鉴别药材的种类和产地,附件4种类缺失数据较多,先将种类进行补全,筛选出已知的A,B,C三个种类的药材,计算出每个产地对应的平均吸光度。再利用SPSS将每个缺失的种类与三个种类的平均数据进行相关性分析,根据相关系数确定所有药材种类。根据所有确定的药材的种类和已有的产地信息,利用SPSS软件对样本代表数据分别与编号94、编号109、编号140、编号278、编号308、编号330、编号347的药材进行相关性分析分析,确定出以上编号药材的种类和产地。 三、条件假设 1、假设对药材种类分类时,忽略其不同产地的影响。 2、假设附件中的所有数据准确,未受其光谱散射干扰。 四、符号说明 符号 含义 ρ 两点之间的欧式距离 li 编号i 药材的吸光度 点到原点的欧式距离 ASK 为第s 样品光谱在波长点K处吸光度 AMK 为第m 样品光谱在波长点K处吸光度 λ 光谱的平均波数 l 编号i 药材的平均吸光度 λn n 列光谱的波数 五、模型的建立与求解 5.1问题一的求解 针对问题一首先对附件1数据进行预处理,数据检查并无异常值和缺失值。此问需要解决两个问题,一是鉴别出药材的种类,二是分析不同类药材的特征和差异性。首先建立聚类分析数学模型,以欧式距离为分类方法对425个样本药材进行分类,欧氏距离是两条光谱差异程度的一个尺度,也就是说欧氏距离越大,光谱的差异也就越大,而两条完全相同光谱的欧氏距离为零。[1] 聚类分析欧氏距离数学模型: Ds=k(ASK-AMK)2 (1) 或 (2) (3) ρ 是两点之间的欧式距离, 是光的吸光度, 是光谱的波数。 为点到原点的欧式距离。 欧氏距离的本质是两条光谱在所选波长范围内Y轴差异的总和。所以对两条完全相同的光谱,它们的吸光度是完全相同的,差异的总和也就为零,而且随着吸光度值差异的增加,欧氏距离也会相应得增大。绘制出聚类分析树状图进行分 析。 图5-1-1 聚类分析树状图 对于聚类结果,类之间的距离应该尽可能大一些,比如上图所示的树状图,聚成2类时,两个类的距离在25这个水平上,而聚成3类时,类之间的距离快速逼近10这个距离水平,聚类数越多,类的距离越是靠近,类的特征也就越来越难以区分。由于药材样本数量多,不同种类的中药材呈现的光谱区别比较明显,如果只考虑其明显特征进行分类,可能将部分特征不明显的样本进行了覆盖,不利于模型的准确性,因此对样本药材进行详细分类,将分类的样本数据可视化进行分析,由上图可知当类间距离为1.5时,是样本药材的二级聚类,将所有样本分为12类,利用SPSS对数据进行分析绘制光谱图。 表 5-1-A 样本分类数据 一类 二类 三类 … 六类 … 九类 十类 十一类 十二类 6 17 1 … 3 … 45 64 136 201 12 93 2 … 5 … 61 14 106 4 … 11 … 67 21 124 7 … 18 … 91 30 128 9 … 22 … 130 31 138 19 … 25 … 183 39 154 23 … 47 … 184 40 167 32 … 62 … 200 48 168 35 … 63 … 220 … … … … … … … (详情见附录) 图5-1-2 第一类光谱图 图5-1-3 第二类光谱图 图5-1-4 第三类光谱图 图5-1-5 第四类光谱图 图5-1-6 第五类光谱图 图5-1-7 第六类光谱图 图5-1-8 第七类光谱图 图5-1-9 第八类光谱图 图5-1-10 第九类光谱图 图5-1-11 第十类光谱图 图5-1-12 第十一类光谱图 图5-1-13 第十二类光谱图 以上为12类部分样本光谱折线图,其最大值、最小值和峰面积也大致相同,直观的验证了欧氏距离模型的准确性,通过观察每一类的样本药材光谱图可以看出其数据特征,为分析出12类药材的差异性,将每类样本不同波长的吸光度求均值,绘制出每类的样本平均值的光谱图,仅从中红外光谱图的表观图谱特征无法对不同种类药材进行差异分析,借助于数学分析手段。求出其最小值,最大值,均值,标准偏差,方差,偏度,峰度进行详细分析。 利用SPSS对分好类的数据进行相关性检验,得到各类间的相关系数,以第二类为例进行分析,如表5-1-B第二类相关性矩阵所示 表5-1-B第二类相关性矩阵 同一类中,每个样本间的相关系数均大于0.95,彼此间有极强的相关性,验证了此分类方法的合理性。 图 5-1-14 十二类均值光谱图 附件1中红外光谱的起始波数为652(cm-1 ),第1类至第9类在波长在652(cm-1 )至1720(cm-1 )之间光谱线幅度较大,波长在1720(cm-1 )到2730(cm-1 )和3688(cm-1 )至3999(cm-1 )光谱线趋于平缓且吸光率接近于0,波长在2730(cm-1 )至3688(cm-1 )有小幅度的波动。在中红外光谱中,波长越小对其药材吸光率影响越大。第10、11、12类各为单独一类,此三类有一定的相似性,在波长652(cm-1 )至1998(cm-1 )之间光谱线幅度有大幅波动,随着波长的增加药材吸光度逐渐减小。 运用数学分析手段计算根据以下公式模型求出其范围,最小值,最大值,均值,标准偏差,方差,偏度,峰度。 范围: (4) 均值: (5) 偏差: (6) 表示标准误差估算值,相当于标准误差 方差: (7) 偏度: (8) :偏度; :三阶中心矩; :标准差 峰度: (9) 是四节样本中心矩, 是二阶中心矩(样本方差), 是第 个值,x 是样本的平均值,此处计算方差的除数是 ,而不是单独计算样本方差的 。 表5-1-C特征值数据 范围 最小值 最大值 均值 标准 偏差 方差 偏度 峰度 @1 .0893 .0063 .0956 .0364 .0217 .0005 .5775 -.5943 @2 .1116 .0063 .1179 .0461 .0294 .0009 .4899 -.7976 @3 .1365 .0066 .1430 .0363 .0278 .0008 1.2978 1.4816 @4 .2624 .0030 .2654 .0656 .0627 .0039 1.1820 .8712 @5 .3691 .0024 .3715 .0910 .0882 .0078 1.1066 .7462 @6 .3222 .0030 .3252 .0789 .0763 .0058 1.1738 .9124 @7 .3360 -.0044 .3316 .0552 .0670 .0045 1.4219 1.4098 @8 .2041 .0012 .2053 .0506 .0492 .0024 1.1774 .7955 @9 .2166 .0023 .2189 .0508 .0490 .0024 1.1344 .3847 @10 .5157 .3807 .8964 .5665 .1185 .0140 .6639 -.6001 @11 .3598 .4160 .7757 .5222 .0894 .0080 .8204 -.5411 @12 .3373 .2112 .5485 .3240 .0780 .0061 .7047 -.6198 几种药材的中红外光谱数据吸光度最小的是第7类药材,最小值是-0.0044,吸光度最大的药材是第10类药材最大值是0.8964;标准偏差最大的是第10类药材,最大值是0.1185,标准偏差最小的第三类药材,最小值是0.0278;峰度最大的是第3类药材,其值是1.2978,最低峰度是第10类药材,其值是0.6639;最大偏度是第3类药材,最大值是1.4816,最小是第10类药材,最小值是-0.6001. 通过以上分析,最终将药材分为12类,不同药材在光谱照射下吸光度是不同的,其中第3类药材吸光度最大,第10类药材吸收光度最弱,由于各种中药材所含成分含量的不同,因此而导致其中红外光谱图也不尽相同,,但其中的化学成分一般都含有能引起中红外吸收的 C-H,O-H,N-H,S-H,C-O 等基团。利用这种光谱图上存在的差异就可以实现药材的鉴别和分类 [4] 5.2问题二的求解 附件2是一种药材的中红外光谱数据,研究不同产地药材的特征和差异性,并鉴别部分编号的药材产地,数据中共有11个药材产地,先根据药材产地的不同将样本进行分类,共分为11类。同一产地的同一种药材在相同的光谱波数照射下光的吸光度是大致相同的。将每一类的样本求出均值代表此类的样本数据,绘制出平均值光谱图,进行特征和差异性的分析。对于鉴别药材产地,根据皮尔逊相关系数,对空白产地编号的样本数据与11类平均值的样本数据进行相关性分析,相关系数最大的即为药材的产地。 根据中红外光谱数据,将地区划分为11类,分析药材的特性和差异性,利用Excel绘制出图5-2-1。 图5-2-1 11产地的光谱图 附件2中红外光谱的起始波数为551(cm-1 ),不同产地的同一种药材在同一波段内的光谱比较接近,由上图可以看出一种药材11个产地的光谱图趋势基本吻合,当波数在551(cm-1 )至1848(cm-1 )和2334(cm-1 )和3998(cm-1 )之间光谱线幅度较大,其余中间波数对应的光谱线趋于平缓。 对11个产地分类利用SPSS进行数据分析,计算出其各项值: 表5-2-A 特征值数据求值表格 范围 最小值 最大值 均值 标准 偏差 方差 偏度 峰度 @1 .7622 .0562 .8184 .2952 .2152 .0463 .7346 -.4429 @2 .8843 .0605 .9448 .3552 .2600 .0676 .6409 -.6655 @3 .7505 .0570 .8075 .3016 .2132 .0454 .6624 -.5412 @4 .6871 .0568 .7439 .2862 .1993 .0397 .5512 -.8622 @5 .9145 .0509 .9654 .3331 .2465 .0607 .5894 -.7562 @6 .7898 .0490 .8388 .3129 .2378 .0565 .6926 -.5824 @7 .7824 .0595 .8418 .3253 .2352 .0553 .6598 -.6535 @8 .8873 .0589 .9462 .3449 .2571 .0661 .7432 -.4545 @9 .8421 .0715 .9137 .3456 .2375 .0564 .5667 -.7983 @10 .7795 .0531 .8326 .3212 .2296 .0527 .5834 -.7723 @11 .7457 .0600 .8056 .3063 .2164 .0468 .6604 -.6008 通过对表5-2-A的分析,吸光度最小的地区是地区6最小值是0.04900;吸光度最大的地区是地区5最大吸光度是0.96544。标准差最大的地区是地区2 ,其最大值是 0.26001,标准差最小的地区是地区4,最小值是0.19926;偏度最大的地区是地区8,其最大值0.743,最小的地区是4,最小值0.551;峰值最大的地区是地区1,其最大值-0.443,最小的地区是4,最小值-0.862。 通过以上数据,说明了不同地区的药材有明显的道地性的,同一药材有着众多的药理作用。种植的环境不同,药材的成分含量、有机物等存在差异性。 建立光谱的波数与编号的药材对应波段光谱照射的吸光度的模型: (10) 其中λi 表示光谱的波数(单位cm-1 ),li 表示该行编号的药材在对应波段光谱照射下的吸光度,λ 表示光谱波长的平均数,l 表示该行编号的药材在对应波段光谱照射下的平均吸光度。 计算出各个地区对应的平均吸光度曲线,再利用SPSS对未知产地的吸光度曲线与已划分的11个产地的吸光度曲线进行相关性分析,得到未知产地样本数据与这11个产地样本数据的相关系数见表 5-2-B所示。通过对比各地区的相关性系数,根据皮尔逊相关系数越接近1相关性越强,选出相关性最强的地区,即为该产地药材。如表5-2-C所示。 表5-2-B 药材产地间的相关性 1 2 3 4 5 6 7 8 9 10 11 OP 3 0.998 0.994 0.999 0.989 0.985 0.997 0.995 0.995 0.99 0.99 0.997 3 14 0.989 0.979 0.985 0.966 0.957 0.979 0.98 0.987 0.962 0.965 0.982 1 38 0.988 0.993 0.987 0.999 0.998 0.992 0.993 0.987 0.997 0.996 0.994 4 48 0.9912 0.984 0.989 0.98 0.975 0.99 0.989 0.9911 0.978 0.976 0.989 1 58 0.98 0.981 0.983 0.965 0.951 0.979 0.982 0.987 0.964 0.963 0.977 8 71 0.985 0.982 0.983 0.991 0.996 0.989 0.985 0.978 0.992 0.989 0.989 5 79 0.994 0.997 0.995 0.99851 0.994 0.998 0.99858 0.994 0.997 0.995 0.998 7 86 0.995 0.994 0.997 0.993 0.99 0.998 0.996 0.992 0.995 0.991 0.996 6 89 0.993 0.988 0.997 0.985 0.981 0.994 0.99 0.989 0.988 0.984 0.992 3 110 0.983 0.991 0.982 0.9965 0.9968 0.988 0.988 0.981 0.994 0.9967 0.991 5 134 0.985 0.988 0.987 0.996 0.996 0.993 0.991 0.982 0.999 0.995 0.992 9 152 0.993 0.99672 0.992 0.99667 0.993 0.9972 0.9968 0.993 0.995 0.996 0.996 7 227 0.985 0.989 0.986 0.996 0.998 0.991 0.99 0.982 0.997 0.994 0.991 10 331 0.986 0.995 0.984 0.994 0.99 0.988 0.99 0.985 0.989 0.994 0.992 2 618 0.99806 0.993 0.9977 0.991 0.988 0.996 0.995 0.994 0.991 0.99 0.9975 1 鉴别结果如下: 表5-2-C 编号药材产地的鉴别结果 No 3 14 38 48 58 71 79 86 89 110 134 152 227 331 618 OP 3 1 4 1 8 5 7 6 3 5 9 7 10 2 1 5.3问题三的求解 附件3是某一种药材的近红外和中红外光谱数据,研究鉴别部分药材的产地,有些中药材的近红外区别比较明显,而有些药材的中红外区别比较明显,在样本量不充足时,需要通过近红外和中红外的光谱数据相互验证综合分析。药材样本数据产地有17个,鉴别出空白产地的样本数据的产地,将近红外和中红外光谱数据根据产地的不同进行分类,各分为17类。将每一类的样本求出均值代表此类的样本数据,绘制出平均值光谱图,进行特征和差异性的分析。对于鉴别药材产地,利用皮尔逊相关系数,空白产地编号的样本数据与17类平均值的样本数据进行相关性分析,根据相关系数判断药材的产地。 分别对两种光谱的数据绘制成折线图进行对比分析,绘制出两种光谱下17个地区的折线图 ,如图5-3-1和图5-3-2所示: 图5-3-1中红外光谱图 图5-3-2 近红外光谱图 通过图5-3-1和图 5-3-2可看出近红外光谱的吸光度趋势大致相同,绘制出的光谱图重叠度较高,难以区分中药材的产地,但是通过中红外光谱的光谱图可以明显看出不同地区中药材红外光谱曲线的离散程度更大,光谱距离较远,再对近红外光和中红外的数据进行欧氏距离检验,得到距离矩阵(见附录中红外光距离矩阵、近红外光距离矩阵),通过数据对比发现中红外数据中的距离大于近红外光谱中数据的距离,可得出近红外光谱的数据较接近,难以对地区进行区分,因此选用中红外光谱区分该种中药材的地区划分。 利用SPSS对未知产地的吸光度曲线与以划分的17个地区的吸光度曲线进行相关性分析,得到未知地区与这17个地区的相关系数,见表 5-3-A。通过对比各地区的相关性系数,根据皮尔逊相关系数越接近1相关性越强,选出相关性最强的地区,即为该产地药材。结果见表5-3-B。 表5-3-A 相关系数表格 NO4 NO15 NO22 NO30 NO34 NO45 NO74 NO114 NO170 NO209 ZOP1 0.943 0.9978 0.9976 0.995 0.938 0.985 0.974 0.99896 0.991 0.991 ZOP2 0.943 0.9894 0.9922 0.999 0.949 0.973 0.959 0.9925 0.995 0.981 ZOP3 0.956 0.9941 0.9937 0.997 0.956 0.978 0.976 0.9976 0.997 0.989 ZOP4 0.993 0.9558 0.9461 0.953 0.981 0.919 0.994 0.9712 0.976 0.987 ZOP5 0.933 0.9929 0.9947 0.997 0.935 0.985 0.96 0.9929 0.992 0.976 ZOP6 0.924 0.9982 0.9953 0.983 0.912 0.992 0.973 0.9947 0.979 0.986 ZOP7 0.933 0.9956 0.9904 0.978 0.916 0.987 0.981 0.9934 0.977 0.989 ZOP8 0.934 0.9978 0.9979 0.996 0.932 0.989 0.97 0.9979 0.992 0.985 ZOP9 0.958 0.9898 0.9892 0.996 0.961 0.97 0.974 0.9952 0.999 0.988 ZOP10 0.937 0.9992 0.9975 0.992 0.93 0.99 0.976 0.9987 0.989 0.989 ZOP11 0.94 0.9992 0.9971 0.991 0.933 0.989 0.978 0.99896 0.989 0.991 ZOP12 0.942 0.9832 0.9739 0.958 0.919 0.969 0.989 0.9838 0.965 0.989 ZOP13 0.922 0.9912 0.9947 0.998 0.929 0.983 0.951 0.991 0.991 0.973 ZOP14 0.946 0.9964 0.9928 0.986 0.934 0.982 0.984 0.9976 0.986 0.995 ZOP15 0.977 0.9721 0.9616 0.958 0.958 0.946 0.999 0.9808 0.974 0.992 ZOP16 0.987 0.9452 0.9422 0.962 0.997 0.907 0.964 0.9613 0.981 0.967 ZOP17 0.996 0.9584 0.9502 0.959 0.986 0.922 0.991 0.973 0.979 0.986 根据以上分析,鉴别结果如下: 表5-3-B 编号药别产地的鉴别结果 NO 4 15 22 30 34 45 74 114 170 209 OP 17 11 8 2 16 6 15 11 9 14 5.4问题四的求解 附件4是几种中药材的近红外光谱数据,鉴别部分药材的类别和产地,针对该问题,由于缺失种类的数量多,对其分析结果有很大影响,所以对缺失种类的数据进行补充,依据已有的种类产地数据补全缺失种类数据,筛选出A,B,C三个种类的药材,计算出每个产地对应的平均吸光度。再利用SPSS将每个缺失的种类与三个种类的平均数据进行相关性分析相关,经过数次的筛选,得到每个缺失种类与三个种类的相关性矩阵,如表5-4-A缺失地区与各种类相关性。 表5-4-A 缺失地区与各种类相关性 A B C 种类 NO3 0.578 0.955 0.806 B NO5 0.91 0.967 0.992 C NO6 0.793 0.998 0.94 B NO11 0.839 0.996 0.969 B NO16 0.998 0.754 0.912 A NO18 0.712 0.989 0.906 B NO20 0.919 0.959 0.995 C NO21 0.864 0.99 0.974 B … … … … … 根据皮尔逊相关系数越接近1相关性越强,找出每个缺失种类对应的A,B,C三个种类,由于未说明该组数据的中药材被分为三类,可以通过观察相关性,若相关性与三个种类的相关系数差距都比较大,则该类为另一种中药材,即为D类。经过筛选发现每个缺失种类与A,B,C三类的其中一类或两类相关系数非常接近1,选择相关系数最大的代表该药材的种类,经筛选没有出现D类药材。 同理,利用同种方法对缺失地区进行补充。对完善后的数据进行分类处理,列出每个种类所对用的各个地区,对每个地区数据的吸光度进行均值计算,形成一条近红外数据来代表该地区。下图为三个种类不同地区的光谱曲线 图5-4-1种类A光谱图 图5-4-2种类B光谱图 5-4-3种类C光谱图 图5-4-4三种种类光谱图 利用SPSS软件对已分好的三个种类不同地区的吸光度分别与编号94、编号109、编号140、编号278、编号308、编号330、编号347分别进行相关性分析分析。得出的相关性矩阵如下表5-4-B 所示 表5-4-B 相关系数矩阵 NO94 NO109 NO140 NO278 NO308 NO330 NO347 A1 0.999 0.99957 0.99976 0.921 0.949 0.858 0.731 A2 0.999 0.99978 0.99917 0.915 0.944 0.85 0.72 A3 0.999 0.99944 0.99985 0.923 0.951 0.861 0.735 A4 0.999 0.99942 0.99935 0.923 0.948 0.86 0.727 A5 1 0.99949 0.99875 0.913 0.943 0.849 0.72 B1 0.552 0.53459 0.57361 0.769 0.773 0.853 0.971 B2 0.852 0.8433 0.86753 0.963 0.97 0.982 0.976 B3 0.805 0.79467 0.82219 0.939 0.947 0.969 0.991 B4 0.841 0.83156 0.85658 0.958 0.965 0.98 0.981 B5 0.824 0.81226 0.83849 0.944 0.954 0.971 0.988 B6 0.834 0.82462 0.85015 0.954 0.963 0.977 0.983 B7 0.692 0.6812 0.71486 0.884 0.88 0.939 0.992 B8 0.87 0.85989 0.88275 0.966 0.977 0.98 0.97 B9 0.77 0.75759 0.78735 0.92 0.926 0.961 0.997 B10 0.743 0.72913 0.76032 0.897 0.906 0.945 0.998 B11 0.639 0.62388 0.6598 0.837 0.841 0.905 0.993 B12 0.795 0.78382 0.81212 0.936 0.942 0.969 0.993 B13 0.832 0.82048 0.84628 0.945 0.958 0.97 0.985 B14 0.834 0.82428 0.84987 0.958 0.962 0.981 0.982 B15 0.878 0.86956 0.8917 0.967 0.98 0.979 0.964 B16 0.72 0.70684 0.73931 0.886 0.894 0.938 0.999 C1 0.937 0.93114 0.94397 0.999 0.99 0.979 0.879 C2 0.936 0.92916 0.94309 0.998 0.993 0.982 0.894 C3 0.93 0.92367 0.93974 0.987 0.999 0.975 0.92 C4 0.915 0.90668 0.92287 0.998 0.987 0.991 0.91 鉴定结果如表5-4-C : 表5-4-C 药材的类别与产地 No 94 109 140 278 308 330 347 Class A A A C C C B OP 5 2 3 1 3 4 16 六、模型的评价 6.1优点: 1、此模型运用了SPSS、Excel软件,处理数据方便,绘图清晰。 2、利用皮尔逊相关性分析清晰地了解到样本变量之间的相关系数。 3、对模型进行了数据检验,能提高模型的合理性。 4、对于数据进行预处理时,采用了多种方法进行处理 5、对于选取优质的药材和食品成分检测领域具有重要推广价值。 6.2缺点: 1、聚类分析模型的类间距离是观察选取的,没有进行定量分析选取。 参考文献 [1] 宋瑞丽.近红外光谱技术对山药质量评价的研究.河南中医学院硕士学位论文, [2] 岑忠用,雷顺新,雷蕾,严军,张晖英.近红外光谱法鉴别6种根茎类中药材[J].华中农业大学学报,2021,40(03):271-277.10.13300/j.cnki.hnlkxb.2021.03.031. [3] 张芳,周昊,徐蓉,徐寸发,韩伟,徐为民,李勇.红外光谱结合PCA-LDA判别道地和非道地山药[J].江苏农业科学,2018,46(24):217-220.10.15889/j.issn.1002-1302.2018.24.060. [4] 白钢,丁国钰,侯媛媛,姜民,高洁 引进近红外技术用于中药材品质的快速评价. 中国中药杂志,第41卷第19期,2016,10 附录(本论文没有用到程序) 问题一 图5-1-1 聚类分析详细树状图 表 5-1-A 详细分类样本数据表格 一类 二类 三类 四类 五类 六类 七类 八类 九类 十类 十一类 十二类 6 17 1 8 33 3 69 10 45 64 136 201 12 93 2 13 38 5 78 20 61 14 106 4 15 90 11 94 24 67 21 124 7 16 134 18 120 42 91 30 128 9 26 137 22 258 50 130 31 138 19 27 303 25 297 98 183 39 154 23 28 323 47 384 117 184 40 167 32 29 334 62 390 119 200 48 168 35 34 366 63 412 178 220 53 170 41 36 391 65 245 234 59 175 46 37 418 66 273 246 73 180 51 43 68 319 267 75 55 44 72 326 279 77 56 49 74 350 308 79 57 52 81 359 318 80 60 54 82 363 345 86 71 58 87 402 397 95 76 70 99 404 400 100 83 84 104 411 102 89 85 108 103 92 88 118 109 121 96 126 111 123 97 127 112 142 101 129 113 148 105 140 114 151 107 143 122 157 110 144 131 159 115 149 132 191 116 152 133 193 125 155 135 209 141 164 139 224 147 165 145 227 150 171 146 228 153 181 156 231 163 182 158 235 172 188 160 266 176 196 161 280 185 197 162 286 186 198 166 289 203 199 169 294 207 206 173 299 211 213 174 307 212 218 177 320 214 221 179 330 215 222 187 333 219 225 189 335 226 232 190 337 229 237 192 338 241 238 194 342 243 240 195 364 248 249 202 392 250 253 204 403 252 257 205 417 263 259 208 264 260 210 269 271 216 270 272 217 277 275 223 282 281 230 283 288 233 284 291 236 302 293 239 317 296 242 322 298 244 328 300 247 331 301 251 356 305 254 361 309 255 368 313 256 370 324 261 378 325 262 379 336 265 381 347 268 383 349 274 385 354 276 387 362 278 389 371 285 394 373 287 396 375 290 401 376 292 406 377 295 410 380 304 415 382 306 422 386 310 388 311 407 312 408 314 413 315 419 316 321 327 329 332 339 340 341 343 344 346 348 351 352 353 355 357 358 360 365 367 369 372 374 393 395 398 399 405 409 414 416 420 421 423 424 425 问题三 中红外光距离矩阵 欧氏距离 ZOP1 ZOP2 ZOP3 ZOP4 ZOP5 ZOP6 ZOP7 ZOP8 ZOP9 ZOP10 ZOP11 ZOP12 ZOP13 ZOP14 ZOP15 ZOP16 ZOP17 ZOP1 0 0.512 0.174 2.188 0.226 0.595 0.478 0.224 0.611 0.266 0.24 0.444 0.218 0.138 1.063 4.055 2.528 ZOP2 0.512 0 0.459 1.788 0.562 1.089 0.973 0.692 0.19 0.753 0.739 0.929 0.471 0.602 0.795 3.584 2.105 ZOP3 0.174 0.459 0 2.137 0.176 0.654 0.535 0.275 0.541 0.324 0.316 0.515 0.192 0.241 1.025 3.99 2.472 ZOP4 2.188 1.788 2.137 0 2.276 2.741 2.59 2.381 1.643 2.418 2.397 2.461 2.22 2.209 1.181 2.007 0.39 ZOP5 0.226 0.562 0.176 2.276 0 0.57 0.473 0.188 0.664 0.258 0.265 0.509 0.146 0.298 1.166 4.113 2.607 ZOP6 0.595 1.089 0.654 2.741 0.57 0 0.167 0.413 1.181 0.343 0.363 0.34 0.654 0.545 1.583 4.63 3.089 ZOP7 0.478 0.973 0.535 2.59 0.473 0.167 0 0.318 1.052 0.232 0.25 0.204 0.564 0.406 1.427 4.491 2.939 ZOP8 0.224 0.692 0.275 2.381 0.188 0.413 0.318 0 0.789 0.1 0.104 0.364 0.26 0.241 1.249 4.244 2.722 ZOP9 0.611 0.19 0.541 1.643 0.664 1.181 1.052 0.789 0 0.842 0.829 0.987 0.588 0.675 0.648 3.466 1.97 ZOP10 0.266 0.753 0.324 2.418 0.258 0.343 0.232 0.1 0.842 0 0.059 0.282 0.338 0.236 1.272 4.296 2.762 ZOP11 0.24 0.739 0.316 2.397 0.265 0.363 0.25 0.104 0.829 0.059 0 0.27 0.34 0.211 1.25 4.276 2.741 ZOP12 0.444 0.929 0.515 2.461 0.509 0.34 0.204 0.364 0.987 0.282 0.27 0 0.589 0.338 1.292 4.383 2.815 ZOP13 0.218 0.471 0.192 2.22 0.146 0.654 0.564 0.26 0.588 0.338 0.34 0.589 0 0.325 1.134 4.041 2.55 ZOP14 0.138 0.602 0.241 2.209 0.298 0.545 0.406 0.241 0.675 0.236 0.211 0.338 0.325 0 1.06 4.104 2.555 ZOP15 1.063 0.795 1.025 1.181 1.166 1.583 1.427 1.249 0.648 1.272 1.25 1.292 1.134 1.06 0 3.138 1.535 ZOP16 4.055 3.584 3.99 2.007 4.113 4.63 4.491 4.244 3.466 4.296 4.276 4.383 4.041 4.104 3.138 0 1.646 ZOP17 2.528 2.105 2.472 0.39 2.607 3.089 2.939 2.722 1.97 2.762 2.741 2.815 2.55 2.555 1.535 1.646 0 近红外光距离矩阵 欧氏距离 JOP1 JOP2 JOP3 JOP4 JOP5 JOP6 JOP7 JOP8 JOP9 JOP10 JOP11 JOP12 JOP13 JOP14 JOP15 JOP16 JOP17 JOP1 0 1.569 1.815 3.484 2.996 1.842 1.907 1.746 1.561 1.217 1.436 1.208 2.362 2.127 1.498 1.338 1.378 JOP2 1.569 0 0.503 2.762 2.49 1.062 1.32 0.501 0.57 0.559 1.481 2.005 1.018 1.932 1.281 0.721 0.504 JOP3 1.815 0.503 0 2.298 2.924 0.728 0.945 0.187 1.005 0.648 1.292 1.978 1.288 1.603 1.095 0.699 0.599 JOP4 3.484 2.762 2.298 0 5.184 1.893 1.638 2.297 3.18 2.626 2.13 2.83 3.394 1.537 2.088 2.508 2.569 JOP5 2.996 2.49 2.924 5.184 0 3.476 3.779 2.937 2.129 2.821 3.79 3.965 1.893 4.364 3.618 2.966 2.802 JOP6 1.842 1.062 0.728 1.893 3.476 0 0.485 0.653 1.41 0.84 0.902 1.737 1.842 1.206 0.902 0.855 0.913 JOP7 1.907 1.32 0.945 1.638 3.779 0.485 0 0.891 1.735 1.031 0.684 1.553 2.191 0.76 0.721 0.98 1.096 JOP8 1.746 0.501 0.187 2.297 2.937 0.653 0.891 0 0.966 0.554 1.206 1.905 1.321 1.553 1.053 0.596 0.57 JOP9 1.561 0.57 1.005 3.18 2.129 1.41 1.735 0.966 0 0.871 1.804 2.186 0.899 2.358 1.611 1.033 0.797 JOP10 1.217 0.559 0.648 2.626 2.821 0.84 1.031 0.554 0.871 0 1.007 1.558 1.499 1.585 0.975 0.392 0.489 JOP11 1.436 1.481 1.292 2.13 3.79 0.902 0.684 1.206 1.804 1.007 0 0.988 2.452 0.795 0.662 0.942 1.188 JOP12 1.208 2.005 1.978 2.83 3.965 1.737 1.553 1.905 2.186 1.558 0.988 0 2.974 1.438 1.067 1.524 1.631 JOP13 2.362 1.018 1.288 3.394 1.893 1.842 2.191 1.321 0.899 1.499 2.452 2.974 0 2.863 2.248 1.631 1.428 JOP14 2.127 1.932 1.603 1.537 4.364 1.206 0.76 1.553 2.358 1.585 0.795 1.438 2.863 0 0.969 1.472 1.659 JOP15 1.498 1.281 1.095 2.088 3.618 0.902 0.721 1.053 1.611 0.975 0.662 1.067 2.248 0.969 0 0.888 0.861 JOP16 1.338 0.721 0.699 2.508 2.966 0.855 0.98 0.596 1.033 0.392 0.942 1.524 1.631 1.472 0.888 0 0.545 JOP17 1.378 0.504 0.599 2.569 2.802 0.913 1.096 0.57 0.797 0.489 1.188 1.631 1.428 1.659 0.861 0.545 0 |
今日新闻 |
推荐新闻 |
CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3 |