基于光谱特征分析对中药材的鉴别

您所在的位置:网站首页 波数和吸光度 基于光谱特征分析对中药材的鉴别

基于光谱特征分析对中药材的鉴别

2023-11-16 15:30| 来源: 网络整理| 查看: 265

基于光谱特征相关性分析对中药材的鉴别

摘要

本文研究中药材的鉴别,基于不同中药材的光谱特征对中药材的种类和产地进行鉴别。中药材的产地对药材的道地性有很大的影响,仅从红外光谱图的表观图谱特征无法对不同的药材进行鉴别,必须借助于数学分析手段。结合系统聚类分析、相关性分析建立数学模型。

针对问题一,根据中红外光谱数据鉴别药材的种类,分析不同种类药材的特征和差异性。本文建立聚类分析数学模型,用SPSS软件根据欧氏距离的分类方法对425个样本数据分类,类间距离为1.5将其分为12类,对分好的12类进行皮尔逊相关性分析,检验模型的合理性。用Excel绘制其光谱图计算其特征值,进行特征和差异性分析。

针对问题二,根据一种药材的中红外光谱数据鉴别药材的产地,分析不同产地药材的特征和差异性。对已知的药材样本根据产地分为11类,将11类数据样本做为样本库,取样本库平均值代表每库样本,空白产地的样本与11个代表样本进行相关性分析,根据相关系数定位其产地。

针对问题三,根据一种药材的近红外和中红外数据鉴别药材的产地,对已知的近红外和中红外药材样本根据产地各分为17类,通过欧氏距离检验分析出中红外光谱数据离散程度大,不同产地药材区别明显,采用中红外数据鉴别该类药材的产地。同问题二的模型处理方法,进行空白值药材产地的补全。

针对问题四,根据几种药材的近红外光谱数据鉴别药材的种类和产地,附件4中已给出大部分药材的种类,根据已知种类的特征通过相关系数补全缺失样本数据的种类,整理后为A,B,C三类,根据已知种类和产地的样本进行分类研究,分为A1,A2…C4,共25个样本库,根据平均值算出代表样本,根据空白产地样本与代表样本的相关系数进行产地定位。

关键词:   聚类分析    欧式距离   SPSS   皮尔逊相关系数   相关性分析

 问题重述

1.1 情况说明

不同中药材表现的光谱特征是不同的,即使来自不同产地的同一药材,因其无机元素的化学成分、有机物等存在的差异性,在近红外、中红外光谱的照射下也会表现出不同的光谱特征,因此可以利用这些特征来鉴别中药材的种类及产地。中药材的种类鉴别相对比较容易,不同种类的中药材呈现的光谱的区别比较明显。

中药材的道地性[3]以产地为主要指标,产地的鉴别对于药材品质鉴别尤为重要。然而,不同产地的同一种药材在同一波段内的光谱比较接近,使得光谱鉴别的误差较大。另外,有些中药材的近红外区别比较明显,而有些药材的中红外区别比较明显,当样本量不够充足时,我们可以通过近红外和中红外的光谱数据相互验证来对中药材产地进行综合鉴别。

1.2 相关信息

附件 1 :几种药材的中红外光谱数据。

附件 2 :某一种药材的中红外光谱数据。

附件 3 :某一种药材的近红外和中红外光谱数据。

附件 4 :几种药材的近红外光谱数据。

其中 No 列表示中药材的编号,Class 列表示中药材的类别, OP 列表示该种药材的产地,其余各列第一行的数据是光谱的波数(单位  )、第二行以后的数据表示该行编号的药材在对应波段光谱照射下的吸光度(注:该吸光度为仪器矫正后的值,可能存在负值)。

1.3 需要解决的问题

(1)依据附件1中几种药材的中红外光谱数据,分析研究不同种类药材的特征和差异性,并鉴别药材的种类。

(2)依据附件2中某一种药材的中红外光谱数据,分析不同产地的药材的特征和差异性,试鉴别药材的种类,并将表中给出的编号药材产地的鉴别结果填入表格中。

(3)依据附件3中某一种药材的近红外和中红外数据,鉴别该药材的产地,并将表中给出的药材产地的鉴别结果填入表中。

(4)依据附件4给出的几种药材的近红外光谱数据,鉴别药材的类别和产地,并将表中给出的药材类别和产地鉴别结果填入表中。

问题分析

2.1 问题一分析

针对问题一,利用附件1所给几种药材的中红外光谱数据,研究不同种类药材的特性和差异性,并鉴别药材的种类。不同地区同一种药材在同一波段内的光谱是比较相似的,所以对药材分类可以不考虑产地的影响,为解决此问题我们可以建立聚类分析数学模型对425个药材样本进行分类,对样本分类实现可视化,便于呈现数据结构。将分好的每一大类的数据样本用Excel进行筛选并绘制出光谱图,对每一大类的数据计算其皮尔逊相关系数,进行相关性检验,验证分类的合理性,最后用数学分析手段对不同类药材的特征和差异性进行分析。

2.2 问题二分析

针对问题二,利用附件2所给某一种药材的中红外光谱数据,研究不同产地药材的特征和差异性,并鉴别部分药材的产地,同一产地的同一种药材在相同的光谱波数照射下光的吸光度是大致相同的。用Excel筛选可以得到数据中共有11个药材产地,根据药材产地的不同将药材样本对应分成11类。用Excel绘制每一类样本数据的光谱图,找出每一类中具有代表性的一组数据,将光谱图绘制在同一张图中,通过数学分析的手段进行特征和差异性分析。对于鉴别部分药材的产地,根据皮尔逊相关系数,空白产地的样本数据与分好类的样本数据进行相关性分析,根据相关系数判断药材的产地。

2.3 问题三分析

对于问题三,附件3是一种药材的近红外和中红外光谱数据,研究鉴别部分药材的产地,有些中药材的近红外区别比较明显,而有些药材的中红外区别比较明显,在样本量不充足时,需要通过近红外和中红外的光谱数据相互验证综合分析。用Excel筛选可以得到数据中共有17个药材产地,鉴别药材的产地,将近红外和中红外光谱数据根据产地的不同进行分类,各分为17类。根据皮尔逊相关系数,空白产地的样本数据与分好类的样本数据进行相关性分析,选取相关系数最大的即为药材的产地。

2.4 问题四分析

对于问题四,鉴别药材的种类和产地,附件4种类缺失数据较多,先将种类进行补全,筛选出已知的A,B,C三个种类的药材,计算出每个产地对应的平均吸光度。再利用SPSS将每个缺失的种类与三个种类的平均数据进行相关性分析,根据相关系数确定所有药材种类。根据所有确定的药材的种类和已有的产地信息,利用SPSS软件对样本代表数据分别与编号94、编号109、编号140、编号278、编号308、编号330、编号347的药材进行相关性分析分析,确定出以上编号药材的种类和产地。

三、条件假设

1、假设对药材种类分类时,忽略其不同产地的影响。

2、假设附件中的所有数据准确,未受其光谱散射干扰。

四、符号说明

符号

         含义

ρ 

两点之间的欧式距离

li 

编号i  药材的吸光度

点到原点的欧式距离

ASK 

为第s  样品光谱在波长点K处吸光度

AMK 

为第m  样品光谱在波长点K处吸光度

λ 

光谱的平均波数

编号i  药材的平均吸光度

λn 

n  列光谱的波数

五、模型的建立与求解

5.1问题一的求解

针对问题一首先对附件1数据进行预处理,数据检查并无异常值和缺失值。此问需要解决两个问题,一是鉴别出药材的种类,二是分析不同类药材的特征和差异性。首先建立聚类分析数学模型,以欧式距离为分类方法对425个样本药材进行分类,欧氏距离是两条光谱差异程度的一个尺度,也就是说欧氏距离越大,光谱的差异也就越大,而两条完全相同光谱的欧氏距离为零。[1]

聚类分析欧氏距离数学模型:

                   Ds=k(ASK-AMK)2                          (1)

或                                                                                      (2)

                                           (3)

ρ  是两点之间的欧式距离, 是光的吸光度, 是光谱的波数。 为点到原点的欧式距离。                             

欧氏距离的本质是两条光谱在所选波长范围内Y轴差异的总和。所以对两条完全相同的光谱,它们的吸光度是完全相同的,差异的总和也就为零,而且随着吸光度值差异的增加,欧氏距离也会相应得增大。绘制出聚类分析树状图进行分

析。

图5-1-1  聚类分析树状图

对于聚类结果,类之间的距离应该尽可能大一些,比如上图所示的树状图,聚成2类时,两个类的距离在25这个水平上,而聚成3类时,类之间的距离快速逼近10这个距离水平,聚类数越多,类的距离越是靠近,类的特征也就越来越难以区分。由于药材样本数量多,不同种类的中药材呈现的光谱区别比较明显,如果只考虑其明显特征进行分类,可能将部分特征不明显的样本进行了覆盖,不利于模型的准确性,因此对样本药材进行详细分类,将分类的样本数据可视化进行分析,由上图可知当类间距离为1.5时,是样本药材的二级聚类,将所有样本分为12类,利用SPSS对数据进行分析绘制光谱图。

表 5-1-A  样本分类数据

一类

二类

三类

六类

九类

十类

十一类

十二类

6

17

1

3

45

64

136

201

12

93

2

5

61

14

106

4

11

67

21

124

7

18

91

30

128

9

22

130

31

138

19

25

183

39

154

23

47

184

40

167

32

62

200

48

168

35

63

220

(详情见附录)

图5-1-2 第一类光谱图

图5-1-3 第二类光谱图

图5-1-4 第三类光谱图

图5-1-5 第四类光谱图

图5-1-6 第五类光谱图

图5-1-7 第六类光谱图

图5-1-8 第七类光谱图

图5-1-9 第八类光谱图

图5-1-10 第九类光谱图

图5-1-11 第十类光谱图

图5-1-12 第十一类光谱图

图5-1-13 第十二类光谱图

以上为12类部分样本光谱折线图,其最大值、最小值和峰面积也大致相同,直观的验证了欧氏距离模型的准确性,通过观察每一类的样本药材光谱图可以看出其数据特征,为分析出12类药材的差异性,将每类样本不同波长的吸光度求均值,绘制出每类的样本平均值的光谱图,仅从中红外光谱图的表观图谱特征无法对不同种类药材进行差异分析,借助于数学分析手段。求出其最小值,最大值,均值,标准偏差,方差,偏度,峰度进行详细分析。

利用SPSS对分好类的数据进行相关性检验,得到各类间的相关系数,以第二类为例进行分析,如表5-1-B第二类相关性矩阵所示

表5-1-B第二类相关性矩阵

  同一类中,每个样本间的相关系数均大于0.95,彼此间有极强的相关性,验证了此分类方法的合理性。

图 5-1-14 十二类均值光谱图

附件1中红外光谱的起始波数为652(cm-1  ),第1类至第9类在波长在652(cm-1 )至1720(cm-1 )之间光谱线幅度较大,波长在1720(cm-1 )到2730(cm-1 )和3688(cm-1 )至3999(cm-1 )光谱线趋于平缓且吸光率接近于0,波长在2730(cm-1 )至3688(cm-1 )有小幅度的波动。在中红外光谱中,波长越小对其药材吸光率影响越大。第10、11、12类各为单独一类,此三类有一定的相似性,在波长652(cm-1 )至1998(cm-1 )之间光谱线幅度有大幅波动,随着波长的增加药材吸光度逐渐减小。

  运用数学分析手段计算根据以下公式模型求出其范围,最小值,最大值,均值,标准偏差,方差,偏度,峰度。

范围:

                                                                                      (4)

均值:

                                                                                  (5)

偏差:

                                                                                 (6)

         表示标准误差估算值,相当于标准误差

方差:

                                                                     (7)

偏度:

                                                                          (8)

  :偏度;

  :三阶中心矩;

  :标准差

 峰度:

                    (9)

  是四节样本中心矩, 是二阶中心矩(样本方差), 是第 个值,x 是样本的平均值,此处计算方差的除数是 ,而不是单独计算样本方差的 。

                       表5-1-C特征值数据

范围

最小值

最大值

均值

标准 偏差

方差

偏度

峰度

@1

.0893

.0063

.0956

.0364

.0217

.0005

.5775

-.5943

@2

.1116

.0063

.1179

.0461

.0294

.0009

.4899

-.7976

@3

.1365

.0066

.1430

.0363

.0278

.0008

1.2978

1.4816

@4

.2624

.0030

.2654

.0656

.0627

.0039

1.1820

.8712

@5

.3691

.0024

.3715

.0910

.0882

.0078

1.1066

.7462

@6

.3222

.0030

.3252

.0789

.0763

.0058

1.1738

.9124

@7

.3360

-.0044

.3316

.0552

.0670

.0045

1.4219

1.4098

@8

.2041

.0012

.2053

.0506

.0492

.0024

1.1774

.7955

@9

.2166

.0023

.2189

.0508

.0490

.0024

1.1344

.3847

@10

.5157

.3807

.8964

.5665

.1185

.0140

.6639

-.6001

@11

.3598

.4160

.7757

.5222

.0894

.0080

.8204

-.5411

@12

.3373

.2112

.5485

.3240

.0780

.0061

.7047

-.6198

几种药材的中红外光谱数据吸光度最小的是第7类药材,最小值是-0.0044,吸光度最大的药材是第10类药材最大值是0.8964;标准偏差最大的是第10类药材,最大值是0.1185,标准偏差最小的第三类药材,最小值是0.0278;峰度最大的是第3类药材,其值是1.2978,最低峰度是第10类药材,其值是0.6639;最大偏度是第3类药材,最大值是1.4816,最小是第10类药材,最小值是-0.6001.

通过以上分析,最终将药材分为12类,不同药材在光谱照射下吸光度是不同的,其中第3类药材吸光度最大,第10类药材吸收光度最弱,由于各种中药材所含成分含量的不同,因此而导致其中红外光谱图也不尽相同,,但其中的化学成分一般都含有能引起中红外吸收的 C-H,O-H,N-H,S-H,C-O 等基团。利用这种光谱图上存在的差异就可以实现药材的鉴别和分类 [4]

5.2问题二的求解

附件2是一种药材的中红外光谱数据,研究不同产地药材的特征和差异性,并鉴别部分编号的药材产地,数据中共有11个药材产地,先根据药材产地的不同将样本进行分类,共分为11类。同一产地的同一种药材在相同的光谱波数照射下光的吸光度是大致相同的。将每一类的样本求出均值代表此类的样本数据,绘制出平均值光谱图,进行特征和差异性的分析。对于鉴别药材产地,根据皮尔逊相关系数,对空白产地编号的样本数据与11类平均值的样本数据进行相关性分析,相关系数最大的即为药材的产地。

  根据中红外光谱数据,将地区划分为11类,分析药材的特性和差异性,利用Excel绘制出图5-2-1。  

图5-2-1 11产地的光谱图

附件2中红外光谱的起始波数为551(cm-1  ),不同产地的同一种药材在同一波段内的光谱比较接近,由上图可以看出一种药材11个产地的光谱图趋势基本吻合,当波数在551(cm-1 )至1848(cm-1 )和2334(cm-1 )和3998(cm-1 )之间光谱线幅度较大,其余中间波数对应的光谱线趋于平缓。

对11个产地分类利用SPSS进行数据分析,计算出其各项值:

表5-2-A 特征值数据求值表格

范围

最小值

最大值

均值

标准 偏差

方差

偏度

峰度

@1

.7622

.0562

.8184

.2952

.2152

.0463

.7346

-.4429

@2

.8843

.0605

.9448

.3552

.2600

.0676

.6409

-.6655

@3

.7505

.0570

.8075

.3016

.2132

.0454

.6624

-.5412

@4

.6871

.0568

.7439

.2862

.1993

.0397

.5512

-.8622

@5

.9145

.0509

.9654

.3331

.2465

.0607

.5894

-.7562

@6

.7898

.0490

.8388

.3129

.2378

.0565

.6926

-.5824

@7

.7824

.0595

.8418

.3253

.2352

.0553

.6598

-.6535

@8

.8873

.0589

.9462

.3449

.2571

.0661

.7432

-.4545

@9

.8421

.0715

.9137

.3456

.2375

.0564

.5667

-.7983

@10

.7795

.0531

.8326

.3212

.2296

.0527

.5834

-.7723

@11

.7457

.0600

.8056

.3063

.2164

.0468

.6604

-.6008

通过对表5-2-A的分析,吸光度最小的地区是地区6最小值是0.04900;吸光度最大的地区是地区5最大吸光度是0.96544。标准差最大的地区是地区2 ,其最大值是 0.26001,标准差最小的地区是地区4,最小值是0.19926;偏度最大的地区是地区8,其最大值0.743,最小的地区是4,最小值0.551;峰值最大的地区是地区1,其最大值-0.443,最小的地区是4,最小值-0.862。

通过以上数据,说明了不同地区的药材有明显的道地性的,同一药材有着众多的药理作用。种植的环境不同,药材的成分含量、有机物等存在差异性。

建立光谱的波数与编号的药材对应波段光谱照射的吸光度的模型:

                         (10)

其中λi  表示光谱的波数(单位cm-1 ),li 表示该行编号的药材在对应波段光谱照射下的吸光度,λ 表示光谱波长的平均数,l 表示该行编号的药材在对应波段光谱照射下的平均吸光度。

计算出各个地区对应的平均吸光度曲线,再利用SPSS对未知产地的吸光度曲线与已划分的11个产地的吸光度曲线进行相关性分析,得到未知产地样本数据与这11个产地样本数据的相关系数见表 5-2-B所示。通过对比各地区的相关性系数,根据皮尔逊相关系数越接近1相关性越强,选出相关性最强的地区,即为该产地药材。如表5-2-C所示。

                表5-2-B 药材产地间的相关性

1

2

3

4

5

6

7

8

9

10

11

OP

3

0.998

0.994

0.999

0.989

0.985

0.997

0.995

0.995

0.99

0.99

0.997

3

14

0.989

0.979

0.985

0.966

0.957

0.979

0.98

0.987

0.962

0.965

0.982

1

38

0.988

0.993

0.987

0.999

0.998

0.992

0.993

0.987

0.997

0.996

0.994

4

48

0.9912

0.984

0.989

0.98

0.975

0.99

0.989

0.9911

0.978

0.976

0.989

1

58

0.98

0.981

0.983

0.965

0.951

0.979

0.982

0.987

0.964

0.963

0.977

8

71

0.985

0.982

0.983

0.991

0.996

0.989

0.985

0.978

0.992

0.989

0.989

5

79

0.994

0.997

0.995

0.99851

0.994

0.998

0.99858

0.994

0.997

0.995

0.998

7

86

0.995

0.994

0.997

0.993

0.99

0.998

0.996

0.992

0.995

0.991

0.996

6

89

0.993

0.988

0.997

0.985

0.981

0.994

0.99

0.989

0.988

0.984

0.992

3

110

0.983

0.991

0.982

0.9965

0.9968

0.988

0.988

0.981

0.994

0.9967

0.991

5

134

0.985

0.988

0.987

0.996

0.996

0.993

0.991

0.982

0.999

0.995

0.992

9

152

0.993

0.99672

0.992

0.99667

0.993

0.9972

0.9968

0.993

0.995

0.996

0.996

7

227

0.985

0.989

0.986

0.996

0.998

0.991

0.99

0.982

0.997

0.994

0.991

10

331

0.986

0.995

0.984

0.994

0.99

0.988

0.99

0.985

0.989

0.994

0.992

2

618

0.99806

0.993

0.9977

0.991

0.988

0.996

0.995

0.994

0.991

0.99

0.9975

1

鉴别结果如下:

表5-2-C     编号药材产地的鉴别结果

No

3

14

38

48

58

71

79

86

89

110

134

152

227

331

618

OP

3

1

4

1

8

5

7

6

3

5

9

7

10

2

1

5.3问题三的求解

附件3是某一种药材的近红外和中红外光谱数据,研究鉴别部分药材的产地,有些中药材的近红外区别比较明显,而有些药材的中红外区别比较明显,在样本量不充足时,需要通过近红外和中红外的光谱数据相互验证综合分析。药材样本数据产地有17个,鉴别出空白产地的样本数据的产地,将近红外和中红外光谱数据根据产地的不同进行分类,各分为17类。将每一类的样本求出均值代表此类的样本数据,绘制出平均值光谱图,进行特征和差异性的分析。对于鉴别药材产地,利用皮尔逊相关系数,空白产地编号的样本数据与17类平均值的样本数据进行相关性分析,根据相关系数判断药材的产地。

分别对两种光谱的数据绘制成折线图进行对比分析,绘制出两种光谱下17个地区的折线图 ,如图5-3-1和图5-3-2所示:   

                    图5-3-1中红外光谱图

                  图5-3-2  近红外光谱图

通过图5-3-1和图 5-3-2可看出近红外光谱的吸光度趋势大致相同,绘制出的光谱图重叠度较高,难以区分中药材的产地,但是通过中红外光谱的光谱图可以明显看出不同地区中药材红外光谱曲线的离散程度更大,光谱距离较远,再对近红外光和中红外的数据进行欧氏距离检验,得到距离矩阵(见附录中红外光距离矩阵、近红外光距离矩阵),通过数据对比发现中红外数据中的距离大于近红外光谱中数据的距离,可得出近红外光谱的数据较接近,难以对地区进行区分,因此选用中红外光谱区分该种中药材的地区划分。

利用SPSS对未知产地的吸光度曲线与以划分的17个地区的吸光度曲线进行相关性分析,得到未知地区与这17个地区的相关系数,见表 5-3-A。通过对比各地区的相关性系数,根据皮尔逊相关系数越接近1相关性越强,选出相关性最强的地区,即为该产地药材。结果见表5-3-B。   

表5-3-A  相关系数表格

 

NO4

NO15

NO22

NO30

NO34

NO45

NO74

NO114

NO170

NO209

ZOP1

0.943

0.9978

0.9976

0.995

0.938

0.985

0.974

0.99896

0.991

0.991

ZOP2

0.943

0.9894

0.9922

0.999

0.949

0.973

0.959

0.9925

0.995

0.981

ZOP3

0.956

0.9941

0.9937

0.997

0.956

0.978

0.976

0.9976

0.997

0.989

ZOP4

0.993

0.9558

0.9461

0.953

0.981

0.919

0.994

0.9712

0.976

0.987

ZOP5

0.933

0.9929

0.9947

0.997

0.935

0.985

0.96

0.9929

0.992

0.976

ZOP6

0.924

0.9982

0.9953

0.983

0.912

0.992

0.973

0.9947

0.979

0.986

ZOP7

0.933

0.9956

0.9904

0.978

0.916

0.987

0.981

0.9934

0.977

0.989

ZOP8

0.934

0.9978

0.9979

0.996

0.932

0.989

0.97

0.9979

0.992

0.985

ZOP9

0.958

0.9898

0.9892

0.996

0.961

0.97

0.974

0.9952

0.999

0.988

ZOP10

0.937

0.9992

0.9975

0.992

0.93

0.99

0.976

0.9987

0.989

0.989

ZOP11

0.94

0.9992

0.9971

0.991

0.933

0.989

0.978

0.99896

0.989

0.991

ZOP12

0.942

0.9832

0.9739

0.958

0.919

0.969

0.989

0.9838

0.965

0.989

ZOP13

0.922

0.9912

0.9947

0.998

0.929

0.983

0.951

0.991

0.991

0.973

ZOP14

0.946

0.9964

0.9928

0.986

0.934

0.982

0.984

0.9976

0.986

0.995

ZOP15

0.977

0.9721

0.9616

0.958

0.958

0.946

0.999

0.9808

0.974

0.992

ZOP16

0.987

0.9452

0.9422

0.962

0.997

0.907

0.964

0.9613

0.981

0.967

ZOP17

0.996

0.9584

0.9502

0.959

0.986

0.922

0.991

0.973

0.979

0.986

根据以上分析,鉴别结果如下:

表5-3-B  编号药别产地的鉴别结果

NO

4

15

22

30

34

45

74

114

170

209

OP

17

11

8

2

16

6

15

11

9

14

5.4问题四的求解

附件4是几种中药材的近红外光谱数据,鉴别部分药材的类别和产地,针对该问题,由于缺失种类的数量多,对其分析结果有很大影响,所以对缺失种类的数据进行补充,依据已有的种类产地数据补全缺失种类数据,筛选出A,B,C三个种类的药材,计算出每个产地对应的平均吸光度。再利用SPSS将每个缺失的种类与三个种类的平均数据进行相关性分析相关,经过数次的筛选,得到每个缺失种类与三个种类的相关性矩阵,如表5-4-A缺失地区与各种类相关性。

表5-4-A   缺失地区与各种类相关性

A

B

C

种类

NO3

0.578

0.955

0.806

B

NO5

0.91

0.967

0.992

C

NO6

0.793

0.998

0.94

B

NO11

0.839

0.996

0.969

B

NO16

0.998

0.754

0.912

A

NO18

0.712

0.989

0.906

B

NO20

0.919

0.959

0.995

C

NO21

0.864

0.99

0.974

B

根据皮尔逊相关系数越接近1相关性越强,找出每个缺失种类对应的A,B,C三个种类,由于未说明该组数据的中药材被分为三类,可以通过观察相关性,若相关性与三个种类的相关系数差距都比较大,则该类为另一种中药材,即为D类。经过筛选发现每个缺失种类与A,B,C三类的其中一类或两类相关系数非常接近1,选择相关系数最大的代表该药材的种类,经筛选没有出现D类药材。

同理,利用同种方法对缺失地区进行补充。对完善后的数据进行分类处理,列出每个种类所对用的各个地区,对每个地区数据的吸光度进行均值计算,形成一条近红外数据来代表该地区。下图为三个种类不同地区的光谱曲线

图5-4-1种类A光谱图

图5-4-2种类B光谱图

5-4-3种类C光谱图

图5-4-4三种种类光谱图

利用SPSS软件对已分好的三个种类不同地区的吸光度分别与编号94、编号109、编号140、编号278、编号308、编号330、编号347分别进行相关性分析分析。得出的相关性矩阵如下表5-4-B 所示

                    表5-4-B   相关系数矩阵

NO94

NO109

NO140

NO278

NO308

NO330

NO347

A1

0.999

0.99957

0.99976

0.921

0.949

0.858

0.731

A2

0.999

0.99978

0.99917

0.915

0.944

0.85

0.72

A3

0.999

0.99944

0.99985

0.923

0.951

0.861

0.735

A4

0.999

0.99942

0.99935

0.923

0.948

0.86

0.727

A5

1

0.99949

0.99875

0.913

0.943

0.849

0.72

B1

0.552

0.53459

0.57361

0.769

0.773

0.853

0.971

B2

0.852

0.8433

0.86753

0.963

0.97

0.982

0.976

B3

0.805

0.79467

0.82219

0.939

0.947

0.969

0.991

B4

0.841

0.83156

0.85658

0.958

0.965

0.98

0.981

B5

0.824

0.81226

0.83849

0.944

0.954

0.971

0.988

B6

0.834

0.82462

0.85015

0.954

0.963

0.977

0.983

B7

0.692

0.6812

0.71486

0.884

0.88

0.939

0.992

B8

0.87

0.85989

0.88275

0.966

0.977

0.98

0.97

B9

0.77

0.75759

0.78735

0.92

0.926

0.961

0.997

B10

0.743

0.72913

0.76032

0.897

0.906

0.945

0.998

B11

0.639

0.62388

0.6598

0.837

0.841

0.905

0.993

B12

0.795

0.78382

0.81212

0.936

0.942

0.969

0.993

B13

0.832

0.82048

0.84628

0.945

0.958

0.97

0.985

B14

0.834

0.82428

0.84987

0.958

0.962

0.981

0.982

B15

0.878

0.86956

0.8917

0.967

0.98

0.979

0.964

B16

0.72

0.70684

0.73931

0.886

0.894

0.938

0.999

C1

0.937

0.93114

0.94397

0.999

0.99

0.979

0.879

C2

0.936

0.92916

0.94309

0.998

0.993

0.982

0.894

C3

0.93

0.92367

0.93974

0.987

0.999

0.975

0.92

C4

0.915

0.90668

0.92287

0.998

0.987

0.991

0.91

鉴定结果如表5-4-C : 

表5-4-C   药材的类别与产地

No

94

109

140

278

308

330

347

Class

A

A

A

C

C

C

B

OP

5

2

3

1

3

4

16

                                              六、模型的评价

6.1优点:

1、此模型运用了SPSS、Excel软件,处理数据方便,绘图清晰。

2、利用皮尔逊相关性分析清晰地了解到样本变量之间的相关系数。

3、对模型进行了数据检验,能提高模型的合理性。

4、对于数据进行预处理时,采用了多种方法进行处理

5、对于选取优质的药材和食品成分检测领域具有重要推广价值。

6.2缺点:

1、聚类分析模型的类间距离是观察选取的,没有进行定量分析选取。

参考文献

[1]  宋瑞丽.近红外光谱技术对山药质量评价的研究.河南中医学院硕士学位论文,

[2]  岑忠用,雷顺新,雷蕾,严军,张晖英.近红外光谱法鉴别6种根茎类中药材[J].华中农业大学学报,2021,40(03):271-277.10.13300/j.cnki.hnlkxb.2021.03.031.

[3]  张芳,周昊,徐蓉,徐寸发,韩伟,徐为民,李勇.红外光谱结合PCA-LDA判别道地和非道地山药[J].江苏农业科学,2018,46(24):217-220.10.15889/j.issn.1002-1302.2018.24.060.

[4]   白钢,丁国钰,侯媛媛,姜民,高洁 引进近红外技术用于中药材品质的快速评价. 中国中药杂志,第41卷第19期,2016,10

附录(本论文没有用到程序)

问题一

图5-1-1  聚类分析详细树状图

表 5-1-A  详细分类样本数据表格

一类

二类

三类

四类

五类

六类

七类

八类

九类

十类

十一类

十二类

6

17

1

8

33

3

69

10

45

64

136

201

12

93

2

13

38

5

78

20

61

14

106

4

15

90

11

94

24

67

21

124

7

16

134

18

120

42

91

30

128

9

26

137

22

258

50

130

31

138

19

27

303

25

297

98

183

39

154

23

28

323

47

384

117

184

40

167

32

29

334

62

390

119

200

48

168

35

34

366

63

412

178

220

53

170

41

36

391

65

245

234

59

175

46

37

418

66

273

246

73

180

51

43

68

319

267

75

55

44

72

326

279

77

56

49

74

350

308

79

57

52

81

359

318

80

60

54

82

363

345

86

71

58

87

402

397

95

76

70

99

404

400

100

83

84

104

411

102

89

85

108

103

92

88

118

109

121

96

126

111

123

97

127

112

142

101

129

113

148

105

140

114

151

107

143

122

157

110

144

131

159

115

149

132

191

116

152

133

193

125

155

135

209

141

164

139

224

147

165

145

227

150

171

146

228

153

181

156

231

163

182

158

235

172

188

160

266

176

196

161

280

185

197

162

286

186

198

166

289

203

199

169

294

207

206

173

299

211

213

174

307

212

218

177

320

214

221

179

330

215

222

187

333

219

225

189

335

226

232

190

337

229

237

192

338

241

238

194

342

243

240

195

364

248

249

202

392

250

253

204

403

252

257

205

417

263

259

208

264

260

210

269

271

216

270

272

217

277

275

223

282

281

230

283

288

233

284

291

236

302

293

239

317

296

242

322

298

244

328

300

247

331

301

251

356

305

254

361

309

255

368

313

256

370

324

261

378

325

262

379

336

265

381

347

268

383

349

274

385

354

276

387

362

278

389

371

285

394

373

287

396

375

290

401

376

292

406

377

295

410

380

304

415

382

306

422

386

310

388

311

407

312

408

314

413

315

419

316

321

327

329

332

339

340

341

343

344

346

348

351

352

353

355

357

358

360

365

367

369

372

374

393

395

398

399

405

409

414

416

420

421

423

424

425

问题三

中红外光距离矩阵

欧氏距离

ZOP1

ZOP2

ZOP3

ZOP4

ZOP5

ZOP6

ZOP7

ZOP8

ZOP9

ZOP10

ZOP11

ZOP12

ZOP13

ZOP14

ZOP15

ZOP16

ZOP17

ZOP1

0

0.512

0.174

2.188

0.226

0.595

0.478

0.224

0.611

0.266

0.24

0.444

0.218

0.138

1.063

4.055

2.528

ZOP2

0.512

0

0.459

1.788

0.562

1.089

0.973

0.692

0.19

0.753

0.739

0.929

0.471

0.602

0.795

3.584

2.105

ZOP3

0.174

0.459

0

2.137

0.176

0.654

0.535

0.275

0.541

0.324

0.316

0.515

0.192

0.241

1.025

3.99

2.472

ZOP4

2.188

1.788

2.137

0

2.276

2.741

2.59

2.381

1.643

2.418

2.397

2.461

2.22

2.209

1.181

2.007

0.39

ZOP5

0.226

0.562

0.176

2.276

0

0.57

0.473

0.188

0.664

0.258

0.265

0.509

0.146

0.298

1.166

4.113

2.607

ZOP6

0.595

1.089

0.654

2.741

0.57

0

0.167

0.413

1.181

0.343

0.363

0.34

0.654

0.545

1.583

4.63

3.089

ZOP7

0.478

0.973

0.535

2.59

0.473

0.167

0

0.318

1.052

0.232

0.25

0.204

0.564

0.406

1.427

4.491

2.939

ZOP8

0.224

0.692

0.275

2.381

0.188

0.413

0.318

0

0.789

0.1

0.104

0.364

0.26

0.241

1.249

4.244

2.722

ZOP9

0.611

0.19

0.541

1.643

0.664

1.181

1.052

0.789

0

0.842

0.829

0.987

0.588

0.675

0.648

3.466

1.97

ZOP10

0.266

0.753

0.324

2.418

0.258

0.343

0.232

0.1

0.842

0

0.059

0.282

0.338

0.236

1.272

4.296

2.762

ZOP11

0.24

0.739

0.316

2.397

0.265

0.363

0.25

0.104

0.829

0.059

0

0.27

0.34

0.211

1.25

4.276

2.741

ZOP12

0.444

0.929

0.515

2.461

0.509

0.34

0.204

0.364

0.987

0.282

0.27

0

0.589

0.338

1.292

4.383

2.815

ZOP13

0.218

0.471

0.192

2.22

0.146

0.654

0.564

0.26

0.588

0.338

0.34

0.589

0

0.325

1.134

4.041

2.55

ZOP14

0.138

0.602

0.241

2.209

0.298

0.545

0.406

0.241

0.675

0.236

0.211

0.338

0.325

0

1.06

4.104

2.555

ZOP15

1.063

0.795

1.025

1.181

1.166

1.583

1.427

1.249

0.648

1.272

1.25

1.292

1.134

1.06

0

3.138

1.535

ZOP16

4.055

3.584

3.99

2.007

4.113

4.63

4.491

4.244

3.466

4.296

4.276

4.383

4.041

4.104

3.138

0

1.646

ZOP17

2.528

2.105

2.472

0.39

2.607

3.089

2.939

2.722

1.97

2.762

2.741

2.815

2.55

2.555

1.535

1.646

0

     近红外光距离矩阵

欧氏距离

JOP1

JOP2

JOP3

JOP4

JOP5

JOP6

JOP7

JOP8

JOP9

JOP10

JOP11

JOP12

JOP13

JOP14

JOP15

JOP16

JOP17

JOP1

0

1.569

1.815

3.484

2.996

1.842

1.907

1.746

1.561

1.217

1.436

1.208

2.362

2.127

1.498

1.338

1.378

JOP2

1.569

0

0.503

2.762

2.49

1.062

1.32

0.501

0.57

0.559

1.481

2.005

1.018

1.932

1.281

0.721

0.504

JOP3

1.815

0.503

0

2.298

2.924

0.728

0.945

0.187

1.005

0.648

1.292

1.978

1.288

1.603

1.095

0.699

0.599

JOP4

3.484

2.762

2.298

0

5.184

1.893

1.638

2.297

3.18

2.626

2.13

2.83

3.394

1.537

2.088

2.508

2.569

JOP5

2.996

2.49

2.924

5.184

0

3.476

3.779

2.937

2.129

2.821

3.79

3.965

1.893

4.364

3.618

2.966

2.802

JOP6

1.842

1.062

0.728

1.893

3.476

0

0.485

0.653

1.41

0.84

0.902

1.737

1.842

1.206

0.902

0.855

0.913

JOP7

1.907

1.32

0.945

1.638

3.779

0.485

0

0.891

1.735

1.031

0.684

1.553

2.191

0.76

0.721

0.98

1.096

JOP8

1.746

0.501

0.187

2.297

2.937

0.653

0.891

0

0.966

0.554

1.206

1.905

1.321

1.553

1.053

0.596

0.57

JOP9

1.561

0.57

1.005

3.18

2.129

1.41

1.735

0.966

0

0.871

1.804

2.186

0.899

2.358

1.611

1.033

0.797

JOP10

1.217

0.559

0.648

2.626

2.821

0.84

1.031

0.554

0.871

0

1.007

1.558

1.499

1.585

0.975

0.392

0.489

JOP11

1.436

1.481

1.292

2.13

3.79

0.902

0.684

1.206

1.804

1.007

0

0.988

2.452

0.795

0.662

0.942

1.188

JOP12

1.208

2.005

1.978

2.83

3.965

1.737

1.553

1.905

2.186

1.558

0.988

0

2.974

1.438

1.067

1.524

1.631

JOP13

2.362

1.018

1.288

3.394

1.893

1.842

2.191

1.321

0.899

1.499

2.452

2.974

0

2.863

2.248

1.631

1.428

JOP14

2.127

1.932

1.603

1.537

4.364

1.206

0.76

1.553

2.358

1.585

0.795

1.438

2.863

0

0.969

1.472

1.659

JOP15

1.498

1.281

1.095

2.088

3.618

0.902

0.721

1.053

1.611

0.975

0.662

1.067

2.248

0.969

0

0.888

0.861

JOP16

1.338

0.721

0.699

2.508

2.966

0.855

0.98

0.596

1.033

0.392

0.942

1.524

1.631

1.472

0.888

0

0.545

JOP17

1.378

0.504

0.599

2.569

2.802

0.913

1.096

0.57

0.797

0.489

1.188

1.631

1.428

1.659

0.861

0.545

0



【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3