关键词:太赫兹光谱技术;毒品检测;光谱识别;人工神经网络;光谱分析
引言
THz时域光谱技术(terahertz time domain spectroscopy,THz-TDS)是20世纪90年代发展起来的一种新型光谱测量技术,使用频率介于红外和微波之间(频率在0.1~10THz范围内)的相干电磁辐射脉冲作为探测源,利用电光取样或光电导取样的方法直接记录THz辐射场的振幅时间波形,通过傅里叶变换得到测量信号振幅和相位的分布,进而获得材料在THz波段的复折射率,即色散及吸收等信息,从而得到材料的物理和化学性质。
能够应用太赫兹时域光谱技术进行毒品检测是基于下列两个事实:(1)多数毒品在太赫兹波段具有特征吸收;(2)多数包装材料如纸张、织物、塑料、木头,对太赫兹波是透明的。将二者结合起来,使太赫兹技术非常适于进行毒品的无损检测。
自2005年以来,致力于将太赫兹技术用于毒品的检测和识别,取得了一系列研究成果。将从下面几个方面介绍这些研究成果:毒品太赫兹光谱测量;对毒品进行分子层次的结构指认;分析干涉以及包装物等对测量毒品太赫兹光谱的影响;毒品纯度和有效成份含量分析和识别方法。
1实验部分
1.1太赫兹时域光谱系统和样品
典型的太赫兹时域光谱实验系统主要由飞秒脉冲激光器、THz发射元件、THz探测元件和时间延迟控制系统等组成[1]。为了将毒品太赫兹检测技术推向实用化,自主设计并搭建了一套可移动式小型太赫兹时域光谱系统(THz-TDS)。该系统区别于其他传统TDS系统的地方在于其可任意移动并且兼顾小型集成化。系统信噪比为120,动态范围为3000,频谱有效带宽为0.2~2.6 THz,完全可以承担对物质光谱的测量。将该系统用于毒品检测,完成了38种毒品光谱的测量,并将结果与以往其他系统上的测量数据进行比较,得到了一致的结果,证明了系统的可靠性。
毒品样品及其制备:所有毒品样品,包括纯品和街头毒品均来自公安部第一研究所,其中纯品的纯度超过99%。样品均为固态,实验时根据需要将样品制备为片状(直径为10.0 mm,厚度为0.6~1.0mm的薄片)或者粉末状。
1.2毒品数据库
毒品数据库存放了38种毒品的太赫兹光谱数据,包括吸收谱和折射率谱,这些毒品的种类名称分别是:MA,MDA,MDMA,O3单乙酰吗啡、乙酰可待因、海洛因、硫酸氨维他命、吗啡、咖啡因、可待因、氯胺酮、盐酸麻黄碱、O6单乙酰吗啡、HCI罂粟碱、HCI可卡因、HCl伪麻黄碱、HCl甲基麻黄碱、杜冷丁、巴比妥、苯巴比妥、异戊巴比妥、安眠酮、阿普唑仑、咪哒唑仑、三唑仑、安非他明、HCl二氢埃托啡、硫酸可待因、磷酸可待因、盐酸美沙酮、盐酸甲基安非他明、安定、硝西泮、氯硝西泮、卡马西平、安乃近、速可眠、舒乐安定。本数据库毒品的种类是目前国际上最多的。比较了同一个样品在不同太赫兹时域光谱仪、以及傅里叶红外光谱仪上进行测量的结果,并且和国际上已经发表的数据进行比较,得到了一致的结果,从而确认了光谱数据的可靠性。
2毒品太赫兹光谱分析
2.1密度泛函理论
对于毒品太赫兹光谱的分析,采用了密度泛函理论(DFT)。这一理论在分子和固体的电子结构研究中有广泛的应用。密度泛函方法包括局域泛函方法S-VWN,非局域泛函方法B-LYP,S-VWN和混合泛函方法B3-LYP和B3-P86。Ming Wah Wong等用密度泛函的这五种方法进行振动频率的计算,通过比较说明了混合泛函(B3-LYP,B3-P86)比S-VWN,B-LYP,B-VWN函数更可靠。李宁等使用高斯03软件包,应用B3-LYP函数采用不同极化的基组对甲基苯丙氨(MA)、氯氨酮、海洛因、咖啡因和3一乙酰吗啡等毒品样品分子光谱进行计算,并将结果与实验结果比较,实现了对太赫兹光谱中的特征吸收峰进行分子层面的指认,从理论上解释了实验得到的THz吸收光谱[2-4]。图1中(a)和(b)分别是咖啡因和3-乙酰吗啡的太赫兹吸收谱实验结果和模拟结果。
需要指出的是,利用高斯软件进行模拟的结果,与实验测量得到的太赫兹吸收光谱相比,并不能完全吻合,从图1看出吸收峰强度和峰位都存在微小差异。而且,也存在有些在实验上测量到的吸收峰无法通过模拟计算出来的情况。例如,对于MA位于1.84 THz的吸收峰,在模拟中并没有得到(图2)。分析出现这些差异的原因要从软件设定的条件和实验测试条件之间的差异出发,高斯软件是模拟单分子在低温条件下的分子光谱,此实验测量条件是常温,样品为固态。因此,涉及分子间相互作用的问题不能通过软件模拟出来,特征峰的微小移动也是温度差异引起的扰动。要全面解析太赫兹光谱,还需要结合其他方法进行研究计算。
2.2干涉对吸收谱的影响研究
在实际测量毒品样品时,尤其是不规则样品时,发现样品边缘处的吸收谱出现幅度不同的周期性吸收峰。通过分析
发现这些吸收峰并不是样品真实的特征吸收峰,而是由于一部分THz光束透过样品,而另一部分直接从边缘通过,这两部分光产生干涉造成的,将其称之为干涉破坏的太赫兹光谱。利用部分光透过的模型,通过理论分析和计算,成功地消除了干涉峰,提取出样品的真实吸收谱[5]。
由干涉理论,可以得到干涉极大出现的频率和频率间隔为
为了提出消除干涉峰,提取样品的真实吸收谱。设a为太赫兹电场透过样品的透光比(0≤a≤1),实际探测到的太赫兹电场为
由此可以解出Esam,这是真实的样品信息,由此可以得到样品的真实吸收谱。图3是对MA样品太赫兹吸收谱的处理结果。如图3可知(c)和(d)得到的MA的太赫兹吸收光谱与真实光谱相近,保留了在0.2~2.6 THz之间具有的4个特征吸收峰。而在图4(a)中,这些特征吸收峰完全被干涉所致的假吸收峰所遮盖。
由此出发,还探讨了用大尺寸光束探测小尺寸物体的可能性,为实现THz实时检测提供了一种新的方法。
2.3包装物对光谱检测的影响
在实际测量中,要考虑到包装物对毒品太赫兹光谱的影响。这方面,李宁等对隐藏在信封中的毒品进行吸收谱测量并对信封中的毒品进行识别[6] 。将MA和MDA两种毒品分别置于信封中,用透射太赫兹时域光谱系统进行探测,结果,与裸样品的吸收峰对比,信封对太赫兹波有一定的吸收,但是样品的特征吸收峰位置基本不变,即指纹谱不变,如图4所示,这样便可将隐藏的样品识别出来。
3毒品太赫兹光谱识别方法
将THz时域光谱技术与人工神经网络(ANN)结合,多方位研究了利用人工神经网络进行毒品的检测与识别:逯美红[7]利用空间图样法对成像后的毒品样品进行识别;贾燕[8]报道了利用误差逆传播(BP)神经网络识别毒品的THz光谱;梁美彦[9,10]利用自组织映射神经网络(SOM),以及径向基神经网络(RBF)进行毒品的THz光谱识别。同时,也利用其他算法进行了毒品光谱识别:赵树森和潘锐[11,12]用支持向量机(SVM)识别了毒品的THz光谱。
3.1毒品太赫兹光谱定性识别方法
3.1.1基于R平方值的太赫兹光谱识别算法
R平方值,又称可绝系数。决定系数。在统计学上,它是用于描述曲线拟合程度的量。R平方值的取值在,0~1之间。当R2=1时,意味着回归模型的拟合程度最好,也就是二者完全。相似”。当R2=0时,意味着回归模型的拟合程度最差。也就是二者完全“不相似”。
式(4)为定义公式,其中yi为观测值,i为样品类数。根据R平方值的定义,将其用于毒品光谱的识别。利用毒品光谱库作为定义中的“观测值”。后期测量的毒品光谱数据作为“拟合值”。利用平方值比较两者的“相似性”,“相似性”最高的即为识别结果。为了提高识别正确率,将数据进行归一化,减少样品厚度、不同测量时期以及测量环境所带来的影响。同时,引入有效谱宽概念,既只对THz频谱能量相对较高的频率范围进行识别。本方法的识别成功率达到的100%,而且算法简单,容易实现,适应多系统平台,可实时得到识别结果,是毒品定性识别方法中最有效的手段[13]。
3.1.2 SOM神经网络对毒品的定性识别[9]
自组织映射网络(self_organizing feature map,SOM),是1981年由芬兰Helsinki大学的Kohone教授首次提出,其特点与人脑的自组织特征性相类似。
SOM是基于无监督学习方法的神经网络的一种重要类型,SOM网络的运行分为训练和工作(识别)两个阶段。SOM网络中比较两个不同的模式的相似性可转化比较两个向量的距离。传统的比较方法有两种:欧式距离法和余弦法。两者不同的几何特征正是SOM网络用于毒品定性和定量识别的基础。
利用SOM神经网络用于毒品的定性识别。将毒品库中不同种类的毒品输入到SOM网络,通过近6万次的训练运算得到一张能够反映样本模式类分布情况的有序特征图(如图5)。将待识别样品输入已经训练好的网络中,即可得通过其在映射图上的分布得到分类结果,正确率达到100%。
3.1.3空问图样法
利用成像技术,采用空间图像识别算法,实现了对四种毒品的识别和区分[7] 。太赫兹成像所采用的实验装置与透射式光谱测量装置基本相同,唯一的区别是在样品所在位置加入一个二维平移台。通过平移台的移动实现对样品的逐点扫描,利用编制的成像处理程序,就可以将样品的太赫兹像提取出来。图6(a)是实验得到的MDMA、乙酰可待因、海洛因、吗啡的THz成像结果。利用空间图样成份分析方法:[I]=[S][P]。分别输入实验得到的四种样品的THz光谱,从矩阵[P]=[S]T[S]-1[S]T[I]中提取数据得到四种样品的空间图样计算结果,如图6(b)所示。可以看出,通过这种识别算法,可以达到分辨和识别的目的。事实上,如果目标物比如毒品分散在被检测样品中,使用这种方法也可以将其分布单独呈现出来,这在成像检测中很有意义。
太赫兹空间图像识别方法的特点是,即使样品在太赫兹波段不存在特征吸收峰,仍然可以通过样品的吸收光谱特征将样品识别出来。另一个特点是,样品光谱的采集条件不需要在氮气或者干燥气体条件下,也就是说,水的吸收对于这种图像识别方法识别特定物品的影响很小。这个特点对于毒品的实际检测应用是非常有意义的。当然,采用逐点扫描成像所需要的时间较长,不适于快速检测应用。
3.2毒品太赫兹光谱定量识别方法
3.2.1毒品混合物含量定量检测
江德军等[14]定量分析了混合物中毒品的成分,研究从两个方面进行。
首先,已知混合物中各个成分时,应用太赫兹光谱技术进行了确定混合物中各成分百分含量方法的研究。在定性知道混合物各种类的情况下,用太赫兹光谱技术无损定量检测化学样品和毒品混合物的成分。首先测出每种成分的纯样品在太赫兹波段的吸收系数以及混合物的吸收系数,再根据朗伯一比尔定律(5)式和(6)式,并利用最小二乘法公式(7)计算出混合物中各成分的百分含量。
其次,在只知道目标成分时,应用太赫兹光谱技术确定混合物中目标成分百分含量方法的研究。在定性知道混合物中目标成分,且在其他成分未知的情况下,用太赫兹光谱技术无损检测出混合物中目标成分的百分含量,同时算出未知部分的吸收系数曲线的斜率。首先测出已知成分的纯样品在太赫兹波段的吸收系数,再根据朗伯一比尔定律,用最小二乘法计算出混合物中目标成分的百分含量。选取冰毒和面粉来做实验,实验结果和实际含量基本一致。此方法在搀杂物未知的情况下计算出毒品的百分含量,在实际缉毒过程中很有意义,另外算出吸收系数曲线的斜率,可为识别未知搀杂物提供参考。
3.2.2 SOM定量识别毒品混合物[15]
SOM对毒品定性识别取得了较好的识别结果,又将SOM应用到了对毒品的定量识别。同样,基于毒品光谱,并结合朗伯一比尔定律将纯毒品与一般添加物(面粉),或两种不同类的毒品进行不同比例混合,得到一批毒品混合物的光谱数据。将这些混合物数据输入到SOM网络,让网络进行学习。
与定性识别应用不同,网络分布呈现了类似余弦法聚类的结果。不同比例的毒品混合物在网格中呈线性区域分开,而不是定性识别中呈近圆形区域分开。这也体现出了SOM神经网络在定量识别中的可行性。同时,也是基于这样的一种几何分布特征,建立一套自动识别算法。该算法的核心是样本点的网格坐标,计算待识别样本点在网格中的位置与不同分类模式区域的相邻距离。通过对已分类的模式区域进行直线拟合,得到代表该区域的特征直线,同时计算该区域内样本点的聚类中心。通过对待识别样本点到特征直线,和聚类中心的距离进行加权求和,得到一个最短距离值,用以确定待识别点所属区域,得到识别结果(如图7)。
通过多次计算与识别最终确定的最佳加权值为0.9,即待识别点到特征直线的距离占主导因素,这也符合余弦法所形成的几何分布的特点。本方法得到识别正确率达到了95.5%。同时,在SOM定性识别毒品的自动识别算法中,只计算点到聚类中心的距离即可作为判别依据,识别正确率达到100%。至此,利用SOM神经网络,已经构建了一套从毒品定性到定量的完整识别手段。
3.3毒品太赫兹光谱识别算法的比较
以上介绍了多种毒品光谱的识别方法。无论是空间图样法,R平方值或是神经网络,都是基于这些毒品在太赫兹频段所具有的特征吸收峰,才得以实现识别。
对于毒品的定性识别,无疑R平方值是最有效、最快捷的方法,其次还有SVM,BP,RBF三种神经网络。后三者都是有监督学习的神经网络,只要选择恰当的训练参数就可以得到很好的学习结果,识别正确率也很高。SOM神经网络由于其无监督学习的特点,使得它需要耗费大量的时间进行网络训练。空间图样法则需要花费时间在样品光谱及成像的多重测量。
对于毒品的定量识别,R平方值、BP、RBF、SVM等方法都无法得到较好的识别效果。R平方值算法对光谱数据问存在的细微变化并不敏感,这与其算法原理过于简单有关,其他方法则需要仔细选择优化训练参数。相比而言,SOM神经网络得到较高的识别正确率。当然,对于毒品混合物的识别,还需要进行大量的混合物光谱测量和分析工作,构建相应的毒品混合物光谱库。
通过比较可以看到不同方法对于毒品的定量和定性识别各具优劣。然而,这些方法的提出还是丰富了毒品THz光谱的识别手段,对推动毒品THz光谱的识别算法的研究具有积极意义。
4结论
综述了近年来作者所在的研究小组完成的如下工作:研制小型可移动式太赫兹时域光谱系统,并依托此系统将太赫兹光谱和成像技术应用到对毒品进行品种鉴定和含量分析,完成了确定毒品纯度和有效成分含量的理论和实验方法;对隐藏在信封和包裹中的毒品进行探查;对一些毒品品种,如甲基苯丙氨、氯氨酮、海洛因等,进行分子层次的结构指认;建立了含有38种纯度在90%以上的毒品的太赫兹光谱数据库;采用人工神经网络、支持向量机、尺平方值等方法建立了基于指纹谱标准的品种识别方法和应用软件的开发,实现了对毒品进行计算机自动识别。还就太赫兹光谱应用中的光谱干扰问题进行研究,保证了实验获得光谱的准确性。
上述工作为THz时域光谱技术为毒品的检测和识别提供了科学依据和基础,可以作为现有毒品检测手段的有力补充,将为公安部门缉毒工作提供服务。同时,也为太赫兹光谱技术应用在其他领域开拓了思路。