指纹识别在我们今天的工作生活中,无论你是到银行取钱,到网上交易,还是注册网络服务、购物,甚至到朋友单位去拜访,太多太多的场合都需要身份的认证,而传统的基于标志的身份认证技术由于受到证件伪造以及密码破解等手段的威胁,逐渐表现得有些力不从心。怎样保护自
网站地图本站论坛
高级搜索收藏本站
当前位置:试验方案>生物芯片>生物芯片> 正文
  • 几种常见的生物识别技术及其原理

  • 点击:    作者:51protocol收集   来源: 日期:2007-09-08    本站论坛

指纹识别在我们今天的工作生活中,无论你是到银行取钱,到网上交易,还是注册网络服务、购物,甚至到朋友单位去拜访,太多太多的场合都需要身份的认证,而传统的基于标志的身份认证技术由于受到证件伪造以及密码破解等手段的威胁,逐渐表现得有些力不从心。怎样保护自己的重要文件资料,如何保证自己的隐私不被泄露? 在传统的操作中,我们往往使用密码加密法,但这种方法也许是“防君子不防小人”的。在高明的黑客眼里,由几个字符组成的密码脆弱得不堪一击。现在,科技的发展让我们有了新的选择——指纹识别加密产品。将指纹锁应用于笔记本,机箱甚至鼠标上,可以对文件、系统起保护作用,并且进行身份识别。


索尼带有指纹识别模块的记忆棒
有关指纹识别模块的概念最早是由SD集团中的东芝和三菱提出的,不过这次索尼走在了前面,他们已经开发出了基于记忆棒接口的指纹识别模块并计划于今年2月份正式投放市场。
索尼记忆棒指纹识别模块外形和普通的记忆棒一样,可以很方便地插入掌上电脑、笔记本电脑等有记忆棒插槽的设备中使用。为了解决插入后感应模块被盖住的问题,索尼将同时发售配套的记忆棒读卡器。


用指纹保护自己的笔记本
相信很多笔记本用户都听说过有关指纹识别卡方面的信息,而盛传中的PCMCIA接口的指纹识别卡也已经来到了市场。图示的是一款EagleTec公司的指纹识别卡,将这块指纹识别卡与电脑连接好后,再安装相应的加密软件,便可以通过你的指纹对笔记本进行加密和解密。新奇的产品总是价格不菲,这块PCMCIA接口的指纹识别卡的售价高达1580元!


光学式指纹辨别器
说起来,指纹识别似乎也不是万分保险的,假如有人盗取了你的指模,那么打开你的文件则易如反掌。好在魔高一尺,道高一丈,更“聪明”的光学式指纹辨别器可以让你不必担心。
这个看上去像个迷你鼠标,上面还有个亮晶晶的小窗户似的东西,就是光学式指纹辨别器。它运用了高科技生物辨别技术,通过内部的光学感应器件CMOS对活体动物血液循环的感应,进行完整而便易的1对1与1对多枚指纹图像的比对辨识。而在它以前的其他指纹识别系统都是采用折射式的识别系统,如果别人取到你的指模,有可能破译指纹密码。用这种光学式感应器就不会出现这种问题了。
哦!原来是这样的。可是,万一有一天手指不小心弄伤了,指纹发生了变化,打不开锁该怎么办呢?这个不用犯愁,制造商早就替广大用户考虑周到了。建议用户输入两个指纹,第二个指纹就是一个备用工具。这个辨别器可以允许在十个手指中选用任一手指,大家可以在左右手各选一个中意的指头,但不要忘记了是哪一只手指哦。


指纹识别技术的原理
指纹识别技术是最早的通过计算机实现的身份识别手段,它在今天也是应用最为广泛的生物特征识别技术。过去,它主要应用于刑侦系统。近几年来,它逐渐走向市场更为广泛的民用市场。
公元前7000~6000年,古代的亚述人和中国人就意识到了指纹的特点,并使用指纹作为个人身份的象征,19世纪中叶开始了对指纹在科学意义上的研究,并产生了两个重要的结论:没有任何两个手指指纹的纹线形态一致; 指纹纹线的形态终生不变。这些研究使得一些政府开始使用指纹进行罪犯鉴别。在现代的科学研究领域,指纹的识别属于“模式识别”。该系统的核心是OCR(光学字符识别)技术。通过CMOS摄像头提取指纹,然后输入计算机,再通过一系列复杂的指纹识别算法,现代技术就能在极短的时间内完成任何人的身份识别认证。 可以说,指纹识别实现了身份鉴定领域的世纪革命。
那么指纹识别产品是否有市场呢?毕竟现在并不是每一个拥有电脑的人都需要花很多钱用这样稀罕的硬件设备对系统进行保护。针对这个问题,专家指出:目前这种技术还没有向家用型普及,只是为商业界、政府机关资料保护与控管提供解决方案。另外它还可以集成在一些大型安全设备中,比如说门禁管制、智能大楼等等。所以说,它的市场定位也是在商用方面。
不过,值得期待的是,有了这一类产品的出现,指纹识别技术走向日常应用也就不是遥不可及的梦想了。可以想像,当有一天这种技术应用在家用领域时,它会给大家带来更多的惊喜和便利:比如说汽车防盗、ATM提款机、家里的门锁等等。是不是很让人向往呢? 指纹识别的基本原理 在有的国家,指纹属于个人隐私,不能象人工处理那样直接处理指纹图像,所以许多生物识别技术并不直接存储指纹的图像。多年来在各个公司及其研究机构产生了许多不同的数字化算法。指纹识别算法虽然各不相同但是这些算法最终都归结为在指纹图像上找到并比对指纹的特征。我们定义了指纹的两类特征来进行指纹的验证:总体特征和局部特征。

A 总体特征:总体特征是指那些用肉眼就可以直接观察到的特征,包括:


1. 纹形

其他的指纹图案都基于这三种基本图案。仅仅依靠纹形来分辨指纹是远远不够的,这只是一个粗略的分类,通过更详细的分类使得在大数据库中搜寻指纹更为方便快捷。



2. 模式区
模式区是指指纹上包括了总体特征的区域,即从模式区就能够分辨出指纹是属于那一种类型的。有的指纹识别算法只使用模式区的数据。 SecureTouch的指纹识别算法使用了所取得的完整指纹而不仅仅是模式区进行分析和识别。


3. 核心点
核心点位于指纹纹路的渐进中心,它在读取指纹和比对指纹时作为参考点。许多算法是基于核心点的,既只能处理和识别具有核心点的指纹。核心点对于SecureTouch的指纹识别算法很重要,但没有核心点的指纹它仍然能够处理。


4. 三角点
三角点位于从核心点开始的第一个分叉点或者断点、或者两条纹路会聚处、孤立点、折转处,或者指向这些奇异点。三角点提供了指纹纹路的计数跟踪的开始之处。




5. 纹数
指模式区内指纹纹路的数量。在计算指纹的纹数时,一般先在连接核心点和三角点,这条连线与指纹纹路相交的数量即可认为是指纹的纹数。




B 局部特征
局部特征是指指纹上的节点的特征,这些具有某种特征的节点称为特征点。两枚指纹经常会具有相同的总体特征,但它们的局部特征--特征点,却不可能完全相同。
指纹纹路并不是连续的、平滑笔直的,而是经常出现中断、分叉或打折。这些断点、分叉点和转折点就称为“特征点”。就是这些特征点提供了指纹唯一性的确认信息。指纹上的节点有四种不同特性:
1.特征点的分类:有以下几种类型,最典型的是终结点和分叉点。



终结点
一条纹路在此终结。




分叉点
一条纹路在此分开成为两条或更多的纹路。





分歧点
两条平行的纹路在此分开。



孤立点
一条特别短的纹路,以至于成为一点。




环点
一条纹路分开成为两条之后,立即有合并成为一条,这样形成的一个小环称为环点。




短纹
一端较短但不至于成为一点的纹路。



2.方向: 节点可以朝着一定的方向。

3.曲率:描述纹路方向改变的速度。

4.位置:节点的位置通过(x, y)坐标来描述,可以是绝对的,也可以是相对于三角点或特征点的。 虹膜识别综述 基于虹膜的身份识别思想最早可以追溯到19世纪80年代。1885年,ALPHONSE BERTILLON将利用生物特征识别个体的思路应用在巴黎的刑事监狱中,当时所用的生物特征包括:耳朵的大小、脚的长度、虹膜等。受技术的限制,当时的虹膜识别主要依据颜色和形状信息,而且信息通过人的观察获取。1987年,眼科专家ARAN SAFIR和LEONARD FLOM首次提出利用虹膜图像进行自动虹膜识别的概念,但是他们并没有开发出一个实际的应用系统。到1991年,美国洛斯阿拉莫斯国家实验室的JOHNSON实现了一个自动虹膜识别系统。这是有文献记载的第一个虹膜识别应用系统。随后1993年,JOHN DAUGMAN实现了一个高性能的自动虹膜识别原型系统。目前,大部分的自动虹膜识别系统使用DAUGMAN核心算法。
虹膜是位于眼睛黑色瞳孔和白色巩膜之间的圆环状部分,总体上呈现一种由里到外的放射状结构,由相当复杂的纤维组织构成,包含有很多相互交错的类似于斑点、细丝、冠状、条纹、隐窝等细节特征,这些特征在出生之前就以随机组合的方式确定下来了,一旦形成终生不变。虹膜识别的准确性是各种生物识别中最高的。
一般的,一个自动虹膜识别系统包含硬件和软件两大模块:虹膜图像获取装置和虹膜识别算法。分别对应于图像获取和模式匹配这两个基本问题。

采集:

从直径11mm的虹膜上,Dr. Daugman的算法用3.4个字节的数据来代表每平方毫米的虹膜信息,这样,一个虹膜约有266个量化特征点,而一般的生物识别技术只有13个到60个特征点。266个量化特征点的虹膜识别算法在众多虹膜识别技术资料中都有讲述,在算法和人类眼部特征允许的情况下, Dr. Daugman指出,通过他的算法可获得173个二进制自由度的独立特征点。在生物识别技术中,这个特征点的数量是相当大的。

算法:

第一步是通过一个距离眼睛3英寸的精密相机来确定虹膜的位置。当相机对准眼睛后,算法逐渐将焦距对准虹膜左右两侧,确定虹膜的外沿,这种水平方法受到了眼睑的阻碍。算法同时将焦距对准虹膜的内沿(即瞳孔)并排除眼液和细微组织的影响。
单色相机利用可见光和红外线,红外线定位在700-900mm的范围内(这是IR技术的低限,美国眼科学会在他们对macular cysts研究中使用同样的范围。) 在虹膜的上方,算法通过二维Gabor子波的方法来细分和重组虹膜图象,第一个细分的部分被称为phasor,要理解二维gabor子波的原理需要很深的数学知识。

精确度:

虹膜识别技术是精确度最高的生物识别技术,具体描述如下:
两个不同的虹膜信息有75%匹配信息的可能性是1:106
等错率:1:1200000
两个不同的虹膜产生相同虹膜代码的可能性是1:1052

录入和识别:

虹膜的定位可在1秒钟之内完成,产生虹膜代码的时间也仅需1秒的时间,数据库的检索时间也相当快。处理器速度是大规模检索的一个瓶颈,另外网络和硬件设备的性能也制约着检索的速度。由于虹膜识别技术采用的是单色成像技术,因此一些图像很难把它从瞳孔的图像中分离出来。但是虹膜识别技术所采用的算法允许图像质量在某种程度上有所变化。相同的虹膜所产生的虹膜代码也有25%的变化,这听起来好象是这一技术的致命弱点,但在识别过程中,这种虹膜代码的变化只占整个虹膜代码的10%,它所占代码的比例是相当小的。
语音识别技术

语音识别技术是2000年至2010年间信息技术领域十大重要的科技发展技术之一。它是一门交叉学科,正逐步成为信息技术中人机接口的关键技术。语音识别技术与语音合成技术结合使人们能够甩掉键盘,通过语音命令进行操作。语音技术的应用已经成为一个具有竞争性的新兴高技术产业。

语音识别技术

与机器进行语音交流,让机器明白你说什么,这是人们长期以来梦寐以求的事情。语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高技术。语音识别是一门交叉学科。近二十年来,语音识别技术取得显著进步,开始从实验室走向市场。人们预计,未来10年内,语音识别技术将进入工业、家电、通信、汽车电子、医疗、家庭服务、消费电子产品等各个领域。
语音识别听写机在一些领域的应用被美国新闻界评为1997年计算机发展十件大事之一。很多专家都认为语音识别技术是2000年至2010年间信息技术领域十大重要的科技发展技术之一。

语音识别技术的基础

语音识别技术关系到多学科的研究领域,不同领域上的研究成果都对语音识别的发展作了贡献。

让机器识别语音的困难在某种程度上就像一个外语不好的人听外国人讲话一样,它和不同的说话人、不同的说话速度、不同的说话内容、以及不同的环境条件有关。语音信号本身的特点造成了语音识别的困难。这些特点包括多变性,动态性,瞬时性和连续性等。

计算机语音识别过程与人对语音识别处理过程基本上是一致的。目前主流的语音识别技术是基于统计模式识别的基本理论。一个完整的语音识别系统可大致分为三部分:

(1)语音特征提取:其目的是从语音波形中提取出随时间变化的语音特征序列。

(2)声学模型与模式匹配(识别算法):声学模型通常将获取的语音特征通过学习算法产生。在识别时将输入的语音特征同声学模型(模式)进行匹配与比较,得到最佳的识别结果。

(3)语言模型与语言处理:语言模型包括由识别语音命令构成的语法网络或由统计方法构成的语言模型,语言处理可以进行语法、语义分析。对小词表语音识别系统,往往不需要语言处理部分。

声学模型是识别系统的底层模型,并且是语音识别系统中最关键的一部分。声学模型的目的是提供一种有效的方法计算语音的特征矢量序列和每个发音模板之间的距离。声学模型的设计和语言发音特点密切相关。声学模型单元大小(字发音模型、半音节模型或音素模型)对语音训练数据量大小、系统识别率,以及灵活性有较大的影响。必须根据不同语言的特点、识别系统词汇量的大小决定识别单元的大小。

语言模型对中、大词汇量的语音识别系统特别重要。当分类发生错误时可以根据语言学模型、语法结构、语义学进行判断纠正,特别是一些同音字则必须通过上下文结构才能确定词义。语言学理论包括语义结构、语法规则、语言的数学描述模型等有关方面。目前比较成功的语言模型通常是采用统计语法的语言模型与基于规则语法结构命令语言模型。语法结构可以限定不同词之间的相互连接关系,减少了识别系统的搜索空间,这有利于提高系统的识别。

语音识别过程实际上是一种认识过程。就像人们听语音时,并不把语音和语言的语法结构、语义结构分开来,因为当语音发音模糊时人们可以用这些知识来指导对语言的理解过程,但是对机器来说,识别系统也要利用这些方面的知识,只是如何有效地描述这些语法和语义还有困难:

(1)小词汇量语音识别系统。通常包括几十个词的语音识别系统。

(2)中等词汇量的语音识别系统。通常包括几百个词至上千个词的识别系统。

(3)大词汇量语音识别系统。通常包括几千至几万个词的语音识别系统。这些不同的限制也确定了语音识别系统的困难度。

语音识别技术的发展情况

我国语音识别研究工作起步于五十年代,但近年来发展很快。研究水平也从实验室逐步走向实用。从1987年开始执行国家863计划后,国家863智能计算机专家组为语音识别技术研究专门立项,每两年滚动一次。我国语音识别技术的研究水平已经基本上与国外同步,在汉语语音识别技术上还有自己的特点与优势,并达到国际先进水平。其中具有代表性的研究单位为清华大学电子工程系与中科院自动化研究所模式识别国家重点实验室。

清华大学电子工程系语音技术与专用设计课题组,研发的非特定人汉语数码串连续语音识别系统的识别精度,达到94.8%(不定长数字串)和96.8%(定长数字串)。在有5%的拒识率情况下,系统识别率可以达到96.9%(不定长数字串)和98.7%(定长数字串),这是目前国际最好的识别结果之一,其性能已经接近实用水平。研发的5000词邮包校核非特定人连续语音识别系统的识别率达到98.73%,前三选识别率达99.96%;并且可以识别普通话与四川话两种语言,达到实用要求。

2000年7月在北京自然博物馆新开设的动物展馆中展出的具有语音识别口语对话功能“熊猫”,采用了我们研发非特定人连续语音识别系统,在展览馆这样高噪声的环境下,该识别系统的识别率也超过了98%,达到实用要求。通过该系统观众与“熊猫”自然对话可以了解熊猫的生活习惯、生理结构等信息,其形式生动、活泼,吸引了大量的学生与参观者。

采用嵌入式设计技术研发了语音识别专用系统,该以8位微控制器(MCU)核心,加上低通滤波器,模/数(A/D),数/模(D/A),预放,功率放大器,RAM,ROM,脉宽调幅(PWM)等模块,构成了一个完整的


系统,这是国内研发的第一块语音识别专用。中包括了语音识别、语音编码、语音合成功能,可以识别30条特定人语音命令,识别率超过95%,其中的语音编码速率为16kbits/s。该可以用于智能语音玩具;也可以与普通电话机相结合构成语音拨号电话机。这些系统的识别性能完全达到国际先进水平。研发的成果已经进入实用领域,一些应用型产品正在研发中,其商品化的过程也越来越快。

语音识别技术的前景和应用

在电话与通信系统中,智能语音接口正在把电话机从一个单纯的服务工具变成为一个服务的“提供者”和生活“伙伴”;使用电话与通信网络,人们可以通过语音命令方便地从远端的数据库系统中查询与提取有关的信息;随着计算机的小型化,键盘已经成为移动平台的一个很大障碍,想象一下如果手机仅仅只有一个手表那么大,再用键盘进行拨号操作已经是不可能的。语音识别正逐步成为信息技术中人机接口的关键技术,语音识别技术与语音合成技术结合使人们能够甩掉键盘,通过语音命令进行操作。语音技术的应用已经成为一个具有竞争性的新兴高技术产业。

语音识别技术发展到今天,特别是中小词汇量非特定人语音识别系统识别精度已经大于98%,对特定人语音识别系统的识别精度就更高。这些技术已经能够满足通常应用的要求。由于大规模集成电路技术的发展,这些复杂的语音识别系统也已经完全可以制成专用,大量生产。在西方经济发达国家,大量的语音识别产品已经进入市场和服务领域。一些用户交机、电话机、手机已经包含了语音识别拨号功能,还有语音记事本、语音智能玩具等产品也包括语音识别与语音合成功能。人们可以通过电话网络用语音识别口语对话系统查询有关的机票、旅游、银行信息,并且取得很好的结果。调查统计表明多达85%以上的人对语音识别的信息查询服务系统的性能表示满意。

可以预测在近五到十年内,语音识别系统的应用将更加广泛。各种各样的语音识别系统产品将出现在市场上。人们也将调整自己的说话方式以适应各种各样的识别系统。在短期内还不可能造出具有和人相比拟的语音识别系统,要建成这样一个系统仍然是人类面临的一个大的挑战,我们只能一步步朝着改进语音识别系统的方向一步步地前进。至于什么时候可以建立一个像人一样完善的语音识别系统则是很难预测的。就像在60年代,谁又能预测今天超大规模集成电路技术会对我们的社会产生这么大的影响。
语音识别的“内核”
语音交互的实现:
1996年,IBM公司发布了VoiceType中文语音识别软件,首次将其语音识别产品介绍给中国用户;1997年9月,IBM推出了ViaVoice中文连续语音识别系统,标志着中文语音识别技术商业化进程开始启动。
然而,语音识别技术并不是一夜之间冒出来的神话,自从有了计算机,人们就开始了语音识别技术的研究,因此可以说语音识别的历史和计算机一样长。特别是在70年代前后,研究的脉络日渐清晰,贝尔实验室和IBM等都先后建立了专门的研究机构。今天这两家公司在这一领域都已取得了显著的成果,并且在商业上应用成功,贝尔实验室主要偏重于电信方面应用的语音识别系统,如电话查询等;而IBM则偏重于商务应用,因而在连续语音识别上取得了不小的成功。
不谈商业方面的应用,事实上,很多公司都提供语音识别的引擎(Engine),并且都表示能支持微软的SAPI。看一看SAPI 4.0SUITE就不难发现,微软在这方面的研究并不逊色,只是很奇怪它居然没有将成果商业化。微软同时提供了一系列引擎,如SpeechRecognition(语音识别)、Command&Control(发布指令并控制)、PhoneQuery(电话语音识别)、Texttospeech(文本语音转换)等。
今天,许多用户已能享受到语音技术的优势了,可以对计算机发送命令,或者要求计算机记录用户所说的话,以及将文本转换成声音朗读出来。尽管如此,距离真正的人机自由交流的境界似乎还很遥远。现在已有商用系统存在的主要问题是:系统鲁棒性还有待改进,如对于噪声环境下或方言的语言识别率和稳健性等都不尽如人意。
不可否认,语音识别技术还有一段路需要走,要做到真正成功的商业化,它还需要在很多方面取得突破性进展,这实际上也是其技术的未来走向。

语音识别难的技术难点:
计算机自动语音识别就是让计算机能听懂人说话。这一问题曾经被一位知名的美国教授称之为是“比登月还难”的科学难题。其实,人们很早就认识到语音识别对于人类生活的重要性。世界上第一台计算机问世之后,马上就有人想到要让计算机听懂人说话。所以说,语音识别的研究历史与计算机的发展历史一样长。计算机的发展已经经历了好几代,今天已经进入到了普通家庭。但是,语音识别方面的产品却迟迟未能进入市场。那么,它难在哪儿呢?
计算机语音识别是一个模式识别匹配的过程。在这个过程中,计算机首先要根据人的语音特点建立语音模型,对输入的语音信号进行分析,并抽取所需的特征,在此基础上建立语音识别所需的模板。而计算机在识别过程中要根据语音识别的整体模型,将计算机中存放的语音模板与输入的语音信号的特征进行比较,根据一定的搜索和匹配策略,找出一系列最优的与输入的语音匹配的模板。然后,据此模板的定义,通过查表就可以给出计算机的识别结果。显然,这种最优的结果与特征的选择、语音模型和语言模型的好坏、模板是否准确等都有直接的关系。
一个语音识别系统性能好坏的关键首先是它所采用的语音模型能否真实地反映话音的物理变化规律,所用的语言模型能否表达自然语言所包含的丰富语言学知识。然而无论是语音信号还是人类的自然语言都是随机、多变和不稳定的,很难把握。这就是目前语音识别过程中的最大难点。
其次,模板训练的好坏也直接关系到语音识别系统识别率的高低。为了得到一个好的模板,往往需要有大量的原始语音数据来训练语音模型。因此,在开始进行语音识别研究之前,首先要建立起一个庞大的语音数据库和语料数据库。一个好的语音数据库包括足够数量、具有不同性别、年龄、口音说话人的声音,并且必须要有代表性,能均衡地反映实际使用情况。
有了语音数据库及语音特征,就可以建立语音模型,并用语音数据库中的语音来训练这个语音模型。训练过程是指选择系统的某种最佳状态(如对语音库中的所有语音有最好的识别率),不断地调整系统模型(或模板)的参数,使系统模型的性能不断向这种最佳状态逼近的过程。这是一个复杂的过程,要求计算机有强大的计算能力,并有很强的理论指导,才能保证得到良好的训练结果。
当语音识别系统对语音进行识别时,相对来说,其识别过程要比训练过程简单,对计算机的运算能力要求也很低,并且速度较快。这有利于实时地实现语音识别系统和进行商品化开发应用。
那么,制约语音识别技术发展的根本是什么呢?接受记者采访的清华大学王作英教授认为,语音识别的关键是其依据的模型和算法,模型算法是计算机描述语音的能力能否抓住人的语音的本质的关键。在语音识别领域,固然有资金实力、人力资源等的竞争,但最根本是其关键核心技术——模型和算法的竞争。

DTW逐渐淡出HMM占据统治地位:
要建立一个语音识别系统仅有一个好的语音特征还不够,还要有一个好的语音识别的模型和算法。在语音识别系统中通常分为两个部分:声学层部分主要研究如何充分利用语音信号中的信息;语音学层部分主要研究如何充分利用已有语音学知识来提高系统的识别率。目前,大家关注的中心是低层中声学层部分所涉及的模型和算法。
目前,在研发语音识别系统时常用的算法有基于神经网络的训练和识别算法、基于动态时间归整匹配(DTW)的识别算法和基于统计的隐含马尔可夫模型(HMM)识别和训练算法。
基于神经网络的训练识别算法由于实现起来较复杂,且识别率并不见得比基于统计的语音识别模型好,因此,这种算法目前仍处于实验室研究阶段。
基于动态时间归整匹配的DTW算法从目前来看,可能是一个最为小巧的语音识别的算法。其系统开销小,识别速度快,在对付小词汇量的语音命令控制系统中是一个非常有效的算法。但是,如果系统稍微复杂一些,这种算法就显得力不从心了。
基于统计的HMM算法可能是目前最为成功的一种语音识别模型和算法了。目前所能见到的各种性能优良的连续语音识别系统几乎无一例外地采用了这种模型。这是因为这种数学模型出现的时间较早,人们对它的研究也比较深入,已建立起了完整的理论框架。从20世纪80年代初人们开始用这种模型来描述语音信号后,就不断有人对它进行了各种改良和发展。这种隐含马尔可夫模型的算法是将语音看成是一连串特定状态,这种状态是不能被直接观测到的(如这种状态可以是语音的某个音素),而是以某种隐含的关系与语音的观测量(或特征)相关联。而这种隐含关系在HMM模型中通常以概率形式表现出来,模型的输出结果也以概率形式给出。这为系统最后给出一个稳健的判决创造了条件。
如今,各种形式的HMM模型和算法已日趋成熟,以它为基础已经形成了语音识别的整体框架模型,它统一了语音识别中声学层和语音学层的算法结构,制定了最佳的搜索和匹配算法,以概率的形式将声学层中得到的信息和语音学层中已有的信息完美地结合在一起。因此,HMM语音识别模型与算法是迄今为止最为完美的一个语音识别模型,从中也可看出好的理论体系对研究工作所起的重要的指导作用。

HMM的“内伤”:
许多从事语音识别技术研究的公司都把HMM当做“救命稻草”,对其展开了大量的研究开发,随着语音识别研究工作的深入开展,HMM语音识别方法愈来愈受到人们的重视,但与此同时,人们也愈来愈认识到经典HMM语音识别模型在一些重要方面存在严重的缺陷,这就是:
经典HMM是一个齐次的Markov模型,状态转移概率与状态驻留长度无关,与语音的实际过程不符;
经典HMM现有的模型训练算法和识别算法都是假设语音特征是相互独立的,这也不符合语音信号的实际情况;
经典HMM模型用于大词汇表的识别系统时,其模型的训练量是灾难性的;
模型的存储量太大。
任何一个成功的语音识别模型,都是基于其参数具有聚类性这一基础上的。HMM模型之所以能达到很高的识别率,是由于反映其状态的特征参数具有聚类性,从而它必然是对应于语音学中的语音单位(如音素),声学上则必然是对应于某种声学单元或发声器官的某种结构状态。语音学的研究表明,语音单位(如音素)在词中的长度有一个相对平稳的分布。正是这种状态长度分布的相对平稳性破坏了HMM模型的齐次性结构。

DDBHMM浮出水面:
王作英教授1988年年底向“863”计划提交的“语音识别的改进隐含马尔可夫模型”,可以说是对语音识别模型算法的一次重大革新。它指出了传

上一篇:芯片   下一篇:什么是基因芯片

推荐文章
 
相关文章
推荐专题
 

↑返回顶部   打印本页   关闭窗口↓  
 本站申明 联系我们 网站地图
Copyright© 试验方案

Powered by DedeCms email:htmyth#yahoo.com.cn QQ:386836509

Optimized to 1024x768 to Firefox,Opera and MS-IE6