首页 优秀范文 语音识别系统

语音识别系统赏析八篇

时间:2023-03-02 15:05:52

语音识别系统

语音识别系统第1篇

关键词:语音识别;动态时间规整(DTW);数字信号处理器(DSP)

1 引言

语音识别按不同的角度有以下几种分类方法:从所要识别的单位,有孤立词识别、音素识别、音节识别、孤立句识别、连续语音识别和理解。目前已进入识别的语音识别系统是单词识别。以几百个单词为限定识别对象。从识别的词汇量来分。有小词汇(10-50个)、中词汇(50-200个)、大词汇(200以上)等。从讲话人的范围来分。有单个特定讲话人、多讲话人和与讲话者者无关。特定讲话人比较简单,能够得到较高的识别率。后两者难度较大,不容易得到高的识别率。 从识别的方法分。有模块匹配法、随机模型法和概率语法分析法。这三种都属于统计模式识别方法。

2 系统硬件及组成

2.1 系统概述

语音识别系统的典型实现方案如图1所示。输入的模拟语音信号首先要进行预处理,语音信号经过预处理后,接下来重要的一环就是特征参数提取,其目的是从语音波形中提取出随时间变化的语音特征序列。然后建立声学模型,在识别的时候将输入的语音特征同声学模型进行比较,得到最佳的识别结果。

2.2 硬件构成

本文采用DSP芯片为核心(图2所示),系统包括直接双访问快速SRAM、一路ADC/一路DAC及相应的模拟信号放大器和抗混叠滤波器。外部只需扩展FLASH存储器、电源模块等少量电路即可构成完整系统应用。

2.3 系统主要功能模块构成

语音处理模块采用TI TMS320VC5402, TMS320VC5402含4 KB的片内ROM和16 KB的双存取RAM,一个HPI(HostPortInterface)接口,二个多通道缓冲单口MCBSP(Multi-Channel Buffered SerialPort),单周期指令执行时间10 ns,带有符合IEEE1149.1标准的JTAG边界扫描仿真逻辑。语音输入、输出的模拟前端采用TI公司的TLC320ADSOC,它是一款集成ADC和DAC于一体的模拟接口电路,并且与DSP接口简单,性能高、功耗低,已成为当前语音处理的主流产品。16位数据结构,音频采样频率为2~22.05 kHz,内含抗混叠滤波器和重构滤波器的模拟接口芯片,还有一个能与许多DSP芯片相连的同步串行通信接口。TLC320AD50C片内还包括一个定时器(调整采样率和帧同步延时)和控制器(调整编程放大增益、锁相环PLL、主从模式)。TLC320AD50C与TMS320VC5402的硬件连接,如图3所示。

3 结论

本文以TMS320VC5402芯片为核心的系统硬件设计迸行了研究,通过TLC320AD50C对语音信号进行A/D转换,通过TMS320VC5402对语音信号“0”、“1”、“2”进行训练和识别,并由对于灯LED0、LED1、LED2亮来显示结果是否正确;该系统核心识别算法采用动态时间规整(DTW)算法,主要流程包括预处理、端点检测、提取特征值、模式匹配和模板训练,取得了很好的识别效果。

参考文献

[1] 朱铭锆, 赵勇, 甘泉. DSP应用系统设计 [M].北京:电子工业出版社,2002.

[2] 郭华. 自适应滤波算法及应用研究[D].兰州:西北师范大学,2007.

[3] 张雄伟..DSP芯片的原理与开发应用[M].北京:电子工业出版社,2009.

[4] 张德丰. 数字图象处理(MATLAB版)[M].北京:人民邮电出版社,2009.

作者简介

王宇,邵阳学院魏源国际学院电子科学与技术专业学生。

语音识别系统第2篇

关键词: 拟人机器人; 双CPU; 语音识别系统; 硬件设计

中图分类号:TP319 文献标志码:A 文章编号:1006-8228(2013)01-01-02

Design of hardware of speech recognition system in humanized robot

Liu Renping, Hou Ruizhen, Fang Yinglan, Han Xianfeng

(North China of Technology, Beijing 100144, China)

Abstract: In order to improve the reliability and efficiency of the speech recognition, a speech recognition system based on double CPU of the "MCU+DSP" is designed. The calculations are done by the main processor which takes the digital signal processor (DSP) as the hardware platform. DSP operation is assisted by Micro control unit(MCU), which controls all parts of the robot. Its performance can meet real-time processing's needs.

Key words: humanoid robot; double CPU; speech recognition system; hardware design

0 引言

随着超大规模集成电路和数字信号处理器(DSP)的快速发展,DSP的应用越来越广泛,涉及到各个领域如语音处理,图像处理等方面。现在语音识别中许多复杂算法已经能够在硬件上实现。最近十多年来,已研发出不少应用于不同领域的便携式语音识别系统。DSP处理速度快、灵活、精确,满足了对信号快速、实时、精确处理的要求,所以很适用于语音识别。

1 拟人机器人语音识别方法概述

语音信号分析是语音识别的前提和基础,只有分析出可表示语音信号本质特征的参数,才可能利用这些参数进行高效的语音通信,才能建立用于识别的模板或知识库。语音识别率的高低取决于对语音信号分析的准确性和精确性,虽然语音信号具有时变特性,但在一个短时间范围内其特性相对稳定,因而可以将其看作是一个短时平稳过程。任何对语音的分析和处理均建立在“短时”的基础上,一般认为语音信号在10-30ms的短时间内是相对平稳的。

拟人机器人语音识别方法如图1所示,采集到的语音信号输入后,首先对语音信号进行预处理,预处理主要包括:语音信号电压放大采样、反混叠失真滤波、预加重、自动增益控制、分帧、加窗、语音增强、端点检测以及A/D转换等环节;然后是信号特征量的提取(本文对信号的特征量进行Mel频率倒谱系数[2](Mel-Frequency Cestrum Coefficients)处理);最后对建立好的参数模板进行对比,测试的依据是失真度最小准则,如本文用到的动态时间规整DTW[3](Dynamic Time Warping)。

2 系统硬件设计

通过针对拟人机器人的特点,对系统进行分析和方案设计,最终确定本系统的框图如图2所示。本系统的硬件基于一个以DSP(TMS320VC5416)为主处理器的硬件平台,硬件平台主要包括:语音输入输出模块、主处理器DSP模块、存储器模块、单片机MCU模块、485串口通信模块。其中语音输入输出模块实现了语音信号的采集和输出;主处理器DSP模块(TMS320VC5416)主要完成语音识别所需的计算,其性能能够达到实时处理的要求;存储器模块包括一片FLASH和两片SRAM,用FLASH作为DSP的可编程存储器,SRAM分别作为DSP的数据和程序存储器;单片机MCU模块完成对拟人机器人的运动控制;485串口通信模块实现单片机MCU和PC机之间的通信。

2.1 主处理器DSP模块介绍

TMS320VC5416(简称VC5416)是TI公司的C54X家族的成员之一,它是基于先进的改进哈佛结构的16位定点DSP。它具有C54X的共同特点,高性能低功耗,具有高达160MHz的主频,核心电压1.5V,运行于此频率时功耗仅为90mW;拥有一条程序总线和三条数据总线,片内集成有高度并行性的算术逻辑单元(ALU)、专有硬件逻辑、片内存储器和片内外设等。

片内可屏蔽ROM中固化有启动装载程序(BOOTLOADER)和中断向量表等。系统上电时,BOOTLOADER自动把用户代码从外部存储器搬移到程序空间。复位以后,中断向量表可被重新映射到程序空间的任何(128Word)的开始处。为了与慢速的外设通信,VC5416提供了等待状态发生器,通过软件设置等待周期的个数,不仅降低了系统硬件设计的复杂性,而且为系统带来了很大的灵活性。VC5416片内集成了软件可编程的锁相环时钟电路,它只需要一个参考时钟输入就可以得到31种不同频率的输出时钟,最大的乘率因子(在寄存器CLKMD中设置)为15,最小的为0.25。这样,一方面可利用较低频率的外部时钟源产生较高频率的CPU时钟,另一方面在不工作时可降低CPU时钟频率至外部频率的四分之一,从而降低了CPU的功耗。

2.2 语音输入输出模块介绍

语音输入输出模块采用TI公司推出的一款高性能立体声音频Codec芯片TLV320AIC23B,内置耳机输出放大器,支持MIC和LINE IN两种输入方式,且对输入和输出都具有可编程增益调节。其最主要的优点是和TI公司的DSP芯片的McBSP接口完全兼容,与本设计中使用的DSP芯片能够实现无缝接口。

AIC23的模数转换((ADCs)和数模转换(DACs)部件高度集成在芯片内部,采用了先进的Sigma-delta过采样技术,可以在8K到96K的频率范围内提供16bit,20bit,24bit和32bit的采样,ADC和DAC的输出信噪比分别可以达到90dB和100dB。与此同时,AIC23还具有很低的能耗,回放模式下功率仅为23mW,省电模式下更是小于15uW。由于具有这些优点,使得AIC23是一款非常理想的音频模拟I/0器件,可以很好地适用于随声听(如CD,MP3),录音机等数字音频领域。由TLV320AIC23组成的语音输入与输出模块不仅采样率高(最高可达96KHz),而且电路简单,性价比高。最方便之处是能与McBSP无缝接口(它是TI原厂制造)。

2.3 存储器模块介绍

VC5416 DSP片内提供了16K×16bit的ROM和128K×16bit的SRAM。其中ROM内部包含的Boot loader程序在系统上电时能把外部存储器中的源程序调到内部存储器中,允许源程序存放在速度较慢的外部存储器中,降低了硬件资源的成本,片内ROM由厂家定制,位于程序空间OxF000-OxFFFFo。On-Chip RAM分为两个大小都为64K的块,其中DARAM和SARAM各有8块,每块容量为8K×16bit。在DARAM中,有4块定位在数据空间0x0080-Ox7FFF(当OVLY=1时,可以被映射到程序/数据空间),剩下的4块DARAM被定位到程序空间0x18000-Ox1FFFF。通过设置DROM=1可使定位在程序空间的0x18000-Ox1FFFF的RAM映射到数据空间。在一个周期内它支持两次读操作,或者一次读操作和一次写操作。SARAM被定位到程序空间0x28000-Ox2FFFF和0x38000-Ox3FFFF。

除了内部16K的ROM和128K的SRAM之外,系统还可以扩展外部存储器。本系统扩展了两块64K×16bit的SRAM(IS61LV12816)和一块256K×16bit的FLASH(AM29LV800B)来增加系统存储空间。

2.4 MCU模块介绍

单片机是一种集成电路芯片,采用超大规模集成电路技术把具有数据处理能力的中央处理器CPU、随机存储器RAM、只读存储器ROM、多种I/O和终端系统、定时器、计时器等(有些还包括显示驱动电路、脉宽调制电路、模拟多路转换器、A/D转换器等电路)集成到一块硅片上,构成一个小而完善的计算机系统。

本文采用89C52单片机完成机器人的运动控制。89C52是INTEL公司MCS-51系列单片机中基本的产品,它结合了CMOS的高速和高密度技术及CMOS的低功耗特征,基于标准的MCS-51单片机体系结构和指令系统,集成了时钟输出和向上或向下计数器等更多的功能。89C52内置8位中央处理单元、256字节内部数据存储器RAM、8K片内程序存储器(ROM)、32个双向输入/输出(I/O)口、3个16位定时/计数器和5个两级中断结构,一个全双工串行通信口,片内时钟振荡电路。此外,89C52还可工作于低功耗模式,可通过两种软件选择空闲和掉电模式。在空闲模式下冻结CPU和RAM定时器,而串行口和中断系统维持其功能。掉电模式下,保存RAM数据,时钟振荡停止,同时停止芯片内其他功能。该单片机最大的优势就是可以跟TI公司提供的这款DSP兼容,达到最佳的效果。

2.5 RS-485串口通信模块介绍

RS-485是RS-422的改进,它增加了设备的个数,从10个增加到32个,同时定义了在最大设备个数情况下的电气特性,以保证足够的信号电压。RS-485模块具有出色抗噪和多设备能力,在拟人机器人上可以建立连向PC机的分布式设备网络、其他数据收集控制器、HMI等,RS-485可以用超过4000英尺的线进行串行通信,实时性能高,更加便于我们操作控制机器人。

3 结束语

通过采用双CPU对语音识别系统进行控制,有效地提高了语音识别的可靠性和实时性,特别适合应用于语音识别的场合。语音识别算法采用的是隐马尔科夫模型,对识别算法进行测试,在正常发音情况下(“短时”时看作平稳过程),系统的实时性和识别率都可以得到很好的结果,但是如果说话人有明显的停顿时,系统比较容易出现错误识别,这也是接下来需要改进的地方。

参考文献:

[1] 周霖.DSP信号处理技术应用[M].国防工业出版社,2004.

[2] 蔡莲红,黄德智,蔡锐.现代语音技术基础与应用[M].清华大学出版社,2003.

[3] 程启明.语音信号端点检测的实验研究[J].声学与电子工程,1997.34(3):33-36

[4] 刘玄和,宋庭新.语音识别与控制应用技术[M].科技出版社,2008.

语音识别系统第3篇

语音识别ASR(Automatic Speech Recognition)系统的实用化研究是近十年语音识别研究的一个主要方向。近年来,消费类电子产品对低成本、高稳健性的语音识别片上系统的需求快速增加,语音识别系统大量地从实验室的PC平台转移到嵌入式设备中。

语音识别技术目前在嵌入式系统中的应用主要为语音命令控制,它使得原本需要手工操作的工作用语音就可以方便地完成。语音命令控制可广泛用于家电语音遥控、玩具、智能仪器及移动电话等便携设备中。使用语音作为人机交互的途径对于使用者来说是最自然的一种方式,同时设备的小型化也要求省略键盘以节省体积。

嵌入式设备通常针对特定应用而设计,只需要对几十个词的命令进行识别,属于小词汇量语音识别系统。因此在语音识别技术的要求不在于大词汇量和连续语音识别,而在于识别的准确性与稳健性。

对于嵌入式系统而言,还有许多其它因素需要考虑。首先是成本,由于成本的限制,一般使用定点DSP,有时甚至只能考虑使用MPU,这意味着算法的复杂度受到限制;其次,嵌入式系统对体积有严格的限制,这就需要一个高度集成的硬件平台,因此,SoC(System on Chip)开始在语音识别领域崭露头角。SoC结构的嵌入式系统大大减少了芯片数量,能够提供高集成度和相对低成本的解决方案,同时也使得系统的可靠性大为提高。

语音识别片上系统是系统级的集成芯片。它不只是把功能复杂的若干个数字逻辑电路放入同一个芯片,做成一个完整的单片数字系统,而且在芯片中还应包括其它类型的电子功能器件,如模拟器件(如ADC/DAC)和存储器。

笔者使用SoC芯片实现了一个稳定、可靠、高性能的嵌入式语音识别系统。包括一套全定点的DHMM和CHMM嵌入式语音识别算法和硬件系统。

1 硬件平台

本识别系统是在与Infineon公司合作开发的芯片UniSpeech上实现的。UniSpeech芯片是为语音信号处理开发的专用芯片,采用0.18μm工艺生产。它将双核(DSP+MCU)、存储器、模拟处理单元(ADC与DAC)集成在一个芯片中,构成了一种语音处理SoC芯片。这种芯片的设计思想主要是为语音识别和语音压缩编码领域提供一个低成本、高可靠性的硬件平台。

该芯片为语音识别算法提供了相应的存储量和运算能力。包括一个内存控制单元MMU(Memory Management Unit)和104KB的片上RAM。其DSP核为16位定点DSP,运算速度可达到约100MIPS.MCU核是8位增强型8051,每两个时钟周期为一个指令周期,其时钟频率可达到50MHz。

UniSpeech芯片集成了2路8kHz采样12bit精度的ADC和2路8kHz采样11bit的DAC,采样后的数据在芯片内部均按16bit格式保存和处理。对于语音识别领域,这样精度的ADC/DAC已经可以满足应用。ADC/DAC既可以由MCU核控制,也可以由DSP核控制。

2 嵌入式语音识别系统比较

以下就目前基于整词模型的语音识别的主要技术作一比较。

(1)基于DTW(Dynamic Time Warping)和模拟匹配技术的语音识别系统。目前,许多移动电话可以提供简单的语音识别功能,几乎都是甚至DTM和模板匹配技术。

DTW和模板匹配技术直接利用提取的语音特征作为模板,能较好地实现孤立词识别。由于DTW模版匹配的运算量不大,并且限于小词表,一般的应用领域孤立数码、简单命令集、地名或人名集的语音识别。为减少运算量大多数使用的特征是LPCC(Linear Predictive Cepstrum Coefficient)运算。

DTW和模板匹配技术的缺点是只对特定人语音识别有较好的识别性能,并且在使用前需要对所有词条进行训练。这一应用从20世纪90年代就进入成熟期。目前的努力方向是进一步降低成本、提高稳健性(采用双模板)和抗噪性能。

(2)基于隐含马尔科夫模型HMM(Hidden Markov Model)的识别算法。这是Rabiner等人在20世纪80年代引入语音识别领域的一种语音识别算法。该算法通过对大量语音数据进行数据统计,建立识别条的统计模型,然后从待识别语音中提取特征,与这些模型匹配,通过比较匹配分数以获得识别结果。通过大量的语音,就能够获得一个稳健的统计模型,能够适应实际语音中的各种突发情况。因此,HMM算法具有良好的识别性能和抗噪性能。

基于HMM技术的识别系统可用于非特定人,不需要用户事先训练。它的缺点在于统计模型的建立需要依赖一个较大的语音库。这在实际工作中占有很大的工作量。且模型所需要的存储量和匹配计算(包括特征矢量的输出概率计算)的运算量相对较大,通常需要具有一定容量SRAM的DSP才能完成。

在嵌入式语音识别系统中,由于成本和算法复杂度的限制,HMM算法特别CHMM(Continuous density HMM)算法尚未得到广泛的应用。

(3)人工神经网络ANN(Artificial Neural Network)。ANN在语音识别领域的应用是在20世纪80年代中后期发展起来的。其思想是用大量简单的处理单元并行连接构成一种信息处理系统。这种系统可以进行自我更新,且有高度的并行处理及容错能力,因而在认知任务中非常吸引人。但是ANN相对于模式匹配而言,在反映语音的动态特性上存在重大缺陷。单独使用ANN的系统识别性能不高,所以目前ANN通常在多阶段识别中与HMM算法配合使用。

3 基于HMM的语音识别系统

下面详细介绍基于HMM的语音识别系统。首先在UniSpeech芯片上实现了基于DHMM的识别系统,然后又在同一平台上实现了基于CHMM的识别系统。

3.1 前端处理

语音的前端处理主要包括对语音的采样、A/D变换、分帧、特片提取和端点检测。

模拟语音信号的数字化由A/D变换器实现。ADC集成在片内,它的采样频率固定为8kHz。

特征提取基于语音帧,即将语音信号分为有重叠的若干帧,对每一帧提取一次语音特片。由于语音特征的短时平稳性,帧长一般选取20ms左右。在分帧时,前一帧和后一帧的一部分是重叠的,用来体现相邻两帧数据之间的相关性,通常帧移为帧长的1/2。对于本片上系统,为了方便做FFT,采用的帧长为256点(32ms),帧移为128点(16ms)。

特征的选择需要综合考虑存储量的限制和识别性能的要求。在DHMM系统中,使用24维特征矢量,包括12维MFCC(Mel Frequency Cepstrum Coefficient)和12维一阶差分MFCC;在CHMM系统中,在DHMM系统的基础上增加了归一化能量、一阶差分能量和二阶差分能量3维特征,构成27维特征矢量。对MFCC和能量分别使用了倒谱均值减CMS(Cepstrum Mean Subtraction)和能量归一化ENM(Energy Normalization)的处理方法提高特征的稳健性。

3.2 声学模型

在HMM模型中,首先定义了一系列有限的状态S1…SN,系统在每一个离散时刻n只能处在这些状态当中的某一个Xn。在时间起点n=0时刻,系统依初始概率矢量π处在某一个状态中,即:

πi=P{X0=Si},i=1..N

以后的每一个时刻n,系统所处的状态Xn仅与前一时刻系统的状态有关,并且依转移概率矩阵A跳转,即:

系统在任何时刻n所处的状态Xn隐藏在系统内部,并不为外界所见,外界只能得到系统在该状态下提供的一个Rq空间随机观察矢量On。On的分布B称为输出概率矩阵,只取决于Xn所处状态:

Pxn=Si{On}=P{On|Si}

因为该系统的状态不为外界所见,因此称之为“稳含马尔科夫模型”,简称HMM。

在识别中使用的随机观察矢量就是从信号中提取的特征矢量。按照随机矢量Qn的概率分布形时,其概率密度函数一般使用混合高斯分布拟合。

其中,M为使用的混合高斯分布的阶数,Cm为各阶高期分布的加权系数。此时的HMM模型为连续HMM模型(Continuous density HMM),简称CHMM模型。在本识别系统中,采用整词模型,每个词条7个状态同,包括首尾各一个静音状态;每个状态使用7阶混合高斯分布拟合。CHMM识别流程如图1所示。

由于CHMM模型的复杂性,也可以假定On的分布是离散的。通常采用分裂式K-Mean算法得到码本,然后对提取的特征矢量根据码本做一次矢量量化VQ(Vector Quantization)。这样特征矢量的概率分布上就简化为一个离散的概率分布矩阵,此时的HMM模型称为离散HMM模型(Discrete density HMM),简称DHMM模型。本DHMM识别系统使用的码本大小为128。DHMM识别流程如图2所示。

DHMM虽然增加了矢量量化这一步骤,但是由于简化了模型的复杂度,从而减少了占用计算量最大的匹配计算。当然,这是以牺牲一定的识别性能为代价。

笔者先后自己的硬件平台上完成了基于DHMM和CHMM的识别系统。通过比较发现,对于嵌入式平台而言,实现CHMM识别系统的关键在于芯片有足够运算太多的增加。因为词条模型存储在ROM中,在匹配计算时是按条读取的。

3.3 识别性能

笔者使用自己的识别算法分别对11词的汉语数码和一个59词的命令词集作了实际识别测试,识别率非常令人满意,如表1所示。

表1 汉语数码识别率

DHMMCHMM特征矢量维数2427识别率93.40%98.28%识别速度(11词)10ms50ms模型大小(1个词条)1.5KB<5.5KB码本6KB无对于59词命令词集的识别,还增加了静音模型。由于基线的识别率已经很高,所以静音模型的加入对于识别率的进一步提高作用不大,如表2所示。但静音模型的加入可以降低对端点判断的依赖。这在实际使用中对系统的稳健性有很大的提高。

表2 59词命令词集识别率

浮  点定  点无静音模型98.59%98.28%有静音模型98.83%98.55%可以看到,在硬件能够支持的情况下,CHMM的识别率比DHMM有很大的提高,同时识别速度也完全可以满足使用要求。

语音识别系统第4篇

以下是来自现场的报道。

市场变化提出新需求

搬迁至新物流中心

神田业务支持公司成立于1974年,当时与长崎屋合资,主要负责服装配送。该公司在日本最早引进了大型托盘输送机,曾一时成为业界热议的话题。2002年,3家分公司合并后统一命名为神田业务支持公司。

公司现任总经理吉林正和先生当时已经进入公司,他回顾公司的发展历程时说:“30多年来,公司经营的物流业务几乎都集中在服装领域,因此积累了丰富的服装物流经验。近些年,公司的物流设施及分拣设备等已开始老化,为此建设了新的物流中心。同时,为适应客户新的需求,我们准备配送服装以外的货物,因此决定引进语音识别系统。”

目前,习志野物流中心处理的货物以服装为主,同时也负责配送鞋类以及其他日用品,据说已接到约20家客户的业务委托。物流中心根据客户订单的要求进行分拣、贴标签等操作,然后向全国配送。

服装类商品主要来自中国大陆及台湾、越南等地,平均每天发送10万件左右,需要投入包括物流中心职员和小时工在内的50~60人从事物流作业,并根据业务量进行灵活调整。

适应市场变化

在公司的旧址茜浜,仓库内的主要设备除了大型托盘输送机外,还有自动分拣机。如果要继续使用这些设备,物流中心一层需要拥有2310平方米的面积,并且老化的设备也需要大笔资金进行维修,如此看来实属浪费。可以说,继续使用大型设备的外部条件发生了变化。

自动分拣机每小时的处理能力达2000件,这是人工作业望尘莫及的。如果不使用分拣机,根本不可能达到2000件/小时的处理能力,那么其他设备也都会闲置下来,其结果将是物流中心无法应对市场的变化。

神田公司经营策划室的松尾健太郎科长谈到:“考虑公司业务范围的变化,我们的方针是保证低成本的同时,新系统要能够应对市场的变化。”

这个新系统就是“语音识别系统”。

选择语音识别系统

耳、眼、手、口总动员

吉林总经理谈到:“在建设新物流中心时,神田面临的最大问题是建设资金,因此我们要控制初期投资。如果使用自动分拣机,至少需要2~3亿日元的资金,但我们的总预算只有1亿日元。而且还要求必须保证订单的交付时间。最终,我们选择了语音识别系统。”

除软件外,新物流中心引进的设备只有挂在腰间的便携式终端和耳机,共25套。包括基础系统改造在内,总投资共6000万日元。

实际上,神田公司从几年前就已开始研究语音识别系统,只不过一直没有对外公开。

新物流中心处理的货物仍以服装为主。通常,以箱(盒)为包装的物品是很容易处理的,数量统计也不易出错。但服装往往装在塑料袋中,既薄又轻,进行拣选操作时,如果工作人员一只手拿着无线终端,另一只手拿着塑料袋,不容易读取条码标签,又容易数错数量。此外,服装的一大特点是颜色、规格多,SKU多,因此,如果使用手持终端进行操作将非常费力。

现在使用语音识别系统,终端挂在腰间,解放了双手,操作人员可以用双手完成拣选作业。操作人员通过耳机得到系统指令的同时,可以立即回应,而不需要“看明细”、“按开关”的动作,能够集中精力进行拣选。

松尾科长说:“过去,物流现场的操作在很大程度上依赖于‘眼睛’,所有终端和明细单都必须用眼睛来判断,如果看错了。就会直接导致发错货。现在有了语音识别系统,其最大的魅力就是通过‘听’接受指令,用‘眼’和‘手’来确认,用‘说’来回应,让两手同时工作。这就是感觉器官的总动员。由此带来工作准确率和效率的大幅提高。”

这也是神田公司选择语音识别系统的初衷。

语音拣选解决方案在世界的发展

回顾历史,在上世纪90年代,日本有几家公司曾引进过语音识别系统,但由于当时的识别能力有限,结果半途而废。之后,经过改良的语音识别系统再度登场,尤其是在欧美物流界颇受欢迎,其中VOCOLLECT公司开始崭露头角。

特别值得一提的是,世界零售巨头沃尔玛把语音识别系统作为标准化配置的系统,在其世界各地的物流中心都在使用。早在3年前,日本国内的沃尔玛旗下的西友・三乡物流中心业也已引进了VOCOLLECT的产品。

此后,众多经销商的市场拓展行动终于开启了语音拣选的世界市场之门。VOCOLLECT公司于2006年成立了VOCOLLECT日本分公司,同时在东欧、南美也逐渐打开市场,目前年销售额近100亿日元,占世界同行业销售的80%。

承担神田公司语音系统建设项目的日本优利公司售后服务事业部矢岛孝安部长说:“人们往往认为只凭借声音并不十分可靠,但VOCOLLECT的产品解决了这一难题。其识别系统和硬件设备组成了堪称完美的系统。”

VOCOLLECT产品的特性

VOCOLLECT日本分公司总经理塞萨尔・西森介绍说,市场上的其他产品大多是把几家公司的终端和软件组合在一起,而VOCOLLECT则根据物流现场的实际需要,从硬件到软件都是自主研发的,具有非常实用的语音识别功能,能够用日语应答就是其一大特色。

如何确保语音识别的精度是使用中的关键问题。塞萨尔・西森总经理认为,要提高语音识别的精度是有前提的。语音识别的基本条件是“指定说话人”和“不指定说话人”,在日本,其他公司都选择了“不指定说话人”,唯独VOCOLLECT公司选择了“指定说话人”。塞萨尔・西森总经理指出,在被噪音环绕的物流和生产现场,“不指定说话人”的方式存在很多问题。

“不指定说话人”即任何人的声音都可能被确认。因为它忽略了每个人声音的差异,那么其识别能力自然低下,特别是在噪音大的场所,附近几个人同时作业,如果别人的声音一旦被确认。必将出现差错。

VOCOLLECT公司的“指定说

话人”的方式,是根据每个人所发出的声音的频率而设定的,具有声音识别功能。这在很大程度上提高了识别精确度。在实际操作中,只要改变用户名、输入ID号,就能够直接调出所需的信息,因此在登录系统后,其他工作人员也可以使用。

当然。每个工作人员初次登录时,都需要经过多次练习,登录加练习的时间大约在20-30分钟。因为设有语音矫正功能,经过几次练习,工作人员就可以熟练掌握。

此外,终端设备的坚固性也非常突出,即使跌落地面,或被踩、被压,都能保持完好无损。这给工作人员带来安全感,可以全神贯注地投入拣选工作。

构建并起用系统仅耗时3个月

神田公司选择日本优利推荐的VOCOLLECT公司的语音识别系统之前,已对该系统的结构和实用性做了全面、细致的调查和论证。

吉林总经理说:“因为我们是首次使用语音识别系统,因此必须进行全面的考察。在考察3家日用品批发商使用该系统的效果时,我们发现该系统不仅能用于分拣,还能用于盘点。这也是我们选择它的一个重要原因。事实证明这个系统是完美的。”

接下来的系统设计,神田公司仅给优利公司和VOCOLLECT公司3个月时间。在此期间,神田为了让员工尽快进入状态,在现场进行实地演示。2008年8月15~16日,公司在搬迁的同时安装新系统,18日就开始正常发货了。

下面介绍语音识别系统的实际应用。

货物初次分拣

1、2、总体分类

语音识别系统主要应用于服装的发货流程。

图1、图2是位于物流中心二层的存储区。每天上午,操作人员根据发货指示,首先进行总体分类,即把当天需要发的货按款式分别集中在台车上的纸箱中。这里的拣选作业是对照产品明细进行的。

3 二次分拣

在相邻的拣选区,货物按照店铺别进行分拣。在图3中,左边是使用手持终端进行扫描,右边是使用语音识别系统进行拣选。

4、5手持终端+输送机

总体分类完成后,把纸箱放到输送机上,按发货店铺的不同,用手持终端逐一进行扫描。

因为每件货物和产品明细都要进行扫描,因此排除了款式错误的可能。但因为是单手作业,尤其对于较薄的服装,产品数量容易弄错。偶尔也会发生无法读取条码标签的情况,或者标签被翻转放置,此时操作起来相当费力。

6、7、台车+手持终端

图6是台车分拣区。台车底层放置了4个空周转箱用于调节高度,上层的4个周转箱分别代表4个店铺,操作人员同时处理4家店铺的货物,操作非常快捷。当然。通道,必须留有足够的宽度,以保证台车通过。

使用语音识别系统进行拣选

8~11 语音识别拣选

前面提到的输送机传送来的周转箱到达此处,按照发货店铺的不同依次进行拣选。此时操作人员通过耳机接收指示,用麦克进行回应,在“是”、“下面”的应声中进行分拣作业。不仅双手可同时操作,并且不需要看手持终端显示的数据,只需用眼睛确认发货明细上的代码即可。

操作人员听到的是什么样的指示呢?是商店代码、货物代码以及拣选的数量等,速度很快,听到指示后必须立刻做出回应。按照操作人员的话说:“声音的节奏逐渐变快,我们已经习惯了这样的速度。”由于每个人的听力和反应速度存在差别,物流中心根据这一差别安排操作人员的岗位。

操作人员做出回应后。下面的指示随即就到。在这种快节奏中,几乎没有等待指示或闲下来的时间。

塞萨尔・西森总经理说:“如果是使用手持终端,必然存在等待指令的时间。使用语音识别系统后,节省了操作时间。一旦有空闲的时间,操作人员反而会不习惯。”

VOCOLLECT的设计中包含了劳动心理学原理,因为操作人员的腰间携带了便携终端,每个人可以调节适合自己的速度。

系统投入使用后,操作人员的熟练程度不断提高,人均处理能力由原来每小时200~300件提高到500~700件。

此外,夏装和冬装有所不同,操作效率也存在差别,但结果却比预期提高了50%。

12、13、不同商店的发货明细及标签

根据语音指令做好的发货明细上,标有货物代码和商店代码,暂时贴在货箱的外面(图12),待货箱装满后,再把发货明细放入箱中,然后把箱子放到输送机上。

14、检验

通过语音识别系统拣选的货物。因为没有读取条形码,因此在包装前需要检查一遍。数量少时只要确认条形码即可,数量多时全部都要进行检验。

15、无线传输

通过2.4GHz的无线电波频率,无线终端与服务器联网后,进行数据交换。

16、充电

在办公室一角的架子上,放置了25台充电器,以便为终端进行充电。每次的充电过程需要8小时。

17、语音系统的管理

在同一办公室内设置了语音系统的管理器。画面上显示的是神田公司的WMS与合作公司VOCOLLECT的管理过程。

贴标签、包装、发货

18、19、贴价格标签、过检针

贴价格标签、过检针的操作也在物流中心二层完成。

20、21、搬运发货箱

货箱打包完毕后码盘,托盘货物用叉车搬到垂直输送机,送往一层出货区。

22、23、装车

在出货口,货物装上卡车,送到各店铺。

目前,像这样成功应用语音识别系统的案例在日本还不多见。吉林总经理对于初次引进语音识别系统是这样评价的:对于习惯了以往传统分拣方法的操作人员来讲,他们完全没有不适应的感觉,反而更喜欢现在极富节奏感的作业。

“要通过改善工作流程,使所有人员都适应语音识别系统,不断提高工作效率。我们不要求最好,只追求更好”。吉林总经理说。

语音识别系统第5篇

关键词:语音识别技术;无线传感网络技g;智能家居系统

中图分类号:TP273.5 文献标识码:A 文章编号:1007-9416(2017)04-0153-01

随着计算机技术的发展,人工智能技术在各行各业被应用。人工智能技术在家居行业也有不同程度的发展。智能家居技术早在二十世纪末就已经初露端倪,经过一段时间的发展,最近几年,智能家居技术及其产品已经广泛的被很多普通家庭使用。语音识别技术经过全世界各个国家的科学家们经过五十多年的研究,已经在逐渐从实验室的研究阶段走向具体的实践,以商品的形式投放到市场当中。无线传感网络是一种新型的获取信息以及处理信息的技术,将其投入到智能家居中,已经有了可行的先例。

1 无线传感器网络

无线传感器网络是在计算机技术、通信技术以及传感器技术等三种技术工程支持下开发出来的技术,它是一种对于信息的获取以及处理技术。随着科学技术的不断发展,人们对于无线传感器网络的研究也取得了显著的效果。起初,无线传感器网络只是单纯地被应用在自身领域,发展到目前已经在很多领域都有应用,其发展方向越来越多元化。使无线传感器网络在环境监控、工业控制、智能城市和智能家庭等领域取得了实际可行的应用成果[1]。

2 语音识别原理

语音识别原理就是系统在接收到语音信号时候,对语音信号进行预处理和分析计算可抽取出所需的语音特征,在这些特征的基础上建立起相应的语音识别模块。在识别语音的时候,要把系统中的原来存放好的语音模块与系统接收到的语音模块进行对比,通过一定的技术处理,寻找出与系统接收到的语音最匹配的模块,并输出最终的识别结果。其顺序首先是建立系统的阶段,也就是建立起最基本的语音样本;其次是设计系统的语音识别功能,通过使用一定的技术处理,让系统识别数语音信号,并且与建立好的样本进行比较,得出最终的识别结果。目前这种系统能识别的词汇量比较小,对于可接收的语音可以分成特定人语音与非特定人语音识别。这个系统操作简单,不需要特殊学习与训练。

3 智能家居系统设计

3.1 设计的总体方案

本系统是由凌阳单片机作为主控部分,一般情况下,系统处于睡眠状态,这样可以降低对于电量的损耗。在装配上设置了红外线探测装置,当其感应到有人的时候,控制系统处于睡眠状态的模块会自动解锁,同时再出现“欢迎光临”的字样,系统会通过语音功能说出“陌生人请说出开门的口令”的话。如果口令通过,电子锁就会自动打开;如果口令不通过,系统会立刻将这种异常的信号传递给主人,在主人接受到提示时,可以用无线语音遥控器控制报警系统。除此之外,主人可以随时随地对智能家居系统进行控制。同时这个系统还可以通过握住遥控器的体温,传输到遥控器端进行语音播报。

3.2 系统硬件模块以及软件的设计

智能家居的系统设计包括用于语音识别的门锁控制模块、用于控制语音的无线语音遥控器、无线测温模块、无线家电模块,在每个模块都使用凌阳单片机[2]。无线传输模组设有一路的无线发射和两路的无线接收功能,用于数据传输,并且通过收发的频率来检测通信的距离。在这个模块中,通过接口直接插到61板上,这样可以使操作更加简便。系统中的门锁控制模块是用于控制门锁与要控制部分之间的通信。在无线语音遥控器、无线测温模块、无线家电模块中各用了一片nRF2401A。在开关模块使用热释电人体红外线传感器,同时使用12V的直流电,用于唤醒处于睡眠状态的单片机。在测温模块可以通过对温度进行采集,并且通过语音的方式实时播报。在家电模块是通过单片机控制的机器人,通过无线电驱动电机,进而实现电机的正反方向的旋转。在LCD显示模块,使用的是液晶显示模组,本身不带有字库,它是通过字模软件来提取出需要的字,通过显示液晶显示模组以及单片机相连,字和图片就能够显示出来了。这些电机包括2个用于走路的电机与一个头部转向的电机,除此之外,还需要一个三极管驱动单向旋转的电机[3]。

在设计系统软件时,智能家居系统要能接收语音信号,还要能够识别语音信号,同时处理器要能够控制无线电收发频率,进而实现无线通信的接口。

4 结语

总而言之,随着电子信息技术的不断发展,智能家居系统的实现已经成为可能。通过语音识别技术以及无线传感网络进而实现设计出一套切实可行的智能家居系统。智能家居系统不仅提高了工作效率,同时给人们的生活带来了极大的便利,具有广阔的市场发展前景。

参考文献

[1]叶湘滨,陈利虎,胡罡.无线传感器网络在环境监测中的应用[J].计算机测量与控制,2004(11):1033-1035.

语音识别系统第6篇

【关键词】语音识别技术;发展趋势

语音识别是一门交叉学科。语音识别研究经历了50多年的研究历程,经过50多年的积累研究,获得了巨大的进展。特别是近20年来,语音识别技术取得了显着的进步,并逐步的走向市场。在未来的日子里,语音识别技术将应用更为广泛。

一、语音识别技术概述

语音识别是解决机器“听懂”人类语言的一项技术。作为智能计算机研究的主导方向和人机语音通信的关键技术,语音识别技术一直受到各国科学界的广泛关注。如今,随着语音识别技术研究的突破,其对计算机发展和社会生活的重要性日益凸现出来。以语音识别技术开发出的产品应用领域非常广泛,如声控电话交换、信息网络查询、家庭服务、宾馆服务、医疗服务、银行服务、工业控制、语音通信系统等,几乎深入到社会的每个行业和每个方面。

广泛意义上的语音识别按照任务的不同可以分为4个方向:说话人识别、关键词检出、语言辨识和语音识别。说话人识别技术是以话音对说话人进行区别,从而进行身份鉴别和认证的技术。关键词检出技术应用于一些具有特定要求的场合,只关注那些包含特定词的句子,例如对一些特殊人名、地名的电话监听等。语言辨识技术是通过分析处理一个语音片断以判别其所属语言种类的技术,本质上也是语音识别技术的一个方面。语音识别就是通常人们所说的以说话的内容作为识别对象的技术,它是4个方面中最重要和研究最广泛的一个方向,也是本文讨论的主要内容。

二、语音识别的研究历史

语音识别的研究工作始于20世纪50年代,1952年Bell实验室开发的Audry系统是第一个可以识别10个英文数字的语音识别系统。

1959年,Rorgie和Forge采用数字计算机识别英文元音和孤立词,从此开始了计算机语音识别。

60年代,苏联的Matin等提出了语音结束点的端点检测,使语音识别水平明显上升;Vintsyuk提出了动态编程,这一提法在以后的识别中不可或缺。60年代末、70年代初的重要成果是提出了信号线性预测编码(LPC)技术和动态时间规整(DTW)技术,有效地解决了语音信号的特征提取和不等长语音匹配问题;同时提出了矢量量化(VQ)和隐马尔可夫模型(HMM)理论。

80年代语音识别研究进一步走向深入:HMM模型和人工神经网络(ANN)在语音识别中成功应用。1988年,FULEE Kai等用VQ/I-IMM方法实现了997个词汇的非特定人连续语音识别系统SPHINX。这是世界上第1个高性能的非特定人、大词汇量、连续语音识别系统。

进入90年代后,语音识别技术进一步成熟,并开始向市场提品。许多发达国家如美国、日本、韩国以及IBM、Apple、AT&;T、Microsoft等公司都为语音识别系统的实用化开发研究投以巨资。同时汉语语音识别也越来越受到重视。IBM开发的ViaVoice和Microsoft开发的中文识别引擎都具有了相当高的汉语语音识别水平。

进入21世纪,随着消费类电子产品的普及,嵌入式语音处理技术发展迅速[2]。基于语音识别芯片的嵌入式产品也越来越多,如Sensory公司的RSC系列语音识别芯片、Infineon公司的Unispeech和Unilite语音芯片等,这些芯片在嵌入式硬件开发中得到了广泛的应用。在软件上,目前比较成功的语音识别软件有:Nuance、IBM的Viavoice和Microsoft的SAPI以及开源软件HTK,这些软件都是面向非特定人、大词汇量的连续语音识别系统。

三、语音识别技术的发展现状

语音识别技术通过全球科学家的共同努力,经历半个多世纪的研究,目前已经发展到了接近实用的阶段。在实验室环境下,大词汇量的朗读式连续说话的宽带语音信号的平均识别率可以达到90%以上。正式有了如此高的识别率之后,语音识别技术慢慢地从实验室演示系统逐步走向实用化商品。以IBM Via Voice和Dragon Dictation为代表的两个听写机系统的出现,使“语音识别”逐步进入大众视线,引起了广泛的社会关注。

由于校对和更正识别的错误很麻烦和浪费时间,这样便降低语音识别的优势。同时,由于使用的环境或讲话口音习惯等因素的影响,语音识别的内容大大降低,识别的内容不能达到100%的正确,所以很多人认为目前的语音识别系统还无法满足实用要求。

目前,AT&T和MIT等将语音识别技术应用在一些有限词汇的特定任务上,如电话自动转接、电话查询、数字串识别的任务中,当讲话的内容是系统所存储的内容存在的,且使用环境的声学特性与训练数据的声学特性相差不太大时,语音识别的正确识别率可以接近100%。但是,在实际使用中如果这些条件被破坏,则会对识别系统造成一定的影响。

我国的语音识别研究一直紧跟国际水平,国家也很重视。国内中科院的自动化所、声学所以及清华大学等科研机构和高校都在从事语音识别领域的研究和开发。国家863智能计算机专家组为语音识别技术研究专门立项,并取得了高水平的科研成果。我国中科院自动化所研制的非特定人、连续语音听写系统和汉语语音人机对话系统,其准确率和系统响应率均可达90%以上。

四、语音识别技术发展趋势

语音作为当前通信系统中最自然的通信媒介,语音识别技术是非常重要的人机交互技术。随着计算机和语音处理技术的发展,语音识别系统的实用性将进一步提高。应用语音的自动理解和翻译,可消除人类相互交往的语言障碍。国外已有多种基于语音识别产品的应用,如声控拨号电话、语音记事本等,基于特定任务和环境的听写机也已经进入应用阶段。这预示着语音识别技术有着非常广泛的应用领域和市场前景。随着语音技术的进步和通信技术的飞速发展,语音识别技术将为网上会议、商业管理、医药卫生、教育培训等各个领域带来极大的便利,其应用和经济、社会效益前景非常良好.

虽然语音识别在过去的20年里有了很大的发展,但是,仍然存在很多的不足,有待于进一步的探索,具体可分为以下几个方面:

1.提高可靠性。语音识别技术需要能排除各种声学环境因素的影响。在比较嘈杂的公共环境中,人的意识会有意识的排除非需要的声学环境因素,这对语音识别系统而言,是很难做到的。另外,在日常生活中,人类的语言常常具有较大的不确定性,比较随意,并带有明显的言语习惯。这同样会给语音识别系统很大的识别麻烦。目前,在提高语音系统在不同环境中的可靠性,同时要应用现代技术让语音识别系统更加智能化,掌握人们语言随意性的部分规律,以达到最佳的识别效果。

2.增加词汇量。系统可以识别的词汇的数量是系统能够做什么事情的一个重要度量。一个语音识别系统使用的声学模型和语音模型如果太过于局限,当用户所讲的词汇超出系统已知的范围时,则语音识别系统不能准确的识别出相应的内容,比如,当突然从中文转为英文、法文、俄文时,计算机就会常常输出混乱奇怪的结果。但是,随着系统建模方法的不断改进、搜索算法效率的提高以及硬件资源的发展,未来的语音识别系统可能会做到词汇量无限制和多种语言混合,这样用户在使用的时候可以不必在语种之间来回切换,这样就能大大减少词汇量的对语音识别系统的限制。

3.应用拓展。语音识别技术可以用于把费脑、费力、费时的机器操作变成一件很容易很有趣味性的事,比如,当人们出现手忙、手不能及以及分身无术的场景时,通过语音识别系统的模型构造,则能够在象驾驶室、危险的工业场合、远距离信息获取、家电控制等各个方面,语音识别技术可能带动一系列崭新或更便捷功能的设备出现,更加方便人的工作和生活。其应用的范围和前景非常广泛。不仅能够应用于日常生活,更重要的会带来生产方式的革命,是下一代智能化控制的基础。

语音识别系统第7篇

论文摘要 近20年来,随着信息技术的不断发展,语音识别技术也逐步的发展成熟。语音识别技术研究让人更加方便地享受到更多的社会信息资源和现代化服务,对任何事都能够通过语音交互的方式。本文就对语音技术的发展及趋势作了简单的阐述。

语音识别是一门交叉学科。语音识别研究经历了50多年的研究历程,经过50多年的积累研究,获得了巨大的进展。特别是近20年来,语音识别技术取得了显着的进步,并逐步的走向市场。在未来的日子里,语音识别技术将应用更为广泛。本文就语音识别的发展及趋势作简单的阐述。

1 语音技术的发展历史

50年代,研究人员多数致力于声学和语音学的基本概念。1952年,在at& t bell实验室实现了一个单一发音人孤立发音的10个英文数字的语音识别系统,方法主要是度量每个数字的元音音段的共振峰。1956年,rca lab 开展了另外一项独立研究,试图识别单一发音的10个不同的音节,同样采用了度量共振峰的方法。1959年,英国university college的研究人员开始尝试另外一种思路,用谱分析和模板匹配方法构建音素识别器,用来识别4个元音和9个辅音。60年代,相继出现并发表了语音识别的几个重要的思想。1962年,东京大学进行了另一个音素识别器的硬件实现的尝试。它使用过零率方法分离语音信号的不同部分,并进行识别。1963年,日本nec lab对数字进行语音识别的尝试可以算得上最值得注意的工作,因为它不仅是nec研究语音识别的开端,还导致一个长期的和卓有成效的研究计划。在60年代中,3个研究项目的开展对其后20多年的语音识别研究和开发产生了重大影响。第一个研究项目在rca lab开始于60年代后期,目的是研究语音事件在时间刻度上不均匀性的现实解决办法。在能够可靠检测出语音事件的始末点的基础上,发展了一套时间归正的基本方法。

2 语音识别技术的发展现状

语音识别技术通过全球科学家的共同努力,经历半个多世纪的研究,目前已经发展到了接近实用的阶段。在实验室环境下,大词汇量的朗读式连续说话的宽带语音信号的平均识别率可以达到90%以上。正式有了如此高的识别率之后,语音识别技术慢慢地从实验室演示系统逐步走向实用化商品。以ibm via voice和dragon dictation为代表的两个听写机系统的出现,使“语音识别”逐步进入大众视线,引起了广泛的社会关注。

由于校对和更正识别的错误很麻烦和浪费时间,这样便降低语音识别的优势。同时,由于使用的环境或讲话口音习惯等因素的影响,语音识别的内容大大降低,识别的内容不能达到100%的正确,所以很多人认为目前的语音识别系统还无法满足实用要求。

目前,at&t和mit等将语音识别技术应用在一些有限词汇的特定任务上,如电话自动转接、电话查询、数字串识别的任务中,当讲话的内容是系统所存储的内容存在的,且使用环境的声学特性与训练数据的声学特性相差不太大时,语音识别的正确识别率可以接近100%。但是,在实际使用中如果这些条件被破坏,则会对识别系统造成一定的影响。

3 语音识别技术发展趋势

虽然语音识别在过去的20年里有了很大的发展,但是,仍然存在很多的不足,有待于进一步的探索,具体可分为以下几个方面:

1)提高可靠性。语音识别技术需要能排除各种声学环境因素的影响。在比较嘈杂的公共环境中,人的意识会有意识的排除非需要的声学环境因素,这对语音识别系统而言,是很难做到的。另外,在日常生活中,人类的语言常常具有较大的不确定性,比较随意,并带有明显的言语习惯。这同样会给语音识别系统很大的识别麻烦。目前,在提高语音系统在不同环境中的可靠性,同时要应用现代技术让语音识别系统更加智能化,掌握人们语言随意性的部分规律,以达到最佳的识别效果。

2)增加词汇量。系统可以识别的词汇的数量是系统能够做什么事情的一个重要度量。一个语音识别系统使用的声学模型和语音模型如果太过于局限,当用户所讲的词汇超出系统已知的范围时,则语音识别系统不能准确的识别出相应的内容,比如,当突然从中文转为英文、法文、俄文时,计算机就会常常输出混乱奇怪的结果。但是,随着系统建模方法的不断改进、搜索算法效率的提高以及硬件资源的发展,未来的语音识别系统可能会做到词汇量无限制和多种语言混合,这样用户在使用的时候可以不必在语种之间来回切换,这样就能大大减少词汇量的对语音识别系统的限制。

3)应用拓展。语音识别技术可以用于把费脑、费力、费时的机器操作变成一件很容易很有趣味性的事,比如,当人们出现手忙、手不能及以及分身无术的场景时,通过语音识别系统的模型构造,则能够在象驾驶室、危险的工业场合、远距离信息获取、家电控制等各个方面,语音识别技术可能带动一系列崭新或更便捷功能的设备出现,更加方便人的工作和生活。其应用的范围和前景非常广泛。不仅能够应用于日常生活,更重要的会带来生产方式的革命,是下一代智能化控制的基础。

4)降低成本减小体积。微型化是语音识别技术商业应用的另一个重要途径,其推广程这取决于语音识别技术本身进步的程度,同时与微电子芯片技术的进一步发展关系密切。将具有先进功能和性能的语音识别应用系统固化到更加微小的芯片或模块上,可以大幅度降低产品成本和体积,产品必然受到消费者的青睐,语音识别系统和微电子芯片技术的发展是会引领我们的信息技术革命到一个新的台阶。

21世纪是信息和网络的时代,internet和移动通信、固话通信的网络把全球各地连接起来。自然口语对话、电子商务、信息索取、数字图书馆、语音翻译、远程教育等一系列的人类活动都可在网络上实现。语音识别系统的出现,会让人更加自由的沟通,让人在任何地方,任何时间,对任何事都能够通过语音交互的方式,方便地享受到更多的社会信息资源和现代化服务。这必然会成为语音识别技术研究和应用的重要发展趋势。

参考文献

语音识别系统第8篇

【关键词】语音识别;自动化;控制

前言

我国早在七十年代末就开始了语音技术的研究,由于各方面实验设备技术普遍落后,发展很缓慢,期间大多数研究者主要集中在语音识别的基础理论、模型及算法等方面研究和改进。随着工业技术的发展和语音控制技术上的投入增加,我国在中文语音技术的基础研究方面取得了一系列研究成果。目前市场的语音控制系统的产品比较单一,本文基于SPCE061A单片机进行了语音控制系统的设计。

1、语音控制识别方法

一般来说,语音识别的方法有三种:基于声道模型和语音知识的方法、模式匹配的方法以及利用人工神经网络的方法。

(1)语音控制识别系统的结构。主要包括语音信号的采样和预处理部分、特征参数提取部分、语音识别核心部分以及语音识别后处理部分,图1给出了语音识别系统的基本结构。

语音控制识别的过程是一个模式识别匹配的过程。在这个过程中,首先要根据人的语音特点建立语音模型,对输入的语音信号进行分析,并抽取所需的特征,在此基础上建立语音识别所需的模式。而在识别过程中要根据语音识别的整体模型,将输入的语音信号的特征与已经存在的语音模式进行比较,根据一定的搜索和匹配策略,找出一系列最优的与输入的语音相匹配的模式。然后,根据此模式号的定义,通过查表就可以给出计算机的识别结果。

(2)基于语音学和声学的方法。该方法起步较早,在语音识别技术提出的开始,就有了这方面的研究,但由于其模型及语音知识过于复杂,现阶段还没有达到实用的阶段。

(3)模式匹配的方法。模式匹配方法的发展比较成熟,目前已达到实用阶段。在模式匹配方法中,需经过四个步骤:特征提取、模式训练、模式识别和判决。

(4)人工神经网络的方法。利用人工神经网络的方法是80年代末期提出的一种新的语音识别方法。人工神经网络(ANN)本质上是一个自适应非线性动力学系统,模拟了人类神经活动的原理,具有自适应性、并行性、鲁棒性、容错性和学习特性,其强的分类能力和输入-输出映射能力在语音识别中都很有吸引力。但由于存在训练、识别时间太长的缺点,目前仍处于实验探索阶段。由于ANN不能很好的描述语音信号的时间动态特性,所以常把ANN与传统识别方法结合,分别利用各自优点来进行语音识别。

2、控制系统设计

SPCE061A是凌阳科技研发生产的性价比很高的一款十六位单片机,使用它可以非常方便灵活的实现语音的录入识别和输出系统,该芯片拥有8路10位精度的ADC,其中一路为音频转换通道,并且内置有自动增益电路。这为实现语音录入提供了方便的硬件条件。两路10精度的DAC,只需要外接功放即可完成语音的播放。另外,凌阳十六位单片机具有易学易用的效率较高的一套指令系统和集成开发环境。在此环境中,支持标准C语言,可以实现C语言与凌阳汇编语言的互相调用,并且,提供了语音录放的库函数,只要了解库函数的使用,就会很容易完成语音录放,这些都为软件开发提供了方便的条件。SPCE061内还集成了一个接口,使得对该芯片的编程、仿真都变得非常方便,而在线仿真电路接口不占用芯片上的硬件资源,结合凌阳科技提供的集成开发环境用户可以利用它对芯片进行真实的仿真;而程序的烧写也是通过该接口进行下载。

(1)硬件设计。整个系统主要由键盘输入电路、MIC输入电路、语音输出电路、红外发射电路组成。通过分析按键命令或语音识别结果,利用正常的结果以红外指令码发出,控制电视机的运行,同时用语音提示。系统组成如图2所示。

(2)系统程序设计。在软件设计方面,采用模块化程序结构,当前方案包括初始化、键盘扫描、温度采集、温度播报、万年历时间计算、万年历播报、红外发射、语音识别、语音播放等模块。程序设计流程如图3所示。

3、结论

本文利用单片机设计了一类语音识别控制系统,系统简单实用,可开发性强可以在很多工业产品上使用。为工程开发设计人员提供了参考。

参考文献