首页 优秀范文 语音合成技术

语音合成技术赏析八篇

时间:2022-11-29 21:12:59

语音合成技术

语音合成技术第1篇

所谓“手语识别”是指,通过计算机采集设备获得聋哑人的手语数据,采用模式识别算法,结合上下文知识,获知手语含义,进而翻译成语音,传达给不懂手语的正常人。这样,正常人就可以“听懂手语”。

而“手语合成”是指,正常人通过语音表达自己的意图,计算机将语音翻译为手语并表现出来,向聋哑人传递信息。这样,聋哑人就能够“看懂声音”。

从2000年开始,“手语识别与合成”项目组始终专注于手语与语音、语言自动转换技术的研究,在“大词汇量的手语识别”、“非特定人手语识别”,以及“多模式手语合成”等方面拥有大量核心技术,申请国家发明专利二十余项,其中手语编辑、手语翻译等相关专利已获授权。

该项目得到了国家自然科学基金重点项目以及国家“863”高技术发展项目等多项课题基金的支持,在国内外形成了广泛的影响,并获得2003年度国家科技进步奖二等奖。

在研究过程中,项目组采用“沿途生蛋”的产业化模式,将部分阶段研究成果成熟后直接推向应用,从实践中得到反馈,为进一步研发积累需求,并且项目成果在多个实践中得到有效应用。

其中,“电视台用手语电视节目制作系统”通过自动合成手语视频窗口,可与电视节目同步播放;“奥运新闻实时播报系统”获国家科技支撑计划“无障碍信息平台”资助,将在2008年奥运会上展示;对奥运志愿者进行培训的“奥运手语在线互动教学系统”获得北京市信息办和残联等各部分的支持,成为2008残奥会志愿者必备学习软件;“标准中国手语电子词典”已在1000多所聋校推广应用。

语音合成技术第2篇

苹果公司引爆语音识别

Siri,是一项语音控制功能,搭载在苹果公司今年春天推出的iPhone 4S上,它让手机变身为一台智能化机器人。利用Siri,用户可以通过手机读短信、介绍餐厅、询问天气、语音设置闹钟等。Siri可以支持自然语言输入,并且可以调用系统自带的天气预报、日程安排、搜索资料等应用,还能够不断学习新的声音和语调,提供对话式的应答。

Siri让我们有理由想象:在键盘、轨迹球相继在移动终端上消失之后,虚拟键盘或许也会消失,甚至菜单功能项也一并会消失。对任何消费电子的用户而言,这无疑是一项颇为激动人心的技术革命。

实际上,语音技术早就是业内关注的焦点之一。早在2000年,比尔・盖茨就曾提出“未来10年是语音的时代”。而IBM、英特尔和摩托罗拉等IT巨头也都在语音领域有了相当深厚的技术积累。不过,由于缺乏成熟的应用产品,语音技术长期以来都不是消费市场上的重要概念。但是,Siri的出现改变了过去的局面。

中文Siri角逐

截至目前,苹果公司的Siri语音系统只支持英、法、德三国语言,尚未推出中文版本。这为国内其他一些企业提供了巨大的发展机会。虽然现在语音技术还是处于技术转化为产品、产品获得消费者认可的阶段,但是业界预计,在未来3~5年,这个行业会有一次大的爆发。

不过由于语音技术存在很高的技术门槛,它的研究涉及到声学、语言学、数字信号处理、计算机科学等多个技术学科,是信息处理领域的一项前沿技术,这直接将大部分无法跨越技术壁垒的公司拦在了市场竞争的大门之外。

如今在中国的语音技术市场的竞争格局中,美国声控公司Nuance、北京捷通华声语音技术有限公司(简称捷通华声)、安徽科大讯飞信息科技股份有限公司(简称科大讯飞)原本是三足鼎立的关系。Nuance公司是全球最大的语音识别技术供应商,致力于语音识别技术的研究和应用,语音识别市场份额占到80%以上;捷通华声和科大讯飞两家公司致力于语音合成技术的研究和应用,在语音合成技术的市场中各占半壁江山。

但是目前变局已经出现。近日,美国Nuance公司与捷通华声公司正式确立了战略合作伙伴关系,将结合彼此在语音识别和语音合成技术中的优势,推出适用于各种设备和系统的整套语音解决方案。这种组合,也将更加符合用户的应用需求。

不断扩张的市场奶酪

语音合成技术第3篇

【关键词】:呼叫中心、语音挖掘、客户分析

中图分类号:H11文献标识码: A 文章编号:

前言

呼叫中心承载80%以上的客户与公司之间的沟通与交互,是最主要的客户信息聚宝盆;如何科学分类、有效利用海量信息,如何发挥热线成为公司运营传感器和晴雨表的功能,成为亟待思考和解决的问题。

1.传统的客户信息分类分析方法成本高、效率低、准确性差

传统的来电原因点击分类颗粒粗,不能满足精细化分析;同时又增长通话时长、降低接续效率;而录音监听分类颗粒和准确性能满足需求,但是人工成本巨大,效率低。

2.传统的培训模式业务准确率低、员工压力大

传统的培训模式业务准确率低:热线服务准确率在70-80%间徘徊;在员工的压力排名中,培训考试排名第二。缺乏高效率的对员工薄弱环节的精确细分和定位的手段和机制,培训需求确定、计划设计、实施等各环节相对粗放。培训设计偏向于“业务驱动”而非“员工能力需求驱动”。

语音挖掘技术

语音挖掘(SpeechAnalytics)技术,是指通过语音识别、静音检测和语义理解等核心技术,将非结构化的语音信息转换为结构化的索引,实现对海量录音文件、音频文件的知识挖掘和快速检索。

语音挖掘技术由语音检测、语音增强、场景分割、语音转写、语音检索和语义理解等核心功能组成。

核心功能 功能描述

语音检测 将语音中的人声、铃声、噪音、静默等各类语音进行有效识别和区分记录

语音增强 对语音进行噪音抑制和音量规整,提取真正的纯正的原始语音

场景分割 将语音中的用户语音和坐席语音分离出来,并记录对话次序和时间

语音转写 将对话语音转化成AB文字,重现对话过程

情绪侦测 识别说话人的情绪变化

语音检索 实现业务关键词、长时静音等信息的高效索引和精准检索

语义理解 实现对文字内容(自然语音)的词法切分和语义翻译,识别表达意图指向

语音检测

语音检测技术,是基于语音识别端点检测、语音识别鲁棒性特征提取、语音噪声抑制、说话人发音空间因子分析等技术融合延伸而来。

语音检测,能够将语音中的人声、铃声、噪音、静默等各类语音进行有效识别和区分,并标注这些语音因子出现的语音位置。

语音增强

由于录音环境和设备等原因,存在少数情况下通话质量不高,如音量太小、背景噪音过大 、客服和客户音量不对称的情况 。对于方便能够了解对话内容,需要对语音进行噪音抑制和音量规整,从而将真正的纯正的原始语音提取出来。系统提供的语音增强技术,可以有效的解决上述问题,给业务系统提供有效的辅助测听功能。

语音增强的主要目标提取尽可能纯净的原始语音。然而,由于干扰通常都是随机的,问题的难度较复杂。目前对于低信噪比带噪或者存在能量问题的语音进行语音增强的方法,可以显著地降低背景噪声,改进语音质量。系统技术中用到的方法基于谱相减的语音增强算法、基于卡尔曼滤波的语音增强算法、基于信号子空间的增强方法,同时结合每种方法的优缺点,采取规整融合的方法,从而大大提升了语音增强的效果和鲁棒性。

场景分割

场景分割(话者分离)技术可以自动将一个通话录音中的用户语音和坐席语音分离出来,从而分别对客户和客服人员的语音进行针对性的挖掘,是实现高效语音挖掘应用的重要支撑技术。场景分割技术,是对于非双通道录音下呼叫中心语音挖掘的一个必备技术。

人耳具有很强的分离声音的能力,它能从两个或两个以上声源的语音环境中,轻松地辨别和提取出所需要的声音信息,即使在噪声环境下,它也能达到很好的分离效果。基于以上人的生理上的特性为基础,完整的场景分割主要分为以下几个步骤:

基于原始语音进行数字语音信号处理,将语音转化为包含说话人信息的PLP特征,该特征可以理解为是进行语音分离的可识别输入。

主要通过判断说话人的语音转折点,将每段语音通过k-mean的方式聚类,从而形成基本的两类的语音段集合,理论上来说该集合已经基本可用。由于此方法提供的算法精度问题,导致分类会出现交叉错误的情况,所以还需要进行下一步改进

对于得到的初始类别进行聚类迭代形成两个说话人的判决GMM模型,同过此判决模型再对已经分好的两类集合进行重估,从而得到更加准确的两类集合。

语音转写

语音转写是语音挖掘中最重要的步骤,是建立文本索引,将非结构化的语音文件转换为结构化的文本信息的核心功能。

语音转写过程,将分离后的语音通过声学模型转换为对应的汉语音标符号;音标信息再通过超大词汇网络的语言模型识别出最终对应的文本内容。这个过程中,需结合实际工作中涉及的各地、各区域地方口音适配来优化声学模型,使其能够广泛覆盖中国地方口音;还需要结合具体业务知识和呼叫中心服务范围优化语言模型,以提升语音转写准确率。

语音识别转写示意图

情绪侦测

情绪侦测,运用端点检测、特征提取和说话人发音空间因子分析等技术,结合人类语音行为研究的知识,对整个语音的语气语调(基频、能量),检测出说话人的情绪变化,并记录情绪突变的位置。

侦测情绪激烈的通话,如生气,抱怨、不满等。

结合关键词检出、语速检测等技术,实现客户满意度分析模型。

情绪侦测示意图

语音检索

语音检索,将关键词信息、长时静音信息等需要挖掘和检测的信息,从所有的索引文件中进行快速筛选,并返回所关注的语音及片段;由系统对关注的信息进行自动的统计,挖掘并返回海量录音文件中包含的统计信息。语音检索核心功能主要包括:

实现关键词检出功能。对指定的关键词列表,得到包含该关键词列表中任意一个或多个关键词的数据列表,并锁定关键词在对应数据中的语音位置(时间起止点)。

实现长时静音检出功能。挖掘语音中的长时静音信息,得到有长时间静音的数据列表,给出对应的起止时间,用户可预先设置门限。

实现关键词检出、异常情绪检出以及长时静音检出等功能的逻辑组合,如包含A关键词不包含B关键词的所有语音信息。不同的查询要求都可以通过分解成以上核心功能进行查找。

语音合成技术第4篇

安徽中科大讯飞信息科技有限公司嵌入式事业部副总经理

中国科学技术大学化学和计算机双学士。2000年加盟安徽中科大讯飞信息科技有限公司,并在科大讯飞工作至今。在嵌入式领域,包括车载、手机、汽车音响等行业均有一定背景,为科大讯飞嵌入式事业部管理团队的核心成员之一。

随着科技的不断发展进步,各种终端设备的智能化和集成化程度越来越高,然而如何让我们从设备获取信息的方式越来越简单并且没有其他隐患,成为目前各种终端设备面临的问题。语音技术的应用,给人们带来了福音,它让这些问题都可以迎刃而解。

语音技术包含语音合成和语音识别。

语音合成将文本状态的信息转换成语音的形式输出。就像给设备安装上了嘴巴,你想让设备说什么,设备就可以说什么,解决了设备上的信息只能看不能听得问题。

语音识别使得设备可以听懂用户的话,目前在嵌入式领域发展比较成熟的是命令词的识别。语音识别就像给设备安装了耳朵,让设备可以听懂并且执行相应的命令,解决了人们在操作各种终端设备时只能使用手动按键方式的问题。

手机这个产业蕴含着巨大的商机,目前语音技术在手机行业的应用还不够成熟,但是随着手机向智能化和娱乐化方向的不断发展,相信语音技术在手机行业的大规模应用指日可待。

在车载行业,需要运用到语音技术的设备越来越多,并且随着汽车工业的迅速发展,语音技术在车载环境下应用的需求越来越突出。车载语音导航已经是车载导航产业的必然方向,其他如调度,监控等等都存在着对语音技术的需求,随着汽车电子的发展,相信可以播报各种警示信息、故障信息及各种数据的各种仪表会出现在将来某一天。

另外,在税控机,排队机,电子词典等等行业,也已经表现出越来越多的需求。语音技术作为各种设备智能化发展的重要方面,已经在向人们生活的方方面面渗透,可能还有很多对语音技术存在巨大需求的行业没有被我们发现。

据预测,随着语音技术这个产业的发展和成熟,以及在各个方面的应用,将会有千亿多的巨大市场空间等待我们去开发。然而目前语音合成技术在嵌入式环境下还没有得到非常广泛的应用,约束其发展的主要原因包括以下几个方面:

第一,在嵌入式环境下,硬件和软件资源往往有很大的限制,传统的基于大语料库的语音合成技术需要非常高的运算资源和存储资源,无法满足嵌入式环境下对资源的需求;

语音合成技术第5篇

关键词:信息无障碍;语音合成技术;JavaScript;TTS

中图分类号:TP391 文献标识码:A 文章编号:1009-3044(2012)29-6939-04

信息无障碍是指无论健全人还是残疾人、无论年轻人还是老年人可以在任何情况下都能平等的、方便地、无障碍地获取和利用信息。目前互联网发展迅速,应用人群日益广泛,其中也包括残疾人和有特殊需求的健全人,但是,这类人群在使用网络时遇到了很大的阻碍。

通过实现网页无障碍,加大社会宣传,促进政府、企业相关部门加大建设信息无障碍力度,可以使得更多的人群在信息社会中收益。通过实现网页无障碍的相关新闻、最新政策的,中国信息无障碍行业标准技术发表,无障碍发展的特点介绍等,提高政府、企业相关部门对信息无障碍的认识、呼吁全社会关心信息无障碍事业,加速网站无障碍事业的发展。无论是从社会效益还是经济效益来讲,信息无障碍建设事业的推广都具有非常重大的意义和价值。

本文探讨了几种主流的语音合成技术,比较并分析了各自的优缺点,并且考录到在Web网站中是否可以实现中文朗读、客户端的环境配置等各种因素,最终将语音合成技术应用于Web网站中,实现信息无障碍化。

3 结论

目前的Web语音合成主要应用ActiveX控件与TTS,而ActiveX这个控件目前只有IE浏览器支持。ActiveX控件有较强的功能,但也存在被人利用的隐患,网页中的恶意代码往往就是利用这写控件编写小程序,只要打开网页就会被运行。所以要避免恶意网页的攻击一般都会禁止ActiveX控件的运行。

Web语音开发技术仍然不够成熟,语音朗读发声机器化,没有感情,听着会让使用者很不舒服。语音朗读调用的数据库中文方面的还非常少,对于这方面的研究仍然是一个空缺。下一步工作主要是进一步完善语音合成功能,在朗读的时候添加暂停、快进、后退等功能。如果能够在网页中实现语音识别技术,将更大程度上方便用户使用Web,语音技术在信息无障碍方面的应用有很大的发展空间。

参考文献:

[1] 廖日坤,纪越峰,黄小迅.基于TTS 文语转换的Web 语音浏览器[J].兰州工业高等专科学校学报,2006(6),13(2):10-13.

[2] 邢敬宏,赵双萍,刘军.基于WEB的TTS应用编程实现[J].甘肃科技,2007(3),23(3):78-80.

[3] 倪素萍,董滨,赵庆卫,颜永红.基于Java Speech API 规范的语音识别引擎的实现[J].微计算机应用,2005(3),26(2):168-172.

[4] The Java Speech API, [EB/OL]..

[5] 陈晓林.基于Free TTS的语音合成技术研究[J].电脑开发与应用,2008,21(4):46-48.

[6] 林育曼.将TTS引擎技术应用于Web页面实现中文朗读[J].电脑学习,2004,8,(4):11-12.

[7] 彭腾,孙萍.基于C# 语音合成的实现[J].电脑编程技巧与维护,2010,12.

语音合成技术第6篇

【关键词】综合通信语音云音频检测应急救援RoIP

一、前言

随着我国社会和经济建设的迅速发展,各类突发性火灾、救援事故与日增多,危害程度大,波及范围广,对语音通信技术手段服务实战提出了更高要求,尤其是多个部队联合作战、多警种协同配合、多个社会联动力量联合处置的情况下,现场的统一指挥,参战力量的默契配合,前后方的衔接与调度管理都迫切需要一种稳定、可靠,同时又能兼容多种制式通信系统的语音综合通信技术。

语音综合管理平台为解决上述问题提供了突破口。

二、技术理念与系统架构

2.1技术理念

借鉴“云计算”和融合语音通信技术的思想,将各类有线/无线、不同频率、制式的语音通信资源通过终端统一转换成IP信号在全网上传输,在省、市一级建立平台,实现资源交换调度,同时利用RoIP技术,对平台内各类语音资源分类、汇接、转换、统一管理,使各类语音资源在全国指挥调度网上呈“网格化”分布,形成覆盖全国的“消防语音云”。

2.2系统架构

按照现行消防管理体制,分别在部消防局、总队、支队建语音管理平台,横向接入各类语音资源,汇聚、管理本级语音资源,下级平台向上级平台通过IP网逐层汇聚,实现分级集成与分布式网络结构相结合的架构方式,下级终端语音资源受上级平台以及更高级平台的直接调度,满足了消防“扁平化”作战指挥的需要。

三、关键技术

3.1音频检测

对于有线、无线、全双工、半双工等多种通信系统接入,可采用VOX(声音)、VMR(语音)、COR(载波)三种检测方法。

VOX根据外部输入声音数字化后的电平值判定,频率范围100~3.2KHz,适用于电话通信、超短波通信、会议通信等在现场噪声较低时情况。

VMR根据声音频率和波形特点通过算法确定信号是否有效,频率范围100~1.2KHz,可有效滤除风声、汽车声、震动声等非人声特征音频,适合短波、超短波在噪声较高情况下的通信。

COR根据电台/手台接收到的载波检测信号判定,频率范围100~3.2KHz,其特征与VOX类似,但COR能够确保电台的有效发射,可避免线路干扰造成错误的PTT触发。

3.2噪声抑制

数字滤波器技术。使用DSP数字滤波器,通过DSP芯片的IIR数字滤波器技术滤除3.2KHz以上高频以及100Hz以下低频。

VAD静音检测。使用DSP芯片对数字化后的音频进行VAD检测,去除随机噪声和高斯噪声的误判,以判定是否有效音频输入。

回声消除。为了避免嚣叫,采用AEC(声学回声消除)主流回声消除技术。

数字均衡器和噪音衰减。通常的语音通信环境可采用10段均衡器,根据不同的语音频率来进行适当调节,补偿音源或音频输出设备的缺陷;无线通信设备在信号越差的情况下SNR值(信噪比)越低,语音质量越差,可通过自适应语音增强算法对噪声进行衰减并提高SNR,提取质量较高的音频信号。

3.3增益控制

不同语音设备音频电平存在差异,经过噪声抑制后的音频增益显著降低,数字化后可采用功率控制芯片对音频数据自动增益控制(AGC),通过交换控制单元调节相应参数,输入输出增益范围为-26dB~+12dB即可基本满足各类音频信号的要求。

3.4RoIP(Radio Over IP)技术

为满足通过IP联网需要,应考虑设计专有无线电台通信控制协议,如下图所示。

RoIP是基于VoIP技术之上的专有无线电台通信控制协议,RoIP涵盖了VoIP设备的编码、传输、延迟处理、抖动平滑恢复技术,可对无线电台设备语音检测与触发控制;支持单双工通信及电台远程编程;为便于扩展并适应不同网络传输,协议支持GSM 13Kbps、ADPCM 16Kbps、ADPCM 24Kbps、ADPCM 32Kbps、PCM 64Kbps等语音压缩编码标准。

四、综合通信在消防救援中的应用

4.1联合应急救援

4.2跨区域作战中的途中通信

利用公共移动网覆盖广和移动互联终端(语音综合管理平台的无线终端)对移动信号、常规无线信号互转技术,可有效解决跨区域增援中的途中通信问题。当救援编队在基站信号覆盖范围内时,可通过电台直接与指挥中心通信;当超出常规信号覆盖范围时,移动互联终端自动实现切换,跨区域救援编队仍可使用电台与指挥中心电台通信。

4.3地震救援及山岳救援

在地震导致的公共通信网瘫痪和公共通信覆盖不足导致山岳等地信号真空的救援中,可利用通信指挥车架设卫星站,建立通信干线,实现前后方的通信联络;利用通信指挥车常规网中继转信,形成现场3-5公里范围的救援圈;通过短波和卫星手机,进一步拓展救援范围,同时利用车载语音综合管理平台,实现各种通信手段的融合对接,形成现场中、短距离交叉通信,及前方后的长、短距离直接通信,有利于指挥部对多种救援力量的统一调度和工作部署。

五、结语

综合语音通信技术通过音频检测、噪音抑制、增益控制和ROIP技术解决了多种制式通信系统间的互联互通问题,实现了语音资源的统一调度与管理,为消防在联合救援、跨区域通信及地震等灾难性救援中提供了统一的语音指挥调度平台,适应了消防在新形势下“一体化”、“扁平化”的灭火救援实战需求。

语音合成技术第7篇

一、当下我国古筝教学的现状

从客观的角度和调查结果来看,随着人们对传统文化的进一步的认识,以及古筝自身的影响力,古筝教学在我国越来越流行,近几年来,我国古筝教学在大面积、大范围内的实践过程中有了很大的提高,但不可否认的是,我们的教学模式较为单一,选择性较少,更严重的是过于偏重于技术性的教学,而往往忽视了音乐的本身,因而,在我国,古筝教学的下一个目标就是促进技术与音乐的融合。

二、促进古筝教学音乐与技术融合的原因

(一)使课堂更加有趣

不得不承认的是,我国对于古筝的教学方式和教学手段比较单一,主要分为面对面教学和远程教学,同时,社会上一些基础性的、小型的文化交流活动较少,但是考级考试以及竞赛等却成为了大家鼓励和专注的焦点,在这种趋势下,古筝教学变得更加偏重于技术性的教学,枯燥乏味的技术教学内容往往会造成学生强烈的抵触心理,然而将音乐本身与技术型教学相结合能够进一步增强学生的兴趣。

(二)促进对音乐的理解

将音乐与技术结合,将肢体语言融合到音乐语言中有利于更好地促进学生的理解,了解音乐背后的故事,如《春江花月夜》、《林冲夜奔》等,将肢体语言和音乐的情感相结合,不仅仅能使我们更好地演奏出音乐本身,同时也能产生更强的感染力。

三、如何促进古筝教学中音乐与技术的融合

(一)从传统的音乐中吸取养分

传统夜月是我国传统艺术中的必不可少的、占有重要地位的一部分。古筝的演奏曲大多数为传统的音乐,我们熟知的有《高山流水》、《春江花月夜》、《渔舟唱晚》等。这些名家名作至今发挥着在艺术领域内的重要的、不可替代的作用。在古筝的学习过程中,应当学会在传统文化中汲取养分。只有充分地理解古筝这一传统文化艺术才能够真正地演绎古筝的曲目,掌握音乐中的精华部分,将音乐与技术融会贯通。同时,我们要在技术扎实的基础上了解和演绎音乐,从传统音乐中吸取养分又能使我们进一步的提升我们的演奏技术,这两点是相辅相成、互相促进的,因而,学习传统的音乐必不可少。

(二)进一步强化肢体语言的教学

进一步强化肢体语言一直以来都是古筝演奏的重要部分之一,但是很多人在演奏的过程中往往忽略了肢体语言的重要性,或者是刻板的学习肢体语言,造成了演奏过程中的僵化。其实,肢体语言既属于音乐的一种表达方式,同时,它也属于技术的一种,作为一种技术语言,如何灵活运用自己的肢体语言是极为重要的,但是,从很大程度上讲,肢体语言是音乐表达的重要途径之一,它是情感的自然流露,同时肢体语言能够促进音乐和技术的完美结合,让人们通过肢体语言更加理解音乐的本身,因而,肢体语言不但是古筝教学中的重要组成部分,更重要的是如何正确的使用肢体语言,掌握了肢体语言的正确表达方法对促进音乐与技术的自然融合有着至关重要的作用。

(三)加强自身对于音乐的理解

在进行教学之前应当鼓励学生自主学习音乐,在不断地在听和理解的过程中阐述和表达自己对于音乐的理解,其实,反复欣赏音乐的过程从很大程度上讲也是学习的过程,会帮助我们更好地接受演奏过程中需要的一系列的音乐技术技巧。同时,在聆听他人的演奏的过程中,也有利于我们更好地掌握和学习他人在演奏过程中运用的技术和情感的表达。

语音合成技术第8篇

关键词:移动通信;波形编码;参量编码;混合编码随着语音通信技术的发展,节约频率资源的有效方法之一为压缩语音信号的传输带宽,增加信道的传输速率,而语音编码可以有效的解决这个问题。对于语音编码,其是信源编码,主要就人体模拟的语音信号实施合理编码,把模拟信号变为数字信号,从而降低比特率并进行数字传输,从而可以在一定的宽带内能传输尽可能高品质的语音信号。在数字移动通信中,语音处理技术充当着重要的角色,其对语音信号处理的好坏直接影响到整个数字移动通信系统的通信质量。

一、语音编码技术的类别

在现代数字移动通信系统中,传输的信号都是数字信号,而我们通信的主要业务――语音是模拟信号,其带宽为300~3400KHz。要想在数字通信的网络中传输,必须进行信号的模数转换,将模拟信号转换为数字信号(即1和0的组合)。语音编码技术主要包括:波形编码、参量编码以及混合编码这些种类。

1、波形编码

波形编码主要就模拟语音信号的波形进行取样及其量化,还要实施编码,然后产生数字话语信号。波形编码的实质是以尽最大能力重构话音为目的进行相关的数据压缩。为了保证解码后的话音质量,波形编码的编码速率较高(一般在16~64kbps)。波形编码的优点在于它具有很宽范围的语音特性、抗干扰能力强、实现所需的技术复杂度低而费用、话音质量高,适用于高清高真音乐和语音。但其所占用的频带较宽,多用于有线通信,而对于无线通信就不合适了。

主要波形编码技术通常包括:脉冲编码调制-简称PCM,增量调制-简称M,还有许多改进型,一般有:差分脉冲编码调制(DPCM)以及自适应差分脉冲编码调制(ADPCM),还有自适应变换编码(ATC)以及连续可变斜率增量调制(CVSDM),也有子带编码(SBC)以及自适应预测编码(APC)这些。

2、参量编码

对于参量编码,其主要在人类语言,包括喉咙、嘴或者舌组合这些发声机理的前提之下,按照人们的发声机理,寻求出来表征语音的特征参量(语音信号),就特征参量实施编码(就是变为数字信号)的一类方法。接收端要针对收到的语音特征参量信息,将原先的语音恢复出。参量编码因为仅仅传输语音特征参数,语音质量要求较低,所以低速的语音编码能实现,往往处于1.2~4.8kbps。多用于窄带信道,常用于移动、卫星、军事通信中。常见的参量编码为线性预测编码(LPC)及其它各种改进型。

3、混合编码

所谓混合编码,即同时使用两种或两种以上的编码方法有机结合的过程。把波形编码和参量编码结合在一起,则可得到两者编码的优势的。即保持了参数编码的低速率,又有波形编码的高质量,从而取得了比较好的效果。混合编码的比特率一般在4 -16Kbit/s之间。

二、语音处理技术的应用

1、LPC_LTP_RPE编码器的应用

声码器编码具有非常低的速率(有时比5kb/s还低),对语音的可懂性没有影响,然而语音存在非常大的失真,谁在讲话较难分辨出来。波形编码器具有比较高的语音质量,而要求比较高的比特速率。所以GSM系统语音编码器使用声码器以及波形编码器色混合物,也就是混合编码器,全称就是线性预测编码――长期预测编码――规则脉冲激励编码器(LPC_LTP_RPE编码器),如图所示:

LPC+LTP属于声码器,RPE属于波形编码器,然后利用复用器混合将模拟话音信号的数字编码顺利完成。LTP把当前段和前一段实施对比,对应的差值经过低通滤波之后,实施波形编码。所以LPC十LTP参数以及RPE参数分别是3.6 kbit/s、9.4kbit/s;所以话音编码器具有13kbit/s的输出比特速率。

2、AMR语音编码技术的应用

WCDMA和TD-SCDMA的信源编码采用AMR语音编码技术,具有多速率(8种编码速率)、自动调整语音速率减少切换和掉话、调整部分功率,容纳更多用户等特点。它遵循的原则为以较低的编码速率获得较好的话语质量。其AMR的作用是在不同的无线条件下获得较恒定上网语音质量。

3、EVRC和QCELP应用

EVRC为增强型变速率编解码,是一种对话音进行分析和合成的编、译码器。它对语音信号进行变速率编码,在保证语音通话质量的前提下节约带宽。EVRC的编码速率有三种:全速率,1/2速率,1/8速率。噪声用1/8速率,语音用全速率或1/2速率。采用EVRC技术,可以在同等通信质量的前提下大大提高通信容量。常用于CDMA移动通信系统。

QCELP 称为码激励线性预测,是Qualcomm公司提出的可变速率CELP,话音压缩编码算法有8 kbps和13 kbps两种。QCELP主要特点是可变数率及话音激活检测技术,它能根据信号的大小和背景噪声的动态来调整编码速率,在话音间隙期,可根据不同的背景噪声分别选择全速率、1/2速率、1/4速率或1/8速率传输,能有效地降低数据的平均速率。在CDMA移动通信系统也常被采用。

另外,CDMA系统了其它一些技术。这些技术能更好的确保语音通话质量,同时可使语音容量有效地提高。如声码器速率的自适应门限, 3GPP2选用的可变模式的声码器。

总之,语音编码技术是移动通信中节约频率资源的一种方法。不同的电信运营商和不同的移动发展阶段采用的语音编码技术各有不同。语音编码技术随着新技术的发展不断更新。

参考文献:

[1]李建东,郭梯云.《移动通信》(第四版).西安电子科技大学出版社