作者:韩硕; 邹磊 期刊:《北京大学学报·自然科学版》 2020年第01期
设计动态图上最短路径距离查询的并行计算框架。通过构建增量图的方法,实现一个批次内的多个查询在不同数据图版本的多线程并发执行。对于每个查询,使用双向宽度优先搜索算法来减少搜索空间,并提出搜索过程中扩展方向的决策函数。利用BSR对数据图邻接表进行编码,结合SIMD指令和图顶点重标号算法,进一步提升数据级并行度。在真实图数据集下的大量实验验证了所提方法的高效性。
作者:张剑 期刊:《信息技术与网络安全》 2005年第06期
从单指令多数据(SIMD)并行运算的角度出发,将面向对象的思想引入到SAD值计算的并行操作中,给出了改进的图像组织优化算法,并对多个标准测试序列进行运动预测的测试.
作者:熊赟; 赵小飞; 仲纪梅 期刊:《通信与广播电视》 2005年第04期
H.264是目前最新的视频压缩标准,和以前的标准相比它有着更好的性能,但是也有更大的计算量。本文根据Intel为其处理器推出的超线程技术,提出对H.264采用多线程并行解码。通过分析不同级别上的编码方法,给出了在COP级别上的一种编码方案。
从本质上看,软件实际上只是夹在.人与硬件之间的一个中间层,人们使用软件的根本目的还是要让硬件运转起来为自己服务。硬件平台如果长期稳定,软件就能够安稳发展,建起高楼大厦,硬件基础如果打个喷嚏,软件就会得一场感冒。过去十几年来,我们的计算环境已经发生了很多变化,比如RISC的兴起,大规模服务器集群的发展,SIMD的普及,特别是网络的大发展,令人印象深刻。每一项变化都给软件带来一定程度的冲击。不过大部分情况下...
作者:陈辉; 龚浩; 张燕忠 期刊:《计算机测量与控制》 2004年第12期
模板匹配是进行滤波、边缘检测、目标识别和图像匹配的一种基本和有效的方法.但是模板匹配是一种密集型运算,在单处理机上实现耗时较多,但是如采用并行阵列计算机,硬软件成本也会相应提高.所幸Intel处理器提供了MMX/SSE/SSE2指令集,支持指令级SIMD操作.可将模板匹配主要运算部分进行SIMD并行化,在Linux平台下编程实现单处理机上的并行处理.测试结果表明:SIMD大大加快了模板匹配的速度.
作者:周国昌; 王忠; 车德亮; 冯国臣 期刊:《计算机应用研究》 2005年第07期
LS SIMD协处理器是用于底层图像理解的16位定点嵌入式阵列处理器,该处理器除SIMD固有的数据并行性外,还具有三级流水和三组指令并发执行的并行性.主要阐述LS SIMD协处理器的三级流水线和三组指令并发执行的基本可重用的主控制器设计.
作者:李寿阳; 何国强; 刘巍 期刊:《国外电子测量技术》 2019年第01期
针对雷达信号处理领域中的恒虚警率(constant false alarm rate,CFAR)算法的广泛应用,在高性能DSP上实现CFAR算法的性能优化具有研究价值。首先阐述了CFAR算法在雷达信号处理流程中用来解决杂波背景数据的干扰问题的基本原理;其次给出了高性能DSP向量核的硬件架构设计,给出了流水排布优化、Cache预取等利于算法并行化运算的硬件优化实现方案;最后运用单指令多数据流(SIMD)指令对CFAR算法进行了重写优化。实验结果表明,设计的向量核...
作者:Dave; Bursky; 潘辑智 期刊:《电子产品世界》 2004年第05A期
DSP在手机、音乐播放器和其他消费品中的应用,直接关系着系统的功能与价格.在适当的价位上,DSP必需提供足够的功能满足当前需求,并且有充裕的可扩展性和空间,以便设计人员对硬件无需大动干戈,便能为系统添加新功能或强化现有功能.
作者:王馨梅; 张翔; 张发存; 崔杜武 期刊:《计算机工程》 2004年第13期
研究并实现了在LS-SIMD计算机上基于奇偶比较方法的按行或按列数据并行排序算法,并对算法的计算复杂性和通信复杂性进行了分析.该研究对于扩展LS SIMD计算机在非数值计算方面的应用有着十分重要的实际意义.
作者:郑伟; 姚庆栋; 张明; 蒋志迪; 李东晓; 赖莉亚; 周莉 期刊:《计算机工程》 2004年第17期
在面向多媒体运算的高性能、低功耗DSP芯片MD32设计中,支持SIMD指令的分裂式、低功耗ALU设计是实现其设计目标的重要环节.该文提出了利用基于资源共享的设计思想,以超前进位加法器(Carry Look-ahead Adder)为核心构造数据处理单元,完成算术以及逻辑运算,减少了ALU模块的面积,同时均衡了不同数据通路长度,并且采用先进行数据选择,而后进行数据处理的设计原则,降低不使用模块的活动度,减少了功耗.根据Design Power分析其综合后门级实...
作者:孙海燕 期刊:《计算机工程与科学》 2017年第11期
随着问题规模的增大和对实时性要求的提高,SIMD向量处理器尤其是带有向量运算单元的处理器在业界得到广泛应用。处理器上程序的运行状态一般由编译器通过堆栈进行管理。已有编译器堆栈设计机制在SIMD体系结构中严重影响了整个应用程序的运行性能。根据SIMD体系结构特点,提出了一种高效分布式堆栈设计方法——HEDSSA。实验结果表明,HEDSSA堆栈使得应用程序在进行局部数据访问、函数调用、发生中断以及动态分配数据时能够以更高的效...
作者:魏芳; 李学明 期刊:《计算机工程与应用》 2004年第17期
H.264是一个新的基于运动补偿+变换+量化+熵编码框架的视频编码国际标准。H.264中采用了大量的新技术,这些技术在提高编码效率的同时,也极大地增加了算法的复杂度。为此H.264在保证性能的前提下也做了一些优化,如变换和量化可以在16比特精度下完成,并且除了量化中需要少许乘法外,其余可以只用加法和移位实现。这些特点使得H.264中的变换和量化可以很好地使用支持单指令多数据(SIMD)的MMX技术进行进一步优化。该文首先介绍...
作者:张丹; 赵银亮; 王海; 李增智; 宋红; 曹德宏; 刘波 期刊:《微电子学与计算机》 2004年第12期
媒体处理器通常采用汇编语言编程以满足代码大小、性能和能耗方面的要求.本文提出了媒体处理器高级语言的设计原则,并针对Leadtek公司的媒体处理器设计,实现了VP6-C语言及其编译系统.VP6-C语言用于编写多媒体处理中的核心程序,为程序员提供一种C风格的、自然的编程方式.试验结果表明编译生成的目标代码有较高的质量.
PowerPC 7400拥有自己的SIMD指令,名为AltiVec,这是和x86系芯片拥有的3DNow!和SSE(Streaming SIMD Extensions,单一指令多数据流扩展)之类相类似的SIMD指令。AltiVec利用短形向量处理达到了128位,可分为:16个8位数或8个16位数或4个32位数。G4用一个128位内存存取AltiVec指令,并处理基本算术(加/减、小数点、十字相乘、标量乘法)和复杂的线性代数(排列)。由于矩阵函数的基础为向量函数,因此它能通过AltiVec等SIMD指令...
作者:叶海雄; 陶宁蓉; 王世明; Laurent; Cabaret; Lionel; Lacassagne 期刊:《电子设计工程》 2017年第16期
以信号处理中非递归型Finite Impulse Response(FIR)滤波器作为研究对象,针对硬件电路设计中存在的面积、功耗和计算性能的问题,通过利用CatapultC高层次综合工具先优化单个FIR滤波,再级联滤波算法的方法以改善滤波的能耗。同时FIR滤波算法在STxP70专用微处理器中采用单指令多数据Single Instruction MultipleData(SIMD)VECx技术以加速电路的计算性能.分析与评估硬件与软件对实现FIR滤波算法的影响。实验结果表明,采用硬...
RNN(Recurrent Neural Network)语言模型的计算复杂度高,成为RNN语言模型实际应用中的一个瓶颈。对此,提出一种基于RNN语言模型的定点化方案,该方案将RNN的浮点数(float)矩阵运算转化为定点化计算。通过采用SIMD(Single Instruction Multiple Data)指令集,将占比最大的矩阵相乘的计算量减小为原来的1/2甚至1/4。实验结果表明,在不影响识别效果前提下,优化算法提高了语言模型的运算效率。
作者:蒋丽娟; 刘芳芳; 赵玉文; 杨超; 蔡颖 期刊:《计算机系统应用》 2016年第11期
大整数运算广泛地应用于公钥加密算法、大规模科学计算中高精度浮点数运算类以及构建大特征值等领域,然而其大部分算法空间和时间开销都很大,尤其对于核心运算之一的大整数乘法,当数据达到一定规模时,超长的串行计算时间已成为制约算法应用的巨大瓶颈.近几年来,伴随着多核、众核芯片的迅猛发展,通过充分挖掘算法本身的并行度以利用并行处理器的强大计算能力,进而高效地提升算法性能,成为一种研究趋势.本文基于通用多核并行计算平台...
AVR32通过SIMD(单指令多数据)DSP指令在更少的时钟周期内提高了处理能力。因为加快时钟周期直接增加功耗并减少了电池寿命,AVR32采取的措施是提高每个时钟周期内处理器的处理:量。
作者:李勇; 齐同斌; 张瑞生 期刊:《电子技术应用》 2007年第11期
数字图像处理需要大量的数据运算,要求系统具有很高的数据吞吐量。并行处理结构能较好地满足这一要求。介绍一种SIMD并行多DSP数字图像处理系统。该系统具有避免冲突、能连续处理图像数据、处理器间通信及I/O部分简单、硬件及软件模块化等优点。
作者:杜谋辉; 周媛媛; 余圣发; 林嘉宇 期刊:《计算机工程与科学》 2006年第11期
本文结合DSP芯片TMS320C6416的结构特征,在分析H.264帧内预测模块并行特性的基础上提出了H.264帧内预测模块的并行实现方法。工程实践结果表明,并行处理效果比较理想。