作者:陈暾; 李志豪; 贾海鹏; 张云泉 期刊:《计算机学报》 2019年第11期
FFT(快速傅里叶变换)是用于计算离散傅里叶变换(DFT)或其逆运算的快速算法,它广泛应用于工程、科学和数学计算.到目前为止,鲜有基于ARM平台的高性能FFT算法的实现和优化,然而,随着ARMv8处理器应用的日益广泛,研究FFT算法在ARM平台上高性能实现日益重要.该文在ARMv8平台上实现和优化了一个高性能的多维FFT算法库:PerfFFT,通过FFT蝶形网络优化、蝶形计算优化、蝶形自动生成、SIMD优化、内存对齐、cache-aware的分块算法和高效转置等...
作者:钱兴隆; 臧斌宇; 朱传琪 期刊:《计算机工程与科学》 2007年第05期
SIMD架构用于多媒体加速,已经广泛应用于现代通用处理器中.SIMD架构的数据并行性可大大提高处理器的运算能力,但由于存储系统的速度远远不能与其匹配,使得应用程序的性能很难获得进一步的提高.因此,本文基于SIMD架构的访存特性,提出了一种向量寄存器部分重用的方法,以提高访存效率;并给出了相应的程序转换算法,通过数据相关性的分析,在应用程序向量化时,生成采用向量寄存器部分重用的优化代码.实验结果说明,该算法对多媒体应用程序...