作者:郑小宏; 兰杰; 郝华; 曾雉 期刊:《科研信息化技术与应用》 2013年第05期
分子器件中的第一性原理输运计算比普通的密度泛函计算要慢很多,其最根本原因在于密度矩阵计算方法的不同。本文将GPU加速应用于第一性原理的输运计算,重点实现相关矩阵运算的加速。测试结果表明,在单次迭代中,对于较大的体系,相对于调用MKL库,密度矩阵的运算速度在单个TeslaM2090可以提高一个数量级以上,在TeslaK20m上则可以提高20倍以上,从而取得了很好的加速效果,而且体系越大,加速效果越好。
作者:姜婷婷; 丁凯孟 期刊:《金陵科技学院学报》 2019年第04期
采用图形处理单元(GPU)对感知哈希算法进行并行化设计与实现。首先,对遥感图像进行预处理,以克服显存大小的限制;然后,基于GPU检测遥感图像的特征点;最后,在CPU端进行感知哈希序列的生成。实验结果表明,该算法与基于CPU的算法相比,计算性能有了显著提高,可满足遥感图像进行认证的需求。
传统的台区拓扑辨识方法精确度低,易受干扰,效率低下。针对这一问题,提出了一种基于LoRa技术和GPU加速的台区拓扑辨识方法,旨在利用LoRa通信技术、高性能计算技术以及大数据方法,对于大规模安装的智能电能表的数据进行获取和分析,有效辨识台户之间的对应关系。文中采用了基于LoRa技术及“多采统传”协议压缩技术的海量高密度数据获取的方法,有效加强了数据的快速获取。同时,利用GPU并行加速的灰色关联分析法实现数据分析,有效提高...
作者:程凯; 田瑾; 吴飞; 汪茹; 李洪芹 期刊:《计算机应用研究》 2019年第11期
针对基于GPU求解大规模稀疏线性方程组进行了研究,提出一种稀疏矩阵的分块存储格式HMEC(hybrid multiple ELL and CSR)。通过重排序优化系数矩阵的存储结构,将系数矩阵以一定的比例分块存储,采用ELL与CSR存储格式相结合的方式以适应不同的分块特征,分别使用适用于不对称矩阵的不完全LU分解预处理BiCGStab法和对称正定矩阵的不完全Cholesky分解预处理共轭梯度法求解大规模稀疏线性系统。实验表明,应用HMEC格式存储稀疏矩阵并以调用G...
作者:王玲玉; 董文博 期刊:《计算机与数字工程》 2020年第01期
计算机视觉在实际应用中的主要瓶颈是系统的准确性和实时性,而实时性的提高又受限于计算机中处理器的处理速度。在一个视觉定位伺服实际系统中,要求有很高的实时性,尝试研究使用GPU建立实时的视觉系统的实际性。视觉定位系统软件分为图像粗定位(目标识别)、图像精定位、运动解算等几部分。当识别图像像素为640×480时,采用单独GPU加速的方式,比CPU加速了2.1444倍,采用CPU和GPU相结合的方式,比CPU加速了4.1548倍。
作者:张军; 易成; 王邦平; 李晓峰 期刊:《工程科学与技术》 2009年第04期
针对人脸三维重建问题,提出利用多面体模型快速从人脸三幅光度立体图像中重建其2.5D结构的鲁棒性方法,并较少受高光和阴影以及毛发的影响。以漫反射光照模型建立多面体每个面与人脸图像每个像素点间的方程组,利用加权最小二乘方法求解初始人脸2.5D结构,并利用计算机图形学算法以包含镜面反射和阴影的绘制模式虚拟合成该初始结构的光度立体图像。以此虚拟光度立体图像进行第二次重建,并比较两次重建结果的差异以推断重建方法的误差,...
作者:陈丁; 万刚; 王龙; 赵宸立 期刊:《测绘工程》 2015年第03期
面向海洋环境中矢量场数据可视化的应用需求,提出基于GPU的线积分卷积(Line Intergral Convolution)改进算法,实现数据插值和流线跟踪计算的优化。针对离散场数据,提出利用反距离加权算法来替代GPU默认线性插值方法,保证数据相关性;将数据场分块处理,考察雷诺数来实现混合式流线跟踪计算;依据前后采样点矢量方向夹角动态改变积分步长。结果表明,上述算法生成纹理图像清晰,实时绘制性好,具有一定通用性。
作者:宋文龙; 李双; 张永超; 谢冰; 王琢 期刊:《黑龙江大学自然科学学报》 2018年第01期
深度摄像头的点云集合一般存在黑色孔洞闪烁的现象,在识别机械臂静态目标抓取时,点云集合数据的关键位置的体素不规则出现,就会对目标中心点的识别造成无法修正的偏差。因此,引入多个点云集合累积的思想,提出了一种基于TSDF模型的点云孔洞修复算法。在图形处理器(Graphics Processing Unit,GPU)中构建长宽高都是512体素的截断符号距离函数(Truncated Signed Distance Function,TSDF)模型,给定深度摄像头相对于世界坐标系的初始...
作者:王吉强; 贾世宇 期刊:《青岛大学学报·工程技术版》 2018年第04期
提出了一种新颖的完全在GPU端以并行方式构造八叉树的算法。克服了以往GPU八叉树生成算法难以构建结点间的邻接关系以及对应用领域的局限性等困难,适用于在GPU中对散乱点云数据、三角网数据以及离散数据场数据构建八叉树。该方法以紧密排列的方式线性存储各层八叉树结点同时避免存储空结点信息,有效节约了存储空间并且提高了逐层并行遍历八叉树的效率。与传统的CPU单线程递归分割构造八叉树的算法相比较,速度可以提高一个数量级。
作者:杨磊; 刘燕; 罗志平; 李; 周毅吉; 张美琴 期刊:《原子能科学技术》 2019年第05期
本文介绍了新评价模型并定义了新目标函数,对求解模型所采用的模拟植物生长算法进行了改进,相关代码利用C++、CUDA编写并用GPU加速。利用两座大型γ辐照装置进行了排源实践,新剂量场分布采用不同的重铬酸银剂量计测量。结果表明:测量结果与理论计算结果符合较好,剂量不均匀度(DUR)相对偏差小于4.125%;新评价模型与原模型相比,DUR增加不明显,能量利用率提高了若干倍,计算时间从h量级缩短到min量级。检测结果验证了新方法的可行性和有...
作者:阚光远; 洪阳; 梁珂; 何晓燕; 丁留谦; 张大伟 期刊:《人民长江》 2019年第05期
针对水文模型参数率定问题,为显著提升计算效率,选择 SCE-UA算法和新安江模型为研究对象,围绕SCE-UA算法并行化与程序化实现、并行 SCE-UA算法在图形处理器(GPU)上的加速效果这两个关键科学问题,以 GPU硬件平台和通用计算设备架构(CUDA)软件平台为工具,采用时空复杂度分析、算法并行性挖掘、代码深度优化、数值模拟实验等多种手段相结合的方法,进行了水文模型参数率定提速研究。内容包括:①搭建基于 CUDA和 GPU的并行计算软硬件平...
作者:陈龙; 徐添豪; 田书玲 期刊:《计算机系统应用》 2018年第05期
针对非结构网格隐式算法在GPU上的加速效果不佳的问题,通过分析GPU的架构及并行模式,研究并实现了基于非结构网格格点格式的隐式LU-SGS算法的GPU并行加速.通过采用RCM和Metis网格重排序(重组)方法,优化非结构网格的数据局部性,改善非结构网格的隐式算法在GPU上的并行加速效果.通过三维机翼算例验证了本文实现的正确性及效率.结果表明两种网格重排序(重组)方法分别得到了63%和69%的加速效果提高.优化后的LU-SGS隐式GPU并行算法...
作者:张正昌; 何发智; 周毅 期刊:《计算机辅助设计与图形学学报》 2018年第03期
交点计算是光线跟踪算法中开销最大的部分,层次包围盒(BVH)则是主流加速结构.为了提高BVH的构建速度,提出一种基于动态任务调度和warp线程优化的BVH构建算法,并针对目前主流GPU架构特点进行优化.该算法根据表面积启发式(SAH)值对BVH进行自底向上多轮优化;在每次循环的开始阶段判断当前线程是否空闲,若空闲,则根据记录任务进度的全局变量进行任务分配,否则,继续遍历BVH;当遍历到符合条件的节点时以该节点为幼树根节点进行幼树重构,...
作者:齐美彬; 李佶; 蒋建国; 王慈淳 期刊:《中国图象图形学报》 2018年第08期
目的目前行人检测存在特征维度高、检测耗时的问题,行人图像易受到光照、背景、遮挡等影响,给实际行人检测造成了一定困难。为了提高检测准确性,减少检测耗时,针对以上问题,提出一种改进特征与GPU(graphic processing unit)加速的行人检测算法。方法首先,采用多尺度无缩放思想,通过canny算子对所有样本进行预处理,减少背景干扰与统一归格化的形变影响。然后,针对实际视频中的遮挡问题,把图像分成头部、左臂、上身、右臂、左腿、...
作者:邢艳芳; 卓文鑫; 段红秀 期刊:《电视技术》 2018年第07期
目前人工智能技术已经渗透到媒体日常生产的全部环节,研究面向内容安全的图像识别技术,对网络中的违法不良图像信息进行识别和监管,具有重要的现实意义。本设计利用深度可分离卷积神经网络和MobileNet模型,配合cDNN的GPU并行计算架构,对构建的敏感图像数据集进行训练。保存训练完成的模型,对敏感图像实现较高准确度的识别。
作者:朱家成; 田善君 期刊:《计算机与数字工程》 2018年第07期
在地质统计学中,有效克里格插值的第一步是得到稳健的变差函数计算结果。目前主流的变差函数研究都是集中在对实验变差函数的拟合过程,而对实验变差函数计算过程的优化却非常少。然后在实际应用中,稳健的变差函数需要对大量的数据进行配对计算,并进行多次调试,三维环境下,计算量则更为庞大,使用传统的方法会将克里格插值过程中大部分时间花费在实验变差函数的计算过程中。论文在实验变差函数计算过程中,采用重新搜索空间样品对,GPU...
作者:王玉琨; 刘蓉; 温铁祥; 李凌 期刊:《中国医学物理学》 2018年第12期
核回归理论被广泛应用于医学图像处理和医学图像重建领域,并取得了十分显著的效果。它包括传统核回归方法(CKR)和控制核回归方法(SKR)。三维SKR算法比三维CKR算法具有更优的去噪效果和边缘保持效果,但三维SKR算法的计算量过于庞大且复杂,使其应用领域受到限制。目前,医学图像重建使用的是基于GPU的三维CKR算法,所以基于GPU的三维SKR算法的实现是一项有研究价值且具有挑战性的工作。本文首先优化三维SKR算法的计算过程,然后利用GPU...
作者:廖星; 袁景凌; 陈旻骋 期刊:《计算机科学》 2018年第03期
随着智能制造时代的到来,生产线后期产品的智能装箱已成为工业生产的重要环节,如何更快速地得到装箱结果对于提高生产效率尤为重要。以快速装箱为目标,文中提出了一种适用于工业生产线的智能化装箱算法。该算法采用自适应权重法改进了粒子群优化算法,相较于标准粒子群优化及遗传等传统启发式算法有更快的收敛速度;并采用GPU加速,实现了高性能的并行计算,大幅加快了计算速度。实验表明,所提算法同样能得到很好的空间利用率,同时其收...
作者:张正昌; 何发智; 周毅 期刊:《丝绸之路》 2018年第03期
交点计算是光线跟踪算法中开销最大的部分,层次包围盒(BVH)则是主流加速结构.为了提高BVH的构建速度,提出一种基于动态任务调度和warp线程优化的BVH构建算法,并针对目前主流GPU架构特点进行优化.该算法根据表面积启发式(SAH)值对BVH进行自底向上多轮优化;在每次循环的开始阶段判断当前线程是否空闲,若空闲,则根据记录任务进度的全局变量进行任务分配,否则,继续遍历BVH;当遍历到符合条件的节点时以该节点为幼树根节点进行幼树重构,...
作者:卢嘉铭; 朱哲 期刊:《计算机科学》 2017年第08期
虚拟现实是近年来热门的新技术,而全景视频摄制是生产虚拟现实内容的一种重要方式。介绍了一个全景视频拼接系统,其能够对六路的2K视频实时进行拼接,生成4K的输出视频。设计了一个并行化的拼接流程,对整个拼接过程中的不同步骤都进行了并行化处理,并在GPU上进行了实现。实验结果表明,该系统能够实时拼接出高质量的4K全景视频。