首页 期刊 软件学报 PUseqClust:一种RNA-seq数据聚类分析方法 【正文】

PUseqClust:一种RNA-seq数据聚类分析方法

作者:石险峰; 刘学军; 张礼 南京航空航天大学计算机科学与技术学院; 江苏南京211106; 南京林业大学信息科学技术学院; 江苏南京210037
聚类分析   负二项分布   拉普拉斯方法   混合t分布  

摘要:基因的聚类分析是基因表达数据分析研究的重要技术,它按照表达谱相近原则将基因表达数据归类,探究未知的基因功能.近年来,RNA-seq 技术广泛应用于测量基因表达水平,产生了大量的读段数据,为基因表达聚类分析提供了充分条件.由于读段非均匀分布的特性,对读段计数一般采用负二项分布进行建模.现有的负二项分布算法和传统的聚类算法对于聚类分析都是直接对读段计数进行建模,没有充分考虑实验本身存在的各种噪声,以及基因表达水平测量的不确定性,或者对聚类中心的不确定性考虑不够.基于 PGSeq 模型,模拟读段的随机产生过程,采用拉普拉斯方法考虑多条件多重复基因表达水平之间的相关性,获得了基因表达水平的不确定性,联合混合 t 分布聚类模型,提出 PUseqClust(propagating uncertainty into RNA-seq clustering )框架进行 RNA-seq 读段数据的聚类分析.实验结果表明,该方法相比其他方法获得了更具生物意义的聚类结果.

注:因版权方要求,不能公开全文,如需全文,请咨询杂志社

学术咨询 免费咨询 杂志订阅