高斯混合分位数归一化方法(GMQN)

名称 高斯混合分位数归一化方法(GMQN)
类别 健康与疾病检测
版本号 v1.0
开发者 熊壮、李萌伟、马英克、李茹姣、鲍一明
描述 Illumina HumanMmethylation BeadChip 是在人类基因组中以单碱基分辨率量化 DNA甲基化水平的最具成本效益的方法之一,这使其成为全表观基因组关联研究的常规平台。在公共数据库中积累了数万个DNA甲基化芯片样本,为数据整合和进一步分析提供了有力支持。然而,大多数公开的DNA甲基化数据都是作为处理后的数据保存的,没有广泛用于数据标准化的背景探针。在这里,我们提出高斯混合分位数归一化方法(GMQN),这是一种基于参考的方法,用于校正HumanMmethylation BeadChip中的批次效应和探针偏差。为了实现这一过程,GMQN分三步对数据进行标准化。第一步是参考分布的建立。为了解决公共数据增速快的问题,GMQN采用基于参考分布的标准化方式。对参考数据集上每一个探针的信号强度在样本间求均值,并对一类探针红绿信道上的探针信号强度分别拟合高斯混合分布。第二步是芯片间标准化。芯片间标准化分别在一类探针红色和绿色信道进行。我们首先对输入的一类探针的信号强度进行高斯混合分布的拟合,得到拟合参数,将输入信号对应至参考信号,去除批次效应等偏差。第三步是芯片内标准化,主要去除一类二类探针的偏差。第二步中,我们获得了标准化的一类探针信号,以一类探针的信号为标准,我们采用BMIQ或SWAN对二类探针进行标准化。我们分别对BMIQ和SWAN进行了一些微调以提升速度和效果。
下载地址 https://ngdc.cncb.ac.cn/biocode/tools/BT007369
文章发布 https://www.ncbi.nlm.nih.gov/pmc/articles/PMC8777061/
引用次数 9
图片描述

北京市朝阳区北辰西路一号院104号 中国北京,100101 | 86-10-84097216

版权所有 © 国家生物信息中心 2023, 京ICP备 10050270号-13