TCGA数据挖掘服务| 肿瘤相关表观遗传调控基因深度分析

2019-05-07

TCGAThe Cancer Genome Atlas),即癌症基因组图谱项目,始于2005年,由美国政府出资,美国国家癌症研究所(National Cancer Institute)和人类基因组研究所(NationalHuman Genome Research Institute)共同监督,旨在应用高通量的基因组分析技术,以帮助人们对癌症有个更好的认知,从而提高对于癌症的预防、诊断和治疗能力。

TCGA主要分为负责测序的GCCs(genome characterization centers)和负责生物信息分析的GDACs(genomedata analysis centers),作为目前最大的癌症基因信息数据库,TCGA的全面不仅仅体现在众多癌症类型上,还体现在多组学数据,包括全基因组、全外显子、转录组测序数据,芯片表达数据,miRNA表达数据,拷贝数变异,甲基化数据,蛋白表达数据,突变数据等,它最大的优势是丰富且规范的临床数据,以及针对每种癌症类型的大样本量。


目前,利用TCGA数据发表的文章越来越多,其中包括癌症亚型鉴定、driver基因挖掘、非编码RNA基因功能研究等热点领域。



表观遗传调控是指不改变DNA序列而对基因表达进行调控的过程。这些特征包括DNARNA上的化学修饰以及组蛋白翻译后修饰。研究已表明表观遗传在发育、分化过程中起着十分重要的作用,其失调与多种疾病包括癌症的发生发展密切相关。近年来,已有一些靶向表观遗传调控因子的新一代药物陆续处于临床试验中,为新的癌症疗法开发开辟了道路。本项目拟通过整合分析表观遗传调控因子在18种癌症类型中的表达谱、拷贝数变化图谱以及预后图谱,挖掘在特定肿瘤类型中以及在泛癌中呈现最显著异常的表观遗传调控基因,这些基因的异常可能促进了肿瘤的发生发展,有可能作为良好的药物靶标分子。 

表观生物通过文献检索,整理了总共493个表观遗传调控因子,包含了159 个组蛋白修饰酶(writer),55 个组蛋白去修饰酶(eraser),116 个组蛋白修饰识别酶(reader),72个染色质重塑因子(chromatin remodellers58DNA修饰酶以及33m6A相关蛋白:


表观遗传调控因子类型


通过整合挖掘TCGA 7332RNA-seq数据、拷贝数变化数据及临床相关数据,将493个表观遗传调控因子与18种肿瘤进行关联分析(表1),鉴定了异常表达的表观遗传调控因子,发生频繁拷贝数变化的表观遗传调控因子以及显著预后相关的表观遗传调控因子。同时,表观生物评估了与这些表观遗传调控因子共表达的蛋白编码基因,并预测了其可能的生物学功能。这些数据有望为研究癌症相关表观遗传调控因子奠定坚实基础和提升研究效率! 

类型

肿瘤样本数量

正常对照数量

THCA(甲状腺癌)

504

59

CHOL(胆管癌)

36

9

UCEC(子宫内膜癌)

180

23

READ(直肠癌)

92

10

HNSC(头颈癌)

518

44

COAD(结肠癌)

287

41

STAD(胃癌)

413

36

LIHC(肝癌)

369

50

KICH(肾嫌色细胞癌)

66

25

PRAD(前列腺癌)

494

51

LUAD(肺腺癌)

513

59

LUSC(肺鳞癌)

498

50

BRCA(乳腺癌)

1092

113

KIRP(肾乳头状细胞癌)

288

32

ESCA(食管癌)

181

13

KIRC(肾透明细胞癌)

530

72

BLCA(膀胱癌)

407

19

GBM(胶质瘤)

153

5

肿瘤类型及分析的样本数量



数据应用范围

1. 快速获取在肿瘤中异常表达及存在拷贝数变异的表观遗传调控因子,为验证肿瘤表观遗传调控因子提供理论依据;

2.为相关研究论文的发表提供重要的数据支撑;

3. 可作为申请课题的基础工作,降低前期投入的成本;


4.  为表观遗传调控因子的功能高通量筛选结果提供参照,指导精确锁定肿瘤相关的表观遗传调控因子。

 

分析内容

1、  差异表达分析

我们通过利用limma包中的voom算法对每种癌症类型中差异表达的表观遗传调控因子进行鉴定,统计显著的表观遗传调控因子被定义为倍数变化大于或等于2倍,假阳性发现率(FDR)小于0.05。以肝癌为例,我们用上述的方法分析了493个表观遗传调控因子在369例肝癌样本与50例癌旁组织样本之间的表达水平,发现183个表观遗传调控因子在癌与癌旁组织之间显著差异表达(见图2)。通过无监督聚类分析,这些基因能够很好的区分肿瘤样本和正常样本。图3显示了肝癌中10个最显著上调的表观遗传调控因子。

热图显示了在肝癌中显著失调的表观遗传调控因子

肝癌中10个最显著上调的表观遗传调控因子

2、  拷贝数变化分析

表观遗传调控因子在癌中异常表达,那是什么因素导致它们发生这种改变呢?我们进一步探索了拷贝数变化对其变化的影响。通过整合分析拷贝数变化和表达数据,我们发现一批显著失调的表观遗传调控因子的DNA拷贝数发生了高频的变化。例如,ENSG00000101189在肝癌中发生频繁的扩增,且明显与它们表达显著正相关(见图4)。

ENSG00000101189在肝癌中扩增,且表达与拷贝数显著正相关

 

3、  生存分析

我们也基于临床数据,评估了表观遗传调控因子与病人生存之间的关联。基于多因素cox回归模型(以年龄和性别作为协变量),我们鉴定了一批表观遗传调控因子与病人生存显著相关。例如,高表达ENSG00000085999的肝癌病人比那些低表达的病人拥有更短的生存时间(见图5)。

ENSG00000085999的表达与肝癌病人的生存显著相关

4、  鉴定与表观遗传调控因子表达相关的蛋白编码基因

为了研究表观遗传调控因子与蛋白编码基因之间的调控关系,我们分析了表观遗传调控因子与近20000个蛋白编码基因之间的表达相关性。以表观遗传调控因子ENSG00000085999RAD54L)为例(在肝癌中显著上调),我们鉴定了一组与RAD54L显著相关的蛋白编码基因(FDR<0.05)。图6显示了与PVT1相关的前50个蛋白编码基因,这些基因都与RAD54L高度正相关。基于表达相关性的研究,将有助于我们发现表观遗传调控因子介导的调控关系。

RAD54L显著相关的前50个蛋白编码基因

5、  表观遗传调控因子功能预测

通过分析与表观遗传调控因子显著相关的蛋白编码基因集,我们能够推断表观遗传调控因子可能的功能。继续以ENSG00000085999为例,通过对与之相关的蛋白编码基因集进行GO分析,我们发现这些基因显著富集在ncRNA加工,组蛋白修饰等生物学过程。KEGG Pathway分析显示这些基因与细胞周期,DNA复制过程显著相关(图7)。


7 GOKEGG Pathway分析

注:客户可通过分析结果总表挑选最多10个重点目标的表观遗传调控因子,由表观生物进行差异表达箱线图、表达与拷贝数变化关系图、表达与生存关系图,共表达网络图以及GOKEGG分析图绘制。(请在原有的结果格式基础上挑出感兴趣的基因返回表观生物,切勿将挑选出的基因再次制定为其它格式返回


欢迎拨打400-775-0875

或点击本页面右侧【在线咨询】

- - - 推荐阅读 - - -