使用公共数据集的比较分析鉴定肝癌干细胞干细胞标志物
美国国立卫生研究院和其他机构正在资助高通量基因组学和转录组学 ('omics) 实验,这些实验将数字数据样本以快速增加的规模存储到公共领域。1,2 越来越多的相关同行评审出版物证明了其科学价值,进一步说明了这些数字数据样本的重要性。3,4 癌症干细胞 (CSC) 的研究是一个很有前途的研究途径,它会产生大量独特的数据。越来越多的证据表明 CSC 会导致治疗耐药、肿瘤复发和转移。众所周知,这些细胞具有干细胞样特性/功能,代表肿瘤块内的一个关键子集,负责使肿瘤永久存在,即使在治疗后患者中也是如此。 CSC 与正常干细胞具有相似的特性,包括自我更新和分化的能力,从而产生异质性癌细胞,构成肿瘤的大部分。5
最近,在识别可用于识别和区分 CSC 的特定细胞标记和基因表达谱方面做了大量工作,但仍不完全了解 CSC 与天然存在的祖细胞相比如何。5 之前已经表明,目前已知有多种转录因子在正常干细胞中表达。许多这些因素已在多种人类癌症中被发现。6 此外,干性因子是癌症治疗的重要医学靶标。7 我们通过对公开可用的单细胞 RNA-seq 数据集进行重新分析,扩展了干性因子对 CSC 的重要性这一问题,这些数据集表征了原发性肝癌样本8 以及胎儿和成人的健康肝脏样本。9 该研究的重要性基于肝癌是世界上第六大致命癌症这一事实。10 使用这种具有成本效益的公开数据源,我们比较了这些肝脏样本中存在的不同细胞类型的分化干性标记物和因子的表达水平,以确定肝脏 CSC、肝脏多能干细胞(肝胆杂交祖细胞)和肝脏祖细胞之间的相似性.肝癌数据集样本包含肝细胞癌 (HCC) 和肝内胆管癌 (ICC)。 CSCs 已被证明是这两种癌症发展的重要因素。11 此外,由于肝脏含有双潜能祖细胞,它们有可能发展成 HCC 和 ICC,12 了解这些胎儿祖细胞与 CSC 之间表达的异同非常有意义。
我们专注于 34 种已知干性转录因子和细胞标记的表达,13,14 更好地了解恶性细胞的 CSC 分类并进一步描述关键的肝脏 CSC 因素。接下来,我们比较了更广泛的基因表达,以确定潜在的新型干细胞因子。在这里,我们发现肝脏 CSC 表现出更高水平的特异性分化标志物(SOX9、KRT19、KRT7 和 CD24)和 Yamanaka 因子15 (SOX2 和 Oct4)相对于胎儿和成人祖细胞类型中的表达水平,表明它们可能解释了 CSC 的分化潜能。我们进一步确定 CXCL10 作为 CSC 的潜在标志物。使用公开可用的数据存储库扩展我们对 CSC 特性的了解,可能会为靶向 CSC 的癌症疗法开辟新的治疗途径。
材料和方法
来自肝癌的表达数据8 以及胎儿和成人的健康肝脏9 研究检索自 NCBI 基因表达综合数据库 (GEO)16 存储库。 GEO 是一个公共功能基因组学数据存储库,它采用 MIAME(关于微阵列实验的最少信息)和 MINSEQE(关于下一代测序实验的最少信息)数据标准。这确保存储的数据被正确格式化以促进数据共享和重新分析以进一步发现知识。 GEO 中存储的数据包括 FASTQ 格式的原始数据和基因表达数据计数矩阵形式的最终处理(标准化)数据,允许从多个起点进行重新分析,确保对先前结果的保真度和数据分析的速度.对于我们的再分析研究,我们从两项研究的基因表达数据计数矩阵开始。该决定是基于无法获得肝癌研究的原始数据,该研究受到基因型和表型数据库 (dbGaP) 的限制。17然而,考虑到研究中测序、组装和基因调用方法的相似性,我们预计基因表达谱中的任何系统性问题不会来自使用无法通过严格归一化解释的基因表达数据计数矩阵,这将使我们的结果在质量上不同于从原始数据开始的重新分析。
肝癌研究包括来自 19 名患者的 9946 个单细胞 RNA-seq 图谱,总计超过 5600 万个读数和 42 亿个碱基对 (GSE125449)。8 胎儿和成人肝脏研究包括 1467 个单细胞 RNA-seq 图谱,总计 2.83 亿个读数和 210 亿个碱基对 (GSE130473)。9 为了解释低覆盖样本、低覆盖基因和每个单细胞样本的读取差异的影响,我们执行了严格的过滤步骤和归一化以解释样本特定的影响。为了过滤掉低覆盖率样本,总读数少于 1000 的样本被排除在进一步分析之外。这导致提交了 9505 个肝癌样本和 1260 个健康肝脏样本进行差异表达分析。
此外,所有样本中读数为 0 的基因都被排除在外,导致分析中包含最后一组 42,684 个基因。除了蛋白质编码基因外,该基因集还包括假基因和 lncRNA。
使用edgeR进行归一化和差异表达分析18 R 包,使用标准方法。首先,通过找到文库大小的比例因子使样本之间的对数倍数变化最小化,从而对文库大小进行归一化。这是使用每对样本之间的 M 值 (TMM) 的修剪平均值完成的,19 计算有效库大小比例因子。接下来,Cox-Reid 配置文件调整似然 (CR) 方法用于通过将广义线性模型 (GLM) 与设计矩阵拟合来估计分散度。20 我们计算了所有基因的共同离散度、取决于基因丰度的趋势离散度和单个基因离散度。在为每个基因拟合负二项式 GLM 后,使用准似然 F 检验评估差异表达,21它考虑了估计每个基因的离散度的不确定性,因此提供了更稳健和可靠的错误率控制。为了解释两个数据集之间 mRNA 检测的差异,我们在差异表达分析中实施了批次效应校正。研究类型作为附加变量包含在设计矩阵中。使用 Bonferroni 多重测试校正进一步控制错误发现率。
使用 DAVID 6.8 进行基因本体论分析22 功能注释工具。对 GO 分析结果的 p 值采用了 Benjamini 多重检验校正。对三个子本体进行了富集分析:生物过程、分子功能和细胞成分。完整的智人基因集被用作背景基因集。
使用 t 分布随机邻域嵌入 (t-SNE) 分析对所有 10,865 个单细胞样本进行聚类。使用 EdgeR 方法对过滤后的基因计数数据进行归一化,并将 log2 转换为每百万计数 (CPM),以在不改变样本基因组成的情况下解释样本之间读取计数的差异,从而实现样本之间更准确的比较。 t-SNE 分析是使用 Scikit-learn Python 包进行的。23 数据在嵌入空间的二维中可视化。与最近邻居的数量相关的困惑度值被设置为 30 以说明大数据集的大小。我们采用了 300 次优化迭代来完善聚类分析。控制自然簇在嵌入空间中的紧密程度的早期夸大因子保持在默认值 12.0。同样,学习率保持在默认值 200.0。使用 matplotlib 绘制生成的嵌入空间24 和 seaborn25 python 使用成对的调色板将其打包为散点图。
箱形图和小提琴图是使用 ggplots2 生成的,26 使用 log2 CPM 值。
结果
使用先前发表的肝癌单细胞 RNA-seq 数据8 以及胎儿和成人健康的肝脏,9 我们重新分析了 42,684 个基因中的 10,865 个样本。这个组合数据集代表了一个包含超过 252 亿个碱基对的测序文库。鉴于来自两个实验的数据是使用略有不同的平台和程序进行测序和组装的,我们执行了严格的过滤和标准化步骤,以确保基因表达谱在整个研究中具有直接可比性。这一步包括过滤掉所有样本中读数少于 1000 的细胞、读数为零的基因。接下来,我们使用 edgeR 执行文库大小归一化因子并计算所有基因的共同离散度、取决于基因丰度的趋势离散度和单个基因离散度18 R包。由于 cDNA 文库制备是使用两种不同的方法进行的,Ma 等人的 10x Genomics Single Cell 3'8与 Segal 等人的 SmartSeq2 相比,9 我们首先证实了我们对一组管家基因的标准化方法的有效性。27 我们对一组可用作基因表达研究参考的基因表达的分析表明,肝癌之间的表达没有显着差异8 以及胎儿和成人的健康肝脏9 数据集(图1).在为验证表达标准化而检查的 7 个管家基因(MB、FAM96B、NDUFB4、NOP10、SNRPD2、RPSA、RPLP0)中,SNRPD2 显示出最大的倍数差异,在 Ma 等人的数据集中表达高 0.20 倍。鉴于文库制备方法的差异可能导致表达差异,这些结果通过强调研究中表达水平的相似性,证实了我们标准化方法的有效性。
为了进一步增加对我们的标准化结果的信心,我们对来自这两项研究的原始计数数据进行了 tSNE 分析,并与标准化的、log 2 转换的 CPM 值进行了比较。原始计数 tSNE 图表明 Ma 等人的样本与 Segal 等人的样本之间存在明显的分离,这可能是由于 cDNA 文库制备的差异所致(图 2).然而,按照我们的归一化方法,t-SNE 图显示了 Ma 等人和 Segal 等人样本的更多混合(图 3).这表明样本的聚类基于它们的基因表达谱,并通过扩展它们的细胞类型谱。鉴于样本的混合,我们相信差异表达分析将反映细胞类型之间的真实差异。
归一化后,我们的首要目标是确定导致恶性细胞多能性的表达变化,并衡量将其分类为 CSC 的适当性。为了实现这一目标,我们比较了肝脏 CSC(恶性细胞)和胎儿祖细胞类型(CD235a-/CD45-/EpCAM+/NCAM+ FETAL)与成人和胎儿分化细胞类型的表达(图 4).该对照组包括正常成人分化肝细胞(CD235a-/EpCAM-/ASOPR1+ 成人和 CD235a-/EpCAM+ 成人)、胎儿分化肝细胞(CD235a-/CD45+/EpCAM-胎儿、T 细胞、B 细胞)、癌症相关细胞成纤维细胞 (CAF)、肿瘤相关巨噬细胞 (TAM) 和肿瘤相关内皮细胞 (TEC)。我们发现 76 个基因与正常分化的肝细胞相比显着上调(> 5 倍过表达和 Bonferroni 校正的 p 值 < 0.001)(补充表 1).然后我们专注于 34 个已知的对 CSC 表型重要的干性标记(补充表 2).13,14 该集合包括细胞表面标记以及转录因子,包括 Yamanaka 因子。15 在上调的基因中,以下基因被认为是干细胞标记物:SOX9、KRT19、KRT7 和 CD24。这些结果支持肝癌干细胞模仿胎儿肝胆祖细胞表达谱的断言,以及将这些细胞正确分类为 CSC。
潜在的兴趣是,当我们整体观察过度表达的基因时,我们发现它们显着富含细胞外基质基因(GO:0031012,p 值 = 4.3E-9),因为细胞外基质在调节增殖中的重要性干细胞28 促进CSC更新。29 相反,只有两个基因在肝脏 CSC 和胎儿祖细胞中表现出显着(> 5 倍)的低表达:血清甘氨酸和 HLA II 类组织相容性抗原,DR α 链 (HLA-DRA)。鉴于 HLA-DRA 在成熟免疫细胞中表达,而成熟免疫细胞构成了我们对照细胞类型的很大一部分,这一结果让我们相信,我们的肝脏 CSC 和胎儿祖细胞类型与我们的分化对照形成了截然不同的未分化组一组细胞类型。
为了进一步支持我们的结果,我们接下来将表达肝祖细胞标记物(HPC 样)的成体细胞亚群与肝 CSC 和胎儿祖细胞类型一起纳入。我们发现与对照细胞类型(补充表 3).确认我们之前的结果,我们再次发现 SOX9、KRT19、KRT7 和 CD24 干细胞标记在该组中过度表达。
最后,我们分析了肝脏 CSC 和胎儿祖细胞类型之间表达的差异。我们发现 248 个基因在肝脏 CSC 中至少过表达 5 倍(p 值 < 0.001)(补充表 4).有趣的是,肝脏 CSC 显着富集了过表达基因,这些基因在靶向膜的 SRP 依赖性共翻译蛋白中发挥作用(GO:0006614,p 值 = 5.5E-14),核糖体的结构成分(GO:0003735,p 值 = 4.0) E-12) 和翻译起始 (GO:0006413, p-value = 1.9E-11)。这可能说明癌症翻译失调和 CSC 相对于胎儿祖细胞的生长速度增加。有趣的是,2个山中因素15 相对于胎儿祖细胞在肝脏 CSC 中显着过表达:Oct4/POU5F1(2.14 倍,p 值 = 8.28E-48)和 SOX2(1.13 倍,p 值 = 0.0392)(图 5).此外,肝脏 CSC 的 3 种额外干性因子的表达显着更高:CD44(3.25 倍,p 值 = 4.24E-21)、KRT7(2.2 倍,p 值 = 1.27E-15)和 SOX9(1.71 倍, p 值 = 1.08E-7)。进一步支持 CD44 在癌症发展和进展中的重要性,30 相对于 HPC 样,CD44 在肝脏 CSC 中也显着过度表达(2.45 倍,p 值 = 7.01E-29)。
为了进一步从肝 CSC 中描绘出恶性肝癌细胞,我们使用所有 42,684 个基因的所有 10,865 个样本细胞进行了 t-SNE 分析。除了其他细胞类型外,恶性细胞大多显示出不同的聚类,复制了 Ma 等人先前观察到的结果。8 然而,特别令人感兴趣的是包含大部分 HPC 样细胞 (526/988) 的大簇,其中还包含一小部分恶性细胞 (155/1990)。鉴于这些恶性细胞和 HPC 样细胞之间表达的总体相似性,这表明这些可能是对肝 CSC 的更准确描述。虽然这两组之间没有观察到显着差异,但该簇内的 CSC 的 CXCL10 水平低于 HPC 样细胞(0.749 倍,p 值 = 0.145)。考虑到 CXCL10 的抗肿瘤活性,这种表达减少可能会促进 CSC 增殖。31
讨论
随着现在使用单细胞下一代测序进行癌症研究的多样性,丰富的数据使我们能够开始提出超出研究人员原始范围的其他问题。细胞表达谱是了解非癌性细胞向癌细胞转化和了解 CSC 干性的重要工具。使用大数据集对于这些类型的分析至关重要。这项研究建立在先前研究的基础上,并扩展了先前建立的基因表达元分析方法,以处理更大的数据集。32 这使我们能够在比较分析的规模上达到新的水平,以产生新的知识发现。具体而言,我们旨在了解 CSC 的表达谱与成人和胎儿祖细胞的比较,以便更好地了解 CSC 的自我更新和分化能力。为了实现我们的目标,我们对两个公开可用的单细胞 RNA-seq 数据集进行了重新分析,这些数据集描述了肝癌以及成人和胎儿健康肝脏样本的特征。
我们首先检测了 34 种已知干细胞标记物的表达谱13,14 以确保先前研究将细胞表征为 CSC 的准确性。检查一组干性因子在癌症和健康成人和胎儿肝脏样本的不同细胞类型中的表达,我们观察到 CSC 属于一个独特的表达谱,与终末分化的祖细胞类型更相似细胞类型。具体而言,我们观察到与终末分化细胞类型相比,CSC 中 SOX9、KRT19、KRT7 和 CD24 干细胞标记物的表达显着更高。此外,CSC 的 Oct4 和 SOX2 表达水平明显高于祖细胞类型。基于此,我们提出这两个山中因素的重要性15 促进 CSC 的自我更新和分化能力。
我们的结果还表明,相对于肝胆杂交祖细胞,肝脏 CSC 中的 GO 术语、靶向膜的 SRP 依赖性共翻译蛋白、核糖体的结构成分和翻译起始显着丰富。有趣的是,所有三个 GO 术语都在增加蛋白质产量方面发挥作用,尤其是那些以膜为目标的蛋白质。最近的研究先前暗示了 SRP 依赖性共翻译蛋白靶向肺癌细胞膜的重要性。33 此外,属于这些 GO 类别的蛋白质已被证明可以激活乳腺癌细胞中的肿瘤生长和转移。34 这些结果进一步说明了不同癌症类型的基因表达的相似性,并为新型肝癌治疗提供了额外的潜在途径,因为蛋白质跨膜易位抑制剂最近被认为是抗癌剂。35
这些结果提供了对癌症生物学的新见解,通过和谐地利用公开可用的数据集使之成为可能。虽然之前已确定许多干性因子在癌症中很重要,但我们的结果提供了关于癌症干细胞在表达上与肝祖细胞类型有何不同的独特见解。我们相信这有助于更好地了解这些标记物如何发挥作用,以提供在癌症干细胞中观察到的增加的增殖和分化潜能。具体而言,虽然 CD44 和 SOX9 之前曾与促进癌症干细胞的增殖有关,36 我们相信我们的工作是第一个将 KRT7 与肝癌干细胞增殖联系起来的工作。我们的研究展示了利用共享的大量数据来推动新知识发现和假设生成的潜在力量。
致谢
这项工作部分由 NIH 赠款 UL1TR001433 资助。
披露
作者报告在这项工作中没有利益冲突。
参考
1. Bourne PE、Bonazzi V、Dunn M 等。 NIH 大数据知识 (BD2K) 计划。 J Am Med Inform Assoc. 2015;22(6):1114。 doi:10.1093/jamia/ocv136
2. Paten B、Diekhans M、Druker BJ 等。 NIH BD2K 转化基因组学大数据中心。 J Am Med Inform Assoc. 2015;22(6):1143–1147。 doi:10.1093/jamia/ocv047
3. Toga AW、Foster I、Kesselman C 等人。大生物医学数据作为发现科学的关键资源。 J Am Med Inform Assoc. 2015 年;22(6):1126–1131。 doi:10.1093/jamia/ocv077
4. Jagodnik KM、Koplev S、Jenkins SL 等。为大数据到知识 (BD2K) 共享中的数字对象开发框架:来自共享框架试点研讨会的报告。 生物医学杂志. 2017 年;71:49–57。 doi:10.1016/j.jbi.2017.05.006
5. Batlle E, Clevers H. 重新审视癌症干细胞。 天然药物. 2017;23(10):1124–1134。 doi:10.1038/nm.4409
6. Beck B, Blanpain C. 揭示癌症干细胞的潜力。 Nat Rev 癌症. 2013 年;13(10):727–738。 doi:10.1038/nrc3597
7. 杨 L, 石 P, 赵 G, et al.针对癌症干细胞通路进行癌症治疗。 信号转导靶标. 2020;5(1):8.
8. Ma L, Hernandez MO, Zhao Y, 等人。肿瘤细胞生物多样性驱动肝癌微环境重编程。 癌细胞. 2019;36(4):418–430.e416。 doi:10.1016/j.ccell.2019.08.007
9. Segal JM、Kent D、Wesche DJ 等。人胎儿肝脏的单细胞分析捕获了肝胆杂交祖细胞的转录谱。 国家公社. 2019;10(1):3350。 doi:10.1038/s41467-019-11266-x
10. 国际癌症研究机构。 population-globocan-IARC 的情况说明书; 2019. 可从: http://gco.iarc.fr/today/fact-sheets-cancers. 2020 年 8 月 19 日访问。
11. 库马尔 M、赵 X、王 XW。肝细胞癌和肝内胆管癌的分子癌变:离个体化医疗又近了一步? 细胞生物科学. 2011 年;1(1):5。 doi:10.1186/2045-3701-1-5
12. Wu PC、Lai VC、Fang JW、Gerber MA、Lai CL、Lau JY。表达肝细胞和胆道标志物的肝细胞癌也表达细胞角蛋白 14,这是一种双能祖细胞的标志物。 肝脏杂志. 1999;31(5):965–966。
13. Zhao W, Li Y, Zhang X. 癌症干细胞相关标志物。 癌症转化医学. 2017;3(3):87–95。 doi:10.4103/ctm.ctm_69_16
14. Puram SV、Tirosh I、Parikh AS 等人。头颈癌原发性和转移性肿瘤生态系统的单细胞转录组学分析。 细胞. 2017;171(7):1611–1624.e1624。 doi:10.1016/j.cell.2017.10.044
15. Liu X, Huang J, Chen T, 等。 Yamanaka 因子严格调节小鼠胚胎干细胞中的发育信号网络。 细胞水库. 2008;18(12):1177–1189。 doi:10.1038/cr.2008.309
16. Edgar R, Barrett T. NCBI GEO 微阵列数据标准和服务。 纳特生物科技. 2006;24(12):1471–1472。 doi:10.1038/nbt1206-1471
17. Tryka KA、Hao L、Sturcke A 等人。 NCBI 的基因型和表型数据库:dbGaP。 核酸研究. 2014;42(D1):D975–979。 doi:10.1093/nar/gkt1211
18. 罗宾逊医学博士、麦卡锡 DJ、史密斯 GK。 edgeR:用于数字基因表达数据差异表达分析的 Bioconductor 包。 生物信息学. 2010;26(1):139–140。 doi:10.1093/生物信息学/btp616
19. Robinson MD,Oshlack A. 用于 RNA-seq 数据差异表达分析的缩放归一化方法。 基因组生物学. 2010;11(3):R25。 doi:10.1186/gb-2010-11-3-r25
20. 麦卡锡 DJ、陈 Y、史密斯 GK。关于生物变异的多因素 RNA-Seq 实验的差异表达分析。 核酸研究. 2012;40(10):4288–4297。 doi:10.1093/nar/gks042
21. 伦 AT、陈 Y、史密斯 GK。它是 DE-licious:在 edgeR 中使用准似然法对 RNA-seq 实验进行差异表达分析的方法。 方法分子生物学. 2016;1418:391–416。
22. Huang da W, Sherman BT, Lempicki RA。使用 DAVID 生物信息学资源对大型基因列表进行系统和综合分析。 自然协议. 2009;4(1):44-57。 doi:10.1038/nprot.2008.211
23. Pedregosa F、Varoquaux G、Gramfort A 等人。 Scikit-learn:Python 中的机器学习。 J Mach 学习资源. 2012;12:2825–2830。
24. 猎人JD。 Matplotlib:一个二维图形环境。 计算机科学. 2007;9(3):90-95。 doi:10.1109/MCSE.2007.55
25. Waskom M、Botvinnik O、Ostblom J 等。 mwaskom/seaborn:v0.10.1(2020 年 4 月)。 芝诺多. 2020.
26. 威克姆 H. Ggplot2:用于数据分析的精美图形.纽约:施普林格出版社; 2016.
27. Caracausi M、Piovesan A、Antonaros F、Strippoli P、Vitale L、Pelleri MC。人类管家基因的系统鉴定可能在基因表达研究中用作参考。 分子医学代表. 2017;16(3):2397–2410。 doi:10.3892/mmr.2017.6944
28. Gattazzo F、Urciuolo A、Bonaldo P. 细胞外基质:干细胞生态位的动态微环境。 生物化学生物物理学报. 2014;1840(8):2506–2519。 doi:10.1016/j.bbagen.2014.01.010
29. Nallanthighal S、Heiserman JP、Cheon DJ。细胞外基质在癌症干性中的作用。 前沿细胞开发生物学. 2019;7:86。 doi:10.3389/fcell.2019.00086
30. 陈 C、赵 S、卡纳德 A、弗里曼 JW。 CD44 在癌症进展中的生物学和作用:治疗意义。 血液肿瘤杂志. 2018 年;11(1):64。 doi:10.1186/s13045-018-0605-5
31. 刘 M,郭 S,斯泰尔斯 JK。 CXCL10 在癌症中的新作用(综述)。 肿瘤快报. 2011;2(4):583–589。 doi:10.3892/ol.2011.300
32. Rau A、Marot G、Jaffrézic F. 来自多项研究的 RNA-seq 数据的差异荟萃分析。 BMC生物信息. 2014;15:91。 doi:10.1186/1471-2105-15-91
33. Nakamura H、Fujii K、Gupta V 等人。通过临床组织蛋白质组的加权基因共表达网络分析鉴定小细胞肺癌和大细胞神经内分泌肺癌的关键模块和中枢基因。 公共科学图书馆一号. 2019;14(6):e0217105。 doi:10.1371/journal.pone.0217105
34. Nabet BY、Qiu Y、Shabason JE 等。外泌体 RNA 去屏蔽将基质激活与癌症中的模式识别受体信号传导结合。 细胞. 2017;170(2):352–366.e313。 doi:10.1016/j.cell.2017.06.031
35. Van Puyenbroeck V, Vermeire K. 分泌途径跨膜蛋白质易位抑制剂:新型抗菌剂和抗癌剂。 细胞分子生命科学. 2018;75(9):1541–1558。 doi:10.1007/s00018-017-2743-2
36. Nio K, Yamashita T, Kaneko S. 肝癌干细胞的进化概念。 分子癌. 2017 年;16(1):4。 doi:10.1186/s12943-016-0572-9
发表评论
要发表评论,您必须先登录。