Identification des marqueurs de la souche des cellules souches du cancer du foie à l'aide d'une analyse comparative d'ensembles de données publiques
Les National Institutes of Health et d'autres agences financent des expériences de génomique et de transcriptomique ('omique) à haut débit qui déposent des échantillons numériques de données dans le domaine public à une échelle de plus en plus importante.1,2 L'importance de ces échantillons numériques de données est encore illustrée par le nombre croissant de publications à comité de lecture liées qui démontrent sa valeur scientifique.3,4 Les enquêtes sur les cellules souches cancéreuses (CSC) sont une voie de recherche prometteuse, qui conduit à la génération de grands volumes de données uniques. De plus en plus de preuves impliquent que les CSC provoquent une résistance thérapeutique, une récidive tumorale et des métastases. On sait que ces cellules possèdent des propriétés/fonctions de type souche et représentent un sous-ensemble critique au sein de la masse tumorale qui est responsable de la perpétuation de la tumeur, même chez les patients post-thérapeutiques. Les CSC partagent des propriétés similaires avec les cellules souches normales, notamment la capacité de s'auto-renouveler et de se différencier, ce qui donne naissance à des cellules cancéreuses hétérogènes, constituant la majeure partie de la tumeur.5
Récemment, de nombreux travaux ont été effectués sur l'identification des marqueurs cellulaires spécifiques et des profils d'expression génique qui peuvent être utilisés pour identifier et distinguer les CSC, mais on ne comprend toujours pas entièrement comment les CSC se comparent aux cellules progénitrices naturelles.5 Il a été montré précédemment qu'il existe plusieurs facteurs de transcription qui sont actuellement connus pour être exprimés dans les cellules souches normales. Bon nombre de ces facteurs ont été trouvés dans plusieurs cancers humains.6 De plus, les facteurs de souche sont une cible médicale importante pour le traitement du cancer.7 Nous avons développé cette question de l'importance des facteurs de souche pour les CSC, en entreprenant une nouvelle analyse des ensembles de données d'ARN-seq unicellulaires accessibles au public, qui caractérisent les échantillons primaires de cancer du foie8 et des échantillons de foie sain de fœtus et d'adultes.9 L'importance de l'étude repose sur le fait que le cancer du foie est le sixième cancer le plus meurtrier au monde.10 À l'aide de cette source de données accessible au public et économique, nous avons comparé les niveaux d'expression des marqueurs et des facteurs de différenciation de la tige dans différents types de cellules présents dans ces échantillons de foie afin d'identifier les similitudes entre les CSC du foie, les cellules souches pluripotentes du foie (progéniteurs hybrides hépatobiliaires) et les cellules progénitrices hépatiques. . Les échantillons de l'ensemble de données sur le cancer du foie contiennent à la fois un carcinome hépatocellulaire (HCC) et un cholangiocarcinome intrahépatique (ICC). Il a été démontré que les CSC sont des facteurs importants dans le développement des deux cancers.11 De plus, étant donné que le foie contient des cellules progénitrices bipotentielles, qui peuvent potentiellement se développer à la fois en HCC et en ICC,12 il est très intéressant de comprendre les similitudes et les différences d'expression entre ces progéniteurs fœtaux et les CSC.
Nous nous sommes concentrés sur l'expression de 34 facteurs de transcription et marqueurs cellulaires connus,13,14 pour mieux comprendre la classification CSC des cellules malignes et mieux délimiter les facteurs clés du SCC hépatique. Ensuite, nous avons comparé l'expression plus large des gènes pour identifier de nouveaux facteurs potentiels de souche. Ici, nous avons montré que les CSC hépatiques présentent des niveaux d'expression plus élevés de marqueurs de différenciation spécifiques (SOX9, KRT19, KRT7 et CD24) et des facteurs Yamanaka15 (SOX2 et Oct4) par rapport aux niveaux d'expression dans les types de cellules progénitrices fœtales et adultes, suggérant qu'ils expliquent potentiellement le potentiel de différenciation des CSC. Nous avons en outre identifié CXCL10 comme un marqueur potentiel des CSC. L'élargissement de nos connaissances sur les propriétés des CSC, à l'aide de référentiels de données accessibles au public, pourrait conduire à de nouvelles voies thérapeutiques pour les thérapies anticancéreuses ciblées sur les CSC.
Matériaux et méthodes
Données d'expression du cancer du foie8 et foie sain fœtal et adulte9 les études ont été extraites du NCBI Gene Expression Omnibus (GEO)16 dépôt. GEO est un référentiel public de données de génomique fonctionnelle qui utilise les normes de données MIAME (Informations minimales sur une expérience de microréseau) et MINSEQE (Informations minimales sur une expérience de séquençage de nouvelle génération). Cela garantit que les données stockées sont correctement formatées pour promouvoir le partage et la réanalyse des données pour une découverte plus poussée des connaissances. Les données stockées dans GEO comprennent à la fois des données brutes au format FASTQ et des données finales traitées (normalisées) sous la forme de matrices de comptage de données d'expression génique, ce qui permet une réanalyse à partir de plusieurs points de départ garantissant à la fois la fidélité aux résultats précédents et la vitesse d'analyse des données. . Pour notre étude de réanalyse, nous sommes partis des matrices de comptage des données d'expression génique pour les deux études. Cette décision était basée sur l'indisponibilité des données brutes de l'étude sur le cancer du foie qui est sous restriction de la base de données des génotypes et phénotypes (dbGaP).17Cependant, étant donné la similitude des approches de séquençage, d'assemblage et d'appel de gènes dans les études, nous ne nous attendions pas à ce que des problèmes systématiques dans les profils d'expression génique proviennent de l'utilisation des matrices de comptage des données d'expression génique qui ne pourraient pas être prises en compte par une normalisation stricte, ce qui rendrait nos résultats qualitativement différents d'une réanalyse à partir de données brutes.
L'étude sur le cancer du foie se compose de 9946 profils d'ARN-seq unicellulaires de 19 patients, totalisant plus de 56 millions de lectures et 4,2 milliards de paires de bases (GSE125449).8 L'étude sur le foie fœtal et adulte se compose de 1467 profils d'ARN-seq unicellulaires, totalisant 283 millions de lectures et 21 milliards de paires de bases (GSE130473).9 Pour tenir compte des effets des échantillons à faible couverture, des gènes à faible couverture et des différences de lectures par échantillon unicellulaire, nous avons effectué des étapes de filtrage strictes et une normalisation pour tenir compte des effets spécifiques à l'échantillon. Pour filtrer les échantillons à faible couverture, les échantillons avec moins de 1 000 lectures au total ont été exclus de l'analyse ultérieure. Il en est résulté 9505 échantillons de cancer du foie et 1260 échantillons de foie sain soumis pour analyse d'expression différentielle.
De plus, les gènes avec 0 lecture dans tous les échantillons ont été exclus, ce qui a donné un ensemble final de 42 684 gènes inclus dans l'analyse. En plus des gènes codant pour les protéines, l'ensemble de gènes comprend des pseudogènes et des lncARN.
L'analyse de la normalisation et de l'expression différentielle a été effectuée à l'aide de l'edgeR18 Package R, en utilisant la méthodologie standard. Tout d'abord, les tailles de bibliothèque ont été normalisées en trouvant des facteurs d'échelle pour les tailles de bibliothèque qui minimisent les changements de pli journal entre les échantillons. Cela a été fait en utilisant une moyenne tronquée des valeurs M (TMM) entre chaque paire d'échantillons,19 pour calculer le facteur d'échelle de la taille effective de la bibliothèque. Ensuite, la méthode de vraisemblance ajustée au profil de Cox-Reid (CR) a été utilisée pour estimer les dispersions en ajustant des modèles linéaires généralisés (GLM) avec une matrice de conception.20 Nous avons calculé la dispersion commune pour tous les gènes, la dispersion tendancielle en fonction de l'abondance des gènes et la dispersion des gènes individuels. Après ajustement du GLM binomial négatif pour chaque gène, l'expression différentielle a été évaluée à l'aide du test F de quasi-vraisemblance,21qui prend en compte l'incertitude dans l'estimation de la dispersion pour chaque gène et, par conséquent, fournit un contrôle du taux d'erreur plus robuste et plus fiable. Pour tenir compte des différences de détection d'ARNm entre les deux ensembles de données, nous avons mis en œuvre une correction d'effet de lot dans l'analyse de l'expression différentielle. Le type d'étude a été inclus comme dans la matrice de conception en tant que variable supplémentaire. Le taux de fausses découvertes a été davantage contrôlé à l'aide de la correction des tests multiples de Bonferroni.
L'analyse d'ontologie génétique a été réalisée à l'aide de DAVID 6.822 Outil d'annotation fonctionnelle. La correction des tests multiples de Benjamini a été utilisée sur les valeurs p des résultats de l'analyse GO. L'analyse d'enrichissement a été réalisée sur les trois sous-ontologies : processus biologique, fonction moléculaire et composant cellulaire. L'ensemble complet de gènes Homo sapiens a été utilisé comme ensemble de gènes de fond.
Le regroupement de tous les 10 865 échantillons unicellulaires a été effectué à l'aide d'une analyse d'incorporation de voisins stochastiques à distribution t (t-SNE). Les données de comptage de gènes filtrées ont été normalisées à l'aide de l'approche EdgeR et log2 transformées en nombres par million (CPM), pour tenir compte des différences de nombre de lectures entre les échantillons sans modifier la composition génétique des échantillons, permettant une comparaison plus précise entre les échantillons. L'analyse t-SNE a été réalisée à l'aide du package Scikit-learn Python.23 Les données ont été visualisées en deux dimensions de l'espace embarqué. Une valeur de perplexité, liée au nombre de voisins les plus proches, a été fixée à 30 pour tenir compte de la grande taille de l'ensemble de données. Nous avons utilisé 300 itérations d'optimisation pour affiner l'analyse de clustering. Le facteur d'exagération précoce, qui contrôle la densité des clusters naturels dans l'espace intégré, a été maintenu à la valeur par défaut de 12,0. De même, le taux d'apprentissage a été maintenu à la valeur par défaut de 200,0. L'espace intégré résultant a été tracé à l'aide de matplotlib24 et marin25 packages python sous forme de nuage de points à l'aide d'une palette de couleurs appariées.
Box plot et violin plots ont été générés à l'aide de ggplots2,26 avec les valeurs de CPM log2.
Résultats
Utilisation de données de séquençage d'ARN unicellulaire publiées précédemment pour le cancer du foie8 et foie sain fœtal et adulte,9 nous avons réanalysé 10 865 échantillons sur 42 684 gènes. Cet ensemble de données combiné représente une bibliothèque de séquençage de plus de 25,2 milliards de paires de bases. Étant donné que les données des deux expériences ont été séquencées et assemblées à l'aide de plates-formes et de programmes légèrement différents, nous avons effectué des étapes de filtrage et de normalisation strictes pour nous assurer que les profils d'expression génique étaient directement comparables d'une étude à l'autre. Cette étape comprenait le filtrage des cellules avec moins de 1000 lectures, les gènes avec zéro lecture dans tous les échantillons. Ensuite, nous avons effectué des facteurs de normalisation de la taille de la bibliothèque et calculé la dispersion commune pour tous les gènes, la dispersion tendancielle en fonction de l'abondance des gènes et la dispersion des gènes individuels, en utilisant le edgeR18 Forfait R. Étant donné que la préparation de la bibliothèque d'ADNc a été réalisée en utilisant deux approches différentes, 10x Genomics Single Cell 3ʹ pour Ma et al8versus SmartSeq2 pour Segal et al,9 nous avons d'abord confirmé la validité de notre approche de normalisation sur un ensemble de gènes domestiques.27 Notre analyse de l'expression d'un ensemble de gènes utiles comme références dans les études d'expression génique, n'a montré aucune différence significative dans l'expression entre le cancer du foie8 et le foie sain du fœtus et de l'adulte9 jeux de données (Figure 1). Sur les 7 gènes domestiques examinés pour valider la normalisation de l'expression (MB, FAM96B, NDUFB4, NOP10, SNRPD2, RPSA, RPLP0), SNRPD2 a montré la plus grande différence de pli avec une expression 0,20 fois plus élevée dans l'ensemble de données Ma et al. Ces résultats ont confirmé la validité de nos approches de normalisation, en mettant en évidence la similitude des niveaux d'expression entre les études, compte tenu du potentiel de différences d'expression induites par les différences de méthodologie de préparation de la bibliothèque.
Figure 1 Comparaison d'expression des gènes domestiques MB, FAM96B, NDUFB4, NOP10, SNRPD2, RPSA, RPLP0 entre Ma et al8 et Segal et al.9 |
Pour augmenter encore la confiance dans nos résultats de normalisation, nous avons effectué une analyse tSNE des données de comptage brutes des deux études par rapport aux valeurs CPM transformées log 2 normalisées. Le chiffre brut de comptage tSNE a démontré qu'il y avait une séparation distincte entre les échantillons de Ma et al et ceux de Segal et al, ce qui est potentiellement dû aux différences dans la préparation de la bibliothèque d'ADNc (Figure 2). Cependant, en suivant notre approche de normalisation, le graphique t-SNE a montré beaucoup plus de mélange des échantillons Ma et al et Segal et al (figure 3). Cela indique le regroupement des échantillons en fonction de leurs profils d'expression génique et, par extension, de leurs profils de type cellulaire. Compte tenu du mélange des échantillons, nous étions convaincus que l'analyse de l'expression différentielle refléterait les différences réelles entre les types de cellules.
Figure 2 Analyse t-SNE des numérations brutes du cancer du foie et des échantillons d'ARN-seq de cellule unique de foie fœtal/adulte, colorées par l'étude. |
figure 3 Analyse t-SNE des valeurs de CPM log2 normalisées du cancer du foie et des échantillons d'ARN-seq de cellule unique de foie fœtal/adulte, colorées par l'étude. |
Suite à la normalisation, notre premier objectif était d'identifier les changements d'expression responsables de la pluripotence dans les cellules malignes et d'évaluer la pertinence de leur classification en tant que CSC. Pour atteindre cet objectif, nous avons comparé l'expression des CSC hépatiques (cellules malignes) et des types de cellules progénitrices fœtales (CD235a-/CD45-/EpCAM+/NCAM+ FETAL) aux types cellulaires différenciés adultes et fœtaux (Figure 4). Cet ensemble de contrôle comprenait des cellules hépatiques différenciées adultes normales (CD235a-/EpCAM-/ASOPR1+ ADULT et CD235a-/EpCAM+ ADULT), des cellules hépatiques différenciées fœtales (CD235a-/CD45+/EpCAM- FETAL, lymphocytes T, lymphocytes B), des cellules associées au cancer les fibroblastes (CAF), les macrophages associés aux tumeurs (TAM) et les cellules endothéliales associées aux tumeurs (TEC). Nous avons constaté que 76 gènes étaient significativement régulés à la hausse par rapport aux cellules hépatiques différenciées normales (surexpression > 5 fois et valeur p corrigée de Bonferroni < 0,001) (Tableau supplémentaire 1). Nous nous sommes ensuite concentrés sur 34 marqueurs de souche connus importants pour le phénotype CSC (Tableau supplémentaire 2).13,14 Cet ensemble comprenait des marqueurs de surface cellulaire ainsi que des facteurs de transcription, y compris les facteurs Yamanaka.15 Parmi les gènes régulés positivement, les gènes suivants ont été impliqués comme marqueurs de cellules souches : SOX9, KRT19, KRT7 et CD24. Ces résultats appuient l'affirmation selon laquelle les cellules souches du cancer du foie imitent les profils d'expression des cellules progénitrices hépatobiliaires fœtales, ainsi que la classification appropriée de ces cellules en tant que CSC.
D'un intérêt potentiel, lorsque nous avons examiné les gènes surexprimés dans leur ensemble, nous avons constaté qu'ils étaient significativement enrichis en gènes de la matrice extracellulaire (GO: 0031012, p-value = 4,3E-9), compte tenu de l'importance de la matrice extracellulaire dans la modulation de la prolifération de cellules souches28 et la promotion du renouvellement du SCC.29 À l'inverse, seuls deux gènes ont montré une sous-expression significative (> 5 fois) parmi les CSC hépatiques et les progéniteurs fœtaux: la serglycine et l'antigène d'histocompatibilité HLA de classe II, DR Alpha Chain (HLA-DRA). Étant donné que HLA-DRA est exprimé dans les cellules immunitaires matures, qui constituaient une grande partie de notre ensemble de types de cellules de contrôle, ce résultat nous donne l'assurance que notre ensemble de CSC hépatiques et de types de cellules progénitrices fœtales formait un ensemble indifférencié distinct de notre contrôle différencié. ensemble de types cellulaires.
Pour étayer davantage nos résultats, nous avons ensuite inclus le sous-ensemble de cellules adultes exprimant des marqueurs de cellules progénitrices hépatiques (de type HPC) avec des CSC hépatiques et des types de cellules progénitrices fœtales. Nous avons constaté que 46 gènes étaient significativement surexprimés (> 5 fois la surexpression et la valeur p corrigée de Bonferroni < 0,001) dans cet ensemble par rapport aux types de cellules témoins (Tableau supplémentaire 3). Confirmant nos résultats précédents, nous avons de nouveau constaté que les marqueurs de souche SOX9, KRT19, KRT7 et CD24 étaient surexprimés dans cet ensemble.
Enfin, nous avons analysé les différences d'expression entre les CSC hépatiques et les types de cellules progénitrices fœtales. Nous avons trouvé que 248 gènes étaient surexprimés au moins 5 fois dans les CSC hépatiques (valeur de p < 0,001) (Tableau supplémentaire 4). Fait intéressant, les CSC du foie présentaient un enrichissement significatif en gènes surexprimés fonctionnant dans la protéine cotraductionnelle dépendante de SRP ciblant la membrane (GO: 0006614, valeur p = 5,5E-14), constituant structurel du ribosome (GO: 0003735, valeur p = 4,0 E-12) et initiation translationnelle (GO:0006413, p-value = 1.9E-11). Cela parle potentiellement de la dérégulation de la traduction dans le cancer et de l'augmentation du taux de croissance des CSC par rapport aux cellules progénitrices fœtales. Fait intéressant, 2 facteurs Yamanaka15 étaient significativement surexprimés dans les CSC hépatiques par rapport aux cellules progénitrices fœtales : Oct4/POU5F1 (2,14 fois, valeur p = 8,28E-48) et SOX2 (1,13 fois, valeur p = 0,0392) (Figure 5). De plus, les CSC hépatiques présentaient une expression significativement plus élevée de 3 facteurs de souche supplémentaires : CD44 (3,25 fois, valeur p = 4,24E-21), KRT7 (2,2 fois, valeur p = 1,27E-15) et SOX9 (1,71 fois, valeur p = 1,27E-15). valeur p = 1,08E-7). Soutenir davantage l'importance du CD44 dans le développement et la progression du cancer,30 Le CD44 était également significativement surexprimé dans les CSC du foie par rapport au type HPC (2,45 fois, valeur p = 7,01E-29).
Pour délimiter davantage les cellules cancéreuses malignes du foie des CSC du foie, nous avons effectué une analyse t-SNE en utilisant les 10 865 cellules de l'échantillon sur les 42 684 gènes. Les cellules malignes ont montré un regroupement principalement distinct des autres types de cellules, reproduisant les résultats précédemment observés de Ma et al.8 Cependant, un intérêt particulier était un grand groupe qui contenait la majorité des cellules de type HPC (526/988) qui contenaient également un petit sous-ensemble de cellules malignes (155/1990). Compte tenu de la similitude globale d'expression entre ces cellules malignes et les cellules de type HPC, cela suggère qu'il pourrait s'agir d'une délimitation plus précise des CSC du foie. Bien qu'aucune différence significative entre ces deux groupes n'ait été observée, les CSC de ce groupe avaient des niveaux inférieurs de CXCL10 que les cellules de type HPC (0,749 fois, valeur p = 0,145). Cette diminution de l'expression pourrait potentiellement favoriser la prolifération des CSC, compte tenu de l'activité anti-tumorale de CXCL10.31
Discussion
Avec la diversité des études sur le cancer actuellement menées avec le séquençage unicellulaire de nouvelle génération, l'abondance de données nous permet de commencer à poser des questions supplémentaires au-delà de la portée initiale des chercheurs. Les profils d'expression cellulaire sont des outils importants pour comprendre la transformation des cellules non cancéreuses en cellules cancéreuses et comprendre le caractère souche des CSC. L'utilisation de grands ensembles de données est essentielle pour ces types d'analyses. Cette étude s'appuie sur des études antérieures et développe des méthodes précédemment établies pour les méta-analyses de l'expression génique afin de s'attaquer à des ensembles de données encore plus volumineux.32 Cela nous permet d'atteindre de nouveaux niveaux dans la taille de nos analyses comparatives pour générer de nouvelles découvertes de connaissances. Plus précisément, nous avons cherché à comprendre comment les profils d'expression des CSC se comparent aux cellules progénitrices adultes et fœtales afin de mieux comprendre les capacités d'auto-renouvellement et de différenciation des CSC. Pour atteindre notre objectif, nous avons entrepris une nouvelle analyse de deux ensembles de données d'ARN-seq unicellulaires accessibles au public qui caractérisent le cancer du foie et les échantillons de foie sains adultes et fœtaux.
Nous avons d'abord examiné les profils d'expression de 34 marqueurs de souche connus13,14 pour assurer l'exactitude de la caractérisation de l'étude précédente des cellules en tant que CSC. En examinant l'expression d'un ensemble de facteurs de souche dans les différents types de cellules d'échantillons cancéreux et sains de foie adulte et fœtal, nous avons observé que les CSC tombent dans un profil d'expression distinct qui est beaucoup plus similaire à celui des types de cellules progénitrices, contrairement aux cellules différenciées en phase terminale. types de cellules. Plus précisément, nous avons observé une expression significativement plus élevée des marqueurs de cellules souches SOX9, KRT19, KRT7 et CD24 dans les CSC par rapport aux types de cellules différenciées en phase terminale. De plus, les CSC avaient des niveaux d'expression Oct4 et SOX2 significativement plus élevés que les types de cellules progénitrices. Sur cette base, nous suggérons l'importance de ces deux facteurs Yamanaka15 dans la promotion des capacités d'auto-renouvellement et de différenciation des CSC.
Nos résultats ont également révélé un enrichissement significatif des termes GO, de la protéine cotraductionnelle dépendante de la SRP ciblant la membrane, constituant structurel du ribosome et de l'initiation de la traduction, dans les CSC hépatiques par rapport aux progéniteurs hybrides hépatobiliaires. Il est intéressant de noter que les trois termes GO fonctionnent dans la production accrue de protéines, en particulier celles qui sont ciblées sur la membrane. Des recherches récentes ont déjà mis en cause l'importance de la protéine cotraductionnelle dépendante de SRP ciblant la membrane dans le cancer du poumon.33 De plus, il a été démontré que les protéines appartenant à ces catégories GO activent la croissance tumorale et les métastases dans les cellules cancéreuses du sein.34 Ces résultats illustrent davantage les similitudes dans l'expression des gènes entre les types de cancer et fournissent des pistes potentielles supplémentaires pour de nouveaux traitements contre le cancer du foie, car les inhibiteurs de la translocation des protéines à travers les membranes ont été récemment impliqués comme agents anticancéreux.35
Ces résultats fournissent un nouvel aperçu de la biologie du cancer qui a été rendu possible en utilisant harmonieusement des ensembles de données accessibles au public. Alors que de nombreux facteurs de souche ont déjà été identifiés comme importants dans le cancer, nos résultats fournissent un aperçu unique de la façon dont les cellules souches cancéreuses diffèrent dans l'expression des types de cellules progénitrices du foie. Nous pensons que cela permet de mieux comprendre comment ces marqueurs fonctionnent en fournissant le potentiel accru de prolifération et de différenciation observé dans les cellules souches cancéreuses. Plus précisément, alors que CD44 et SOX9 ont déjà été impliqués dans la promotion de la prolifération des cellules souches cancéreuses,36 nous pensons que notre travail est le premier à impliquer KRT7 dans la prolifération des cellules souches du cancer du foie. Notre étude démontre la puissance potentielle de l'exploitation de grandes quantités de données partagées pour favoriser la découverte de nouvelles connaissances et la génération d'hypothèses.
Remerciements
Ce travail a été en partie financé par la subvention NIH UL1TR001433.
Divulgation
Les auteurs ne signalent aucun conflit d'intérêts dans ce travail.
Références
1. Bourne PE, Bonazzi V, Dunn M, et al. L'initiative NIH Big Data to Knowledge (BD2K). J Am Med Inform Assoc. 2015;22(6):1114. doi:10.1093/jamia/ocv136
2. Paten B, Diekhans M, Druker BJ, et al. Le centre NIH BD2K pour les mégadonnées en génomique translationnelle. J Am Med Inform Assoc. 2015;22(6):1143–1147. doi:10.1093/jamia/ocv047
3. Toga AW, Foster I, Kesselman C, et al. Les mégadonnées biomédicales comme ressource clé pour la science de la découverte. J Am Med Inform Assoc. 2015;22(6):1126–1131. doi:10.1093/jamia/ocv077
4. Jagodnik KM, Koplev S, Jenkins SL, et al. Développer un cadre pour les objets numériques dans les communs Big Data to Knowledge (BD2K): rapport de l'atelier Commons Framework Pilots. J Biomed Informer. 2017;71:49–57. doi:10.1016/j.jbi.2017.05.006
5. Batlle E, Clevers H. Cellules souches cancéreuses revisitées. Nat Med. 2017;23(10):1124–1134. doi:10.1038/nm.4409
6. Beck B, Blanpain C. Démêler le potentiel des cellules souches cancéreuses. Nat Rev Cancer. 2013;13(10):727–738. doi:10.1038/nrc3597
7. Yang L, Shi P, Zhao G, et al. Cibler les voies des cellules souches cancéreuses pour le traitement du cancer. Signal transduct cible Ther. 2020;5(1):8.
8. Ma L, Hernandez MO, Zhao Y, et al. La biodiversité des cellules tumorales entraîne une reprogrammation microenvironnementale dans le cancer du foie. Cellule cancéreuse. 2019;36(4):418–430.e416. doi:10.1016/j.ccell.2019.08.007
9. Segal JM, Kent D, Wesche DJ, et al. L'analyse de cellule unique du foie fœtal humain capture le profil transcriptionnel des progéniteurs hybrides hépatobiliaires. Nat Commun. 2019;10(1):3350. doi:10.1038/s41467-019-11266-x
10. CIRC. Fiches d'information par population-globocan-IARC ; 2019. Disponible à partir de : http://gco.iarc.fr/today/fact-sheets-cancers. Consulté le 19 août 2020.
11. Kumar M, Zhao X, Wang XW. Carcinogenèse moléculaire du carcinome hépatocellulaire et du cholangiocarcinome intrahépatique : un pas de plus vers la médecine personnalisée ? Biosciences cellulaires. 2011;1(1):5. doi:10.1186/2045-3701-1-5
12. Wu PC, Lai VC, Fang JW, Gerber MA, Lai CL, Lau JY. Le carcinome hépatocellulaire exprimant à la fois des marqueurs hépatocellulaires et biliaires exprime également la cytokératine 14, un marqueur des cellules progénitrices bipotentielles. J Hépatol. 1999;31(5):965–966.
13. Zhao W, Li Y, Zhang X. Marqueurs liés à la souche dans le cancer. Cancer Transl Med. 2017;3(3):87–95. doi:10.4103/ctm.ctm_69_16
14. Puram SV, Tirosh I, Parikh AS, et al. Analyse transcriptomique unicellulaire des écosystèmes tumoraux primaires et métastatiques dans le cancer de la tête et du cou. Cellule. 2017;171(7):1611–1624.e1624. doi:10.1016/j.cell.2017.10.044
15. Liu X, Huang J, Chen T, et al. Les facteurs Yamanaka régulent de manière critique le réseau de signalisation développemental dans les cellules souches embryonnaires de souris. Cell Res. 2008;18(12):1177–1189. doi:10.1038/cr.2008.309
16. Edgar R, Barrett T. Normes et services NCBI GEO pour les données de microréseaux. Nat Biotechnol. 2006;24(12):1471–1472. doi:10.1038/nbt1206-1471
17. Tryka KA, Hao L, Sturcke A, et al. Base de données du NCBI sur les génotypes et les phénotypes : dbGaP. Acides nucléiques Res. 2014;42(D1):D975–979. doi:10.1093/nar/gkt1211
18. Robinson MD, McCarthy DJ, Smyth GK. edgeR : un package Bioconductor pour l'analyse de l'expression différentielle des données d'expression numérique des gènes. Bioinformatique. 2010;26(1):139–140. doi:10.1093/bioinformatique/btp616
19. Robinson MD, Oshlack A. Une méthode de normalisation de mise à l'échelle pour l'analyse de l'expression différentielle des données d'ARN-seq. Génome Biol. 2010;11(3):R25. doi:10.1186/gb-2010-11-3-r25
20. McCarthy DJ, Chen Y, Smyth GK. Analyse d'expression différentielle d'expériences multifactorielles d'ARN-Seq par rapport à la variation biologique. Acides nucléiques Res. 2012;40(10):4288–4297. doi:10.1093/nar/gks042
21. Lun AT, Chen Y, Smyth GK. C'est DE-licieux : une recette pour les analyses d'expression différentielle d'expériences d'ARN-seq utilisant des méthodes de quasi-vraisemblance dans edgeR. Méthodes Mol Biol. 2016 ;1418 : 391–416.
22. Huang da W, Sherman BT, Lempicki RA. Analyse systématique et intégrative de grandes listes de gènes à l'aide des ressources bioinformatiques DAVID. Protocole Nat. 2009;4(1):44–57. doi:10.1038/nprot.2008.211
23. Pedregosa F, Varoquaux G, Gramfort A, et al. Scikit-learn : apprentissage automatique en Python. J Mach Learn Res. 2012;12:2825–2830.
24. Hunter JD. Matplotlib : un environnement graphique 2D. Informatique Sci Eng. 2007;9(3):90–95. doi:10.1109/MCSE.2007.55
25. Waskom M, Botvinnik O, Ostblom J, et al. mwaskom/seaborn : v0.10.1 (avril 2020). zénodo. 2020.
26. Wickham H. Ggplot2 : graphiques élégants pour l'analyse de données. New York : Springer-Verlag ; 2016.
27. Caracausi M, Piovesan A, Antonaros F, Strippoli P, Vitale L, Pelleri MC. Identification systématique des gènes domestiques humains éventuellement utiles comme références dans les études d'expression génique. Représentant Mol Med. 2017;16(3):2397–2410. doi:10.3892/mmr.2017.6944
28. Gattazzo F, Urciuolo A, Bonaldo P. Matrice extracellulaire : un microenvironnement dynamique pour la niche des cellules souches. Biochim Biophys Acta. 2014;1840(8):2506–2519. doi:10.1016/j.bbagen.2014.01.010
29. Nallanthighal S, Heiserman JP, Cheon DJ. Le rôle de la matrice extracellulaire dans la souche cancéreuse. Front Cell Dev Biol. 2019;7:86. doi:10.3389/fcell.2019.00086
30. Chen C, Zhao S, Karnad A, Freeman JW. La biologie et le rôle de CD44 dans la progression du cancer : implications thérapeutiques. J Hématol Oncol. 2018;11(1):64. doi:10.1186/s13045-018-0605-5
31. Liu M, Guo S, Stiles JK. Le rôle émergent de CXCL10 dans le cancer (Review). Oncol Lett. 2011;2(4):583–589. doi:10.3892/ol.2011.300
32. Rau A, Marot G, Jaffrézic F. Méta-analyse différentielle des données d'ARN-seq provenant de plusieurs études. BMC Bioinformer. 2014;15:91. doi:10.1186/1471-2105-15-91
33. Nakamura H, Fujii K, Gupta V, et al. Identification des modules clés et des gènes pivots pour le carcinome pulmonaire à petites cellules et le carcinome pulmonaire neuroendocrine à grandes cellules par analyse pondérée du réseau de co-expression génique des protéomes tissulaires cliniques. PLoS One. 2019;14(6):e0217105. doi:10.1371/journal.pone.0217105
34. Nabet BY, Qiu Y, Shabason JE, et al. Le déblindage de l'ARN exosome couple l'activation stromale à la signalisation des récepteurs de reconnaissance de formes dans le cancer. Cellule. 2017;170(2):352–366.e313. doi:10.1016/j.cell.2017.06.031
35. Van Puyenbroeck V, Vermeire K. Inhibiteurs de la translocation des protéines à travers les membranes de la voie de sécrétion : nouveaux agents antimicrobiens et anticancéreux. Cellule Mol Vie Sci. 2018;75(9):1541–1558. doi:10.1007/s00018-017-2743-2
36. Nio K, Yamashita T, Kaneko S. Le concept en évolution des cellules souches du cancer du foie. Mol Cancer. 2017;16(1):4. doi:10.1186/s12943-016-0572-9
Laisser un commentaire
Vous devez vous connecter pour publier un commentaire.