Caminando a Hombros de Gigantes: Intersección entre la Genómica y la IA
Resumen – Intersección entre la Genómica y la IA
El presente manuscrito revisa las aplicaciones actuales de la inteligencia artificial (IA) en genómica funcional. La reciente explosión de la IA sigue a los notables logros que ha hecho posible el “aprendizaje profundo”, junto con una explosión de “grandes conjuntos de datos” que pueden satisfacer su necesidad.
Esto ha sido posible gracias a los enormes avances en el campo de las tecnologías de alto rendimiento, aplicadas para determinar cómo los componentes individuales de un sistema biológico trabajan juntos para lograr diferentes procesos. Las disciplinas que contribuyen a este volumen de datos se conocen colectivamente como genómica funcional.
Consisten en estudios de: i) la información contenida en el ADN (genómica); ii) las modificaciones que el ADN puede sufrir de forma reversible (epigenómica); iii) las transcripciones de ARN originadas por un genoma (transcriptómica); iv) el conjunto de modificaciones químicas que decoran diferentes tipos de transcripciones del ARN (epitranscriptómica); v) los productos de las transcripciones que codifican proteínas (proteómica); y vi) las pequeñas moléculas producidas a partir del metabolismo celular (metabolómica) presentes en un organismo o sistema en un momento dado, en condiciones fisiológicas o patológicas.
Palabras clave: Inteligencia artificial (IA); genómica; terapia; diagnóstico; medicina de precisión.
Walking on the Shoulders of Giants: the Intersection between Genomics and AI
Abstract
The present manuscript reviews the current applications of artificial intelligence (AI) in functional genomics. The recent explosion of AI follows the remarkable achievements made possible by “deep learning”, along with a burst of “big data” that can meet its hunger.
This has been made possible by huge advancements in the field of high throughput technologies, applied to determine how the individual components of a biological system work together to accomplish different processes. The disciplines contributing to this bulk of data are collectively known as functional genomics.
They consist in studies of: i) the information contained in the DNA (genomics); ii) the modifications that DNA can reversibly undergo (epigenomics); iii) the RNA transcripts originated by a genome (transcriptomics); iv) the ensemble of chemical modifications decorating different types of RNA transcripts (epitranscriptomics); v) the products of protein-coding transcripts (proteomics); and vi) the small molecules produced from cell metabolism (metabolomics) present in an organism or system at a given time, in physiological or pathological conditions.
Keywords: Artificial intelligence (AI); Genomics; Personalized treatment; Therapy; Diagnostic; Precision medicine.
Introducción – Intersección entre la Genómica y la IA
Pocas frases han resultado tan acertadas como el motivo primario de esta entrada “Caminamos a hombros de gigantes”. Este decálogo impreso en la revolución científica del siglo XVII y expuesto ampliamente en la Philosophiæ naturalis principia mathematica recogió de manera sencilla un apotegma de máximo calado.
El sentido de la cita de Newton deja entrever que la dinámica de sus logros se apoyó, no sólo en sus propias virtudes, sino también en el conocimiento y saberes construidos por otros previamente.
El origen de esta sentencia viene de una carta que escribió Isaac Newton a Robert Hooke el 15 de febrero de 1676:
Proviene de un elocuente parafraseo a Bernard de Chartres, filósofo del siglo XII que había escrito “Somos como los enanos aupados a hombros de gigantes, de manera que podemos ver más cosas y más lejanas que ellos, no por la agudeza de nuestra vista o por nuestra elevada estatura, sino porque estamos alzados sobre ellos y nos elevamos sobre su gigantesca altura” (Según Jean de Salisbury).
Simplificando la metáfora en la visión pragmática de John McCarthy, Marvin Minsky, Nat Rochester y Claude Shannon, la inteligencia artificial (IA) es la simulación de la razón en un agente no vivo.
Posteriormente, y en el contexto diagnóstico se definió la IA como cualquier sistema o plataforma que permita interpretar adecuadamente diversos datos relacionados con salud, especialmente en su forma nativa.
Globalmente, la mayoría de las tareas de interpretación de la IA se pueden agrupar por clases de problemas incluyendo la digitalización de imágenes, el análisis de series de tiempo, reconocimiento de voz, y el procesamiento del lenguaje natural, entre otros.
Algunas de estas áreas tienen asociaciones diagnósticas que no parecen tan obvias, como la identificación de elementos reguladores del genoma a través de lectores visuales que permiten identificar lecturas anormales recurrentes en las secuencias de ADN, de forma análoga a la usada para la identificación de patrones de píxeles en imágenes por convolución (1,2).
La IA se inspira en algoritmos in vivo, amplificando su capacidad de forma exponencial.
Sin embargo, las aplicaciones de la IA en la genómica clínica están dirigidas a realizar tareas que resultan no funcionales para el utilitario humano debido a la propensión al error de los enfoques estadísticos estándares.
Muchas de las herramientas de la IA se han adaptado para abordar múltiples pasos involucrados en el análisis genómico, incluido el llamado de variantes y su clasificación, el análisis de la correspondencia entre el fenotipo y genotipo, y eventualmente, predecir la modificación dinámica del fenotipo a partir de un genotipo base (3).
La interpretación clínica del genoma es sensible a la identificación de variantes individuales entre millones que constituyen el ecosistema de una célula entre millones de ellas, evento que requiere una precisión extrema.
Las herramientas convencionales son propensas al equívoco sistemático asociado a la sutileza propia de la preparación de las muestras y librerías, a la tecnología utilizada para la secuenciación, al contexto de la secuencia, y por la influencia, muchas veces impredecible de la evolución biológica (mosIAcismo somático o cambios epigenéticos) (4).
Los algoritmos generados por la IA pueden aprender los sesgos del análisis del genoma a partir de una fuente de variantes de referencia para producir estrategias adaptativas para el llamado de variantes. DeepVariant, una plataforma para el llamado de variantes basado en redes neuronales convolucionales demostró recientemente un mayor rendimiento para la identificación de variantes a partir de dependencias complejas en la secuenciación (5).
Además, resultados recientes sugieren que el aprendizaje profundo (del inglés, deep learning) está listo para revolucionar la identificación de variantes para las tecnologías de secuenciación basadas en nanoporos (6).
Hace poco, Luo y colaboradores demostraron la utilidad de la red neuronal convolucional ClIArvoyante, un modelo capaz de reducir el margen de error del análisis de una secuencia nucleotídica bajo el 5%.
Este sistema disponible en código abierto obtuvo puntajes superiores al 90% para la predicción de variantes (incluyendo SNP o indels) obtenidas a partir de las plataformas Illimina, PacBio y Oxford Nanopore. El modelo de IA fue reproducible en muestras independientes y logró encontrar variantes en menos de 2 horas en un servidor estándar (7).
Clasificación de variantes – Intersección entre la Genómica y la IA
Se han desarrollado diversos métodos para la clasificación de variantes no sinónimas (8).
Algunos, se han integrado en meta-predictores basados en aprendizaje profundo (modelos que procesan y fusionan las predicciones producidas por varios otros predictores) que superan tanto a sus componentes individuales como a la combinación de estos cuando se integran mediante una regresión.
Por ejemplo, el enfoque combinado de agotamiento dependiente de anotaciones (CADD, por su denominación en inglés combined annotationdependent depletion approach) integra una variedad de características en un algoritmo de aprendizaje automático enfocado en predecir la patogenicidad de las variantes genéticas.
Una extensión de CADD basada en aprendizaje profundo, denominada DANN (del ingles, Domain-Adversarial Training of Neural Networks), demostró un rendimiento mejorado utilizando el mismo conjunto de características de entrada que CADD, pero combinadas en una red neuronal profunda (9).
No obstante, por el momento la precisión en la clasificación de las variantes no ha resultado suficiente para facilitar la interpretación de los informes clínicos. Otros métodos basados en IA hacen predicciones a partir de datos de sencuencias proteicas o de ADN con un mínimo de elaboración manual. El enfoque de Primate IA que utilizó una red neuronal convolucional usó información de especies cruzadas para facilitar el análisis.
La red pudo aprender dominios de diferentes proteínas relevantes, aminoácidos conservados y mutaciones patogénicas con representatividad en múltiples enfermedades. PrimateIA integró su entrenamiento a partir de 120.000 muestras humanas y superó sustancialmente el rendimiento de otras herramientas de uso regular para la predicción de variantes patogénicas incluidas en Clinvar (10).
Clasificación de variantes no codificantes – Intersección entre la Genómica y la IA
La identificación computacional y la predicción de la variación patogénica de regiones no codificantes sigue siendo un desafío abierto para la genómica humana.
Hallazgos recientes sugieren que los algoritmos de IA mejorarán sustancialmente nuestra capacidad para comprender la variación genética de las regiones no codificantes.
Los defectos en el empalme génico son responsables del 10% de la variación genética patogénica, suelen ser raros y difíciles de identificar debido a la complejidad de los potenciadores de empalme (splicing enhancers) intrónicos y exónicos.
SpliceIA, es una red neuronal profunda de 32 capas capaz de predecir empalmes canónicos y no canónicos directamente a partir de los datos de una secuencia de unión exón-intrón (11) (Figura 1).
Figura 1. SpliceIA, una red neuronal profunda que modela con precisión el empalme de ARNm a partir de una secuencia genómica y predice la presencia de mutaciones de cripticas no codificantes en pacientes con enfermedades genéticas raras.
Sorprendentemente, SpliceIA pudo usar información de una secuencia de largo alcance (long-range sequence) aumentar la precisión para predecir desde un 57%, utilizando un tamaño de ventana corto (80 nucleótidos) típico para muchas herramientas de predicción de empalme, hasta el 95% cuando se usó el algoritmo de IA.
De igual forma, el modelo de IA fue capaz de identificar variantes candidatas de empalme críptico (ocultas) subyacentes a los trastornos del neurodesarrollo. Otro enfoque basado en aprendizaje profundo (DeepSEA) mejoró sustancialmente la capacidad para predecir la presencia de sitios hipersensibles a la ADNasa, diversas vías de transcripción y los cambios estructurales en las histonas (12).
Como ejemplo, varias extensiones del modelo DeepSEA usadas en secuencias genómicas de familias con trastornos del espectro autista han revelado mutaciones de novo en segmentos no codificantes (13).
En paralelo, extensiones del algoritmo ExPecto revelaron una mejoría en la capacidad pronóstica de diferentes perfiles de expresión génica extraídos a partir de secuencias de ADN germinal y somático (14).
Mapeo fenotipo-genotipo – Intersección entre la Genómica y la IA
El genoma humano contiene numerosas variantes genéticas patogénicas o potencialmente patogénicas (15), independientemente del estado de salud del individuo estudiado (16).
Los algoritmos de IA han permitido mejorar el mapeo fenotipo-genotipo, especialmente a través de la extracción de información derivada del diagnóstico clínico, la integración de imágenes y el uso de datos derivados de registros electrónicos de la historia clínica.
Considerando la utilidad de las imágenes dentro del procesamiento del diagnóstico genético, el desarrollo de la estructura facial constituye un ejemplo perfecto. La ontología del fenotipo humano enumera 1.007 términos para las anomalías faciales; estas alteraciones están asociadas con 4.526 enfermedades y 2.142 genes.
Un experto en dismorfología a menudo identificará estas anomalías de manera individual y las sintetizará en un diagnóstico puntual o la conjunción de estos. Es así como el diagnóstico clínico puede enfocar la secuenciación de genes específicos basado en el fenotipo dominante. A menudo, el diagnóstico clínico y los hallazgos moleculares se superponen, pero no coinciden con precisión debido a la similitud fenotípica de múltiples alteraciones nosológicas bien caracterizadas.
DeepGestalt, es un algoritmo de análisis de imágenes faciales basado en redes neuronales convolucionales que supera la valoración clínica, siendo lo suficientemente preciso para distinguir entre diagnósticos moleculares asignados a un mismo diagnóstico (por decir algo, diversas formas moleculares del síndrome de Noonan) (17) (Figura 2).
Figura 2A. DeepGestalt, flujo de alto nivel. La imagen de entrada se procesa primero para lograr una detección del perfil facial, para la detección de puntos de referencia y su alineación. Después del preprocesamiento, la imagen de entrada se recorta en regiones. Luego, cada región alimenta una red neuronal convolucional para obtener un vector softmax que indica su correspondencia con cada síndrome en el modelo. Los vectores de salida de cada estrato de la red neuronal convolucional se agregan y clasifican para obtener la lista que se correlaciona con el patrón genómico. El histograma del lado derecho representa los síndromes de salida del DeepGestalt, ordenados por la puntuación de similitud. B. Fotografías compuestas de pacientes con síndrome de Noonan con diferentes genotipos y diferencias faciales sutiles caracterizados a través del DeepGestalt. Foto publicada con el consentimiento de los padres y reproducida con autorización de Gurovich Y, Hanani Y, Bar O, et al. Identifying facial phenotypes of genetic disorders using deep learning. Nat Med. 2019 Jan;25(1):60-64 (17).
Al integrar DeepGestalt con PEDIA (sistema de interpretación del genoma que integrado), el modelo fue capaz de utilizar características fenotípicas extraídas de fotografías faciales para priorizar con precisión variantes patogénicas candidatas para 105 trastornos monogénicos diferentes en una población de 679 casos analizados (18).
Estos hallazgos han permitido conjeturar acerca de la utilidad del DeepGestalt en la realización de escaneo facial dinámico facilitando la identificación de numerosos síndromes genéticos (19), entre otros, el síndrome de Cornelia de Lange, diagnosticado por IA con una exactitud del 98,6% (75-85% para la evaluación clínica), o el síndrome de Angelman determinado con una precisión del 92% (72% para el diagnóstico clínico) (17).
A pesar de la notable integración entre la genómica y la IA, aún persisten los sesgos propios de la selección en el proceso de aprendizaje.
Por ejemplo, el DeepGestalt mostró precisión marginal para la identificación del síndrome de Down en individuos de ascendencia africana versus caucásicos europeos (36,8% frente a 80%, respectivamente) (18).
El reentrenamiento del modelo con ejemplos del síndrome de Down en sujetos de raza negra mejoró el perfil diagnóstico con una precisión cercana al 95%, dejando claro que el rendimiento inicial es propenso a la desigualdad interpoblacional favorecida por la subrepresentación muestral en el grupo de entrenamiento (19).
Los síndromes genéticos que se identifican a través del análisis facial se pueden confirmar por el análisis genómico:
Sin embargo, en el caso del cáncer, el fenotipo tumoral o las imágenes diagnósticas son incapaces de priorizar y predecir el patrón de las alteraciones somáticas del ADN.
La IA ha permitidos disminuir la brecha entre el análisis fenotípico derivado de las imágenes y el origen genómico de las neoplasias sólidas.
Un modelo de red neuronal convolucional integrado con datos de supervivencia pudo reconocer las características histológicas de los tumores cerebrales gliales, prediciendo las alteraciones canónicas y la respuesta al tratamiento (20).
De forma general, algunos sistemas de visión computarizada basados en IA pueden predecir las aberraciones genómicas presentes en individuos con fenotipos complejos integrados en imágenes relevantes (20).
De la historia clínica electrónica al diagnóstico genético – Intersección entre la Genómica y la IA
El fenotipo de algunas enfermedades puede ser complejo y presentar un evolutivo multidimensional.
Estas diferencias suelen ser capturadas por las imágenes diagnósticas, diferentes análisis bioquímicos, y el uso de biomarcadores de precisión, ensayos que se pueden ser solicitados en diferentes momentos de la enfermedad y por diversos profesionales en el curso de la identificación de un diagnóstico diferencial (21).
Estos resultados se documentan en la historia clínica electrónica donde se sintetizan los hallazgos para facilitar la toma de decisiones y comunicar las decisiones clínicas. Los sistemas de IA facilitan el reconocimiento de patrones en estos registros. Un estudio reciente que involucró más de 500.000 pacientes utilizó un modelo para procesamiento natural del lenguaje (Natural language processing) basado en IA para extraer características clínicamente relevantes de la información consignada (22).
Después de entrenar al modelo estadístico jerárquico y escalonado sobre la base de divisiones anatómicas se generó un sistema diagnóstico adaptado capaz de diferenciar 55 diagnósticos pediátricos comunes con un 92% de precisión.
En paralelo, el uso del modelo vinculado a información genómica permitió estratificar enfermedades raras en los niños y clasificar coincidencias con variantes patogénicas extraídas del análisis del genoma de los pacientes (23).
En 101 niños con 105 enfermedades genéticas, la valoración retrospectiva de los diagnósticos genómicos por vía automatizada coincidió con la interpretación humana experta con un 99% de precisión (24).
Desafíos en la interpretación de la genómica tumoral – Intersección entre la Genómica y la IA
La secuenciación de próxima generación (NGS, Next Generation Sequencing) ha revolucionado la investigación biomédica permitiendo la generación de estudios multicapa que integran datos genómicos en diversas dimensiones, incluyendo el ADN-seq y la ARN-seq, así como información multiómica que incluye al proteoma, epigenoma, metaboloma, microbioma, etc (25).
Esta fusión proporciona una visión más completa de los procesos y sistemas biológicos, lo que conduce a una mejor comprensión de la enfermedad, especialmente en comparación con el análisis de una sola capa. Sin embargo, existen varios desafíos para la traducción de datos multiómicos en biomarcadores clínicamente procesables.
Primero, combinar perfiles de datos en varios niveles daría como resultado una alta dimensionalidad con un gran número de covariables. La escasez de datos de alta dimensionalidad asociada con la alta heterogeneidad entre los diversos tipos de datos impone una dificultad significativa en los análisis integrativos.
Se han desarrollado diferentes técnicas para reducir estas dimensiones, incluyendo el análisis de co-inercia múltiple y el análisis de factores múltiples, diseños útiles para facilitar los análisis en la transcripción corriente abajo (down stream signaling).
Varios marcos se han utilizado para la integración, incluyendo los enfoques basados en redes que utilizan algoritmos gráficos para capturar interacciones potenciales entre las redes moleculares, y modelos bayesianos de varios niveles que imponen suposiciones realistas para la estimación de parámetros a través de una estructura de entrada y salida (26,27).
En segundo lugar, la integración de datos multiómicos requiere la mejor progresiva de los estándares para la generación de resultados, facilitando la interpretación y reduciendo el sesgo.
Por otra parte, los procedimientos para la adquisición y preparación de las muestras deben estar correctamente regulados para cada una de las plataformas de secuenciación y entre ellas.
Por ejemplo, para la información derivada del análisis por NGS se necesita material de referencia (CLSI QMS01-A 2018; CLSI MM01A3E 2018; NIST 2018) cuyas propiedades sean suficientemente homogéneas y estén bien establecidas para la calibración del sistema de secuenciación. Y por último, pero no menos importante, se necesitan estudios bien diseñados que permitan hacer inferencia causal para filtrar los biomarcadores que tienen fuertes efectos predictivos (28).
La diversidad de la evidencia puede contribuir con la inferencia patogénica de las variantes, incluidos datos genéticos, informáticos y experimentales. A nivel genético, las variantes patogénicas pueden enriquecerse significativamente a partir del análisis de casos y controles y/o ante la evidencia de una variante germinal que afecta el estado de la enfermedad dentro de una familia afecta.
En el nivel informático, las variantes patogénicas se pueden encontrar en el lugar que se predice que causará una alteración funcional (región de unión a proteínas). Y a nivel experimental, las variantes patogénicas pueden alterar significativamente los niveles, el empalme o la función bioquímica normal del producto de los genes afectados. Esto puede mostrarse en células de pacientes o bien puede ser validado con modelos in vitro o in vivo (29,30).
El avance de las tecnologías relacionadas con machine learning está destinado a afectar la interpretación de los datos provenientes de la secuenciación genómica, que tradicionalmente se basó en la curación manual.
Estos esfuerzos de purificación se basan en la estructura de proteínas, estudios funcionales y, más recientemente, en modelos “in silico” que predicen el impacto funcional de la alteración genética usando plataformas como SIFT, PANTHER-PSEP, PolyPhen2 y otros (30).
En adición, las bases de datos genómicas como ClinVar, COSMIC y OncoKB han proliferado como medio para compilar de manera concisa una colección de las variantes genéticas (Figura 3).
Figura 3. Repertorio de plataformas que integran IA para el llamado y análisis de variantes
génicas – Intersección entre la Genómica y la IA
En general, proporcionan la evidencia que respalda la clasificación de una variante como patogénica, benigna o de significado desconocido (VUS).
Dos de las limitaciones clave de la curación e interpretación manual de los resultados derivados de datos genómicos crudos son la escalabilidad y la reproducibilidad. Estos desafíos continúan creciendo a medida que se dispone de más información. La cantidad de expertos en clasificación de variantes y la cantidad de tiempo que pueden dedicar diariamente a esta tarea es limitada.
Para abordar estas limitaciones, varias organizaciones están trabajando en crear y estandarizar protocolos para la clasificación de variantes, incluyendo el American College of Medical Genetics and Genomics y la Association for Molecular Pathology (ACMG-AMP), quienes ya publicaron una serie de directrices para la interpretación de variantes genéticas de la línea germinal y somática para genes causantes de trastornos hereditarios y del cáncer (31,32).
Sin embargo, la capacidad de escalar la interpretación de variantes provenientes de los estudios de NGS, especialmente en cáncer, sigue siendo limitada, requiere validación y un estricto control de calidad (33).
Recientemente se presentó la plataforma OncoTree que incluye 886 tipos de tumores originados en 32 complejos tisulares; esta plataforma fue adoptada como sistema de clasificación para el proyecto Genomics Evidence Neoplasia Information Exchange (GENIE) de la Asociación Estadounidense para la Investigación del Cáncer (AACR), un gran consorcio de intercambio de datos genómicos y clínicos, para amplificar y unificar el esfuerzo de OncoKB y cBioPortal for Cancer Genomics (34).
Cómo la integración de la NGS y la IA están cambiando el panorama de la genómica tumoral – Intersección entre la Genómica y la IA
Actualmente, la NGS se aplica ampliamente como método valioso para obtener un perfilamiento genómico exhaustivo. Gracias a esta tecnología se ha logrado secuenciar simultáneamente millones de fragmentos de ADN en una sola muestra para detectar una amplia gama de aberraciones propias del cáncer.
Los paneles de cáncer están diseñados específicamente para detectar mutaciones somáticas y germinales clínicamente relevantes. De igual forma, la caracterización molecular usando NGS por biopsia líquida facilita el diagnóstico temprano, la evaluación de la heterogeneidad tumoral y de la enfermedad mínima residual siguiendo un principio no invasivo.
Gracias a estos modelos de tipificación genómica se abrieron proyectos como el Cancer Genome Atlas (por su sigla en inglés, TCGA) que ha permitido el descubrimiento de nuevos mecanismos oncogénicos y la estratificación de pacientes y enfermedades (35).
La información utilizada para dilucidar los mecanismos primarios en la evolución del cáncer ha permitido elucidar el metabolismo oxidativo de las células tumorales (36), validar la utilidad de biomarcadores predictivos como la metilación del promotor de la MGMT en tumores de estirpe glial (37), proyectar el efecto terapéutico de la inmunoterapia en cáncer gástrico (38), confirmar la utilidad in silico de mutaciones particulares en cáncer de pulmón (38), y considerar a la transición epitelio mesenquimal como parte de la resistencia en cáncer de seno (39), entre muchos otros.
Uno de los mayores retos de la genómica tumoral está asociado con el llamado, depuración e interpretación de las variantes.
Frecuentemente, los usuarios necesitan ajustar los parámetros de forma heurística y aplicar filtros personalizados para eliminar los falsos positivos antes de lograr una precisión aceptable. Este es un esfuerzo que requiere tiempo y experiencia para ajustar las puntuaciones de calidad y los atributos dentro de los contextos de secuenciación.
Diferentes grupos están aprovechando algoritmos de aprendizaje automático y el entrenamiento en las características de calidad subyacentes para mejorar el rendimiento del llamado de variantes, especialmente en escenarios subóptimos (40-43).
Estos, han permitido establecer el valor de la ploidia como factor que contribuye con la complejidad de la enfermedad. De igual forma, contribuyeron para establecer el valor de las variantes subclonales (presentes solo en unas pocas células), difíciles de detectar porque su representación en la librería de secuenciación suele ser baja.
Este hallazgo resulta en una mayor variabilidad entre los métodos de análisis, los umbrales y las puntuaciones de calidad que pueden no ser lo suficientemente flexibles para detectar la evolución subclonal de la enfermedad (41).
En lugar de configurar reglas estáticas, los métodos de IA permiten ajustar los umbrales de forma dinámica en función de los patrones de expresión génica.
Las variantes con frecuencias alélicas muy bajas aún se pueden informar si la profundidad de secuenciación y otras métricas de calidad superan los umbrales. Por ejemplo, un modelo de red neuronal convolucional cuyos algoritmos se utilizan a menudo en el reconocimiento de imágenes logró una puntuación F1 de 0,96 y pudo alcanzar variantes con una frecuencia de alelos tan baja como 0,0001 (la puntuación F1 es una medida que tiene en cuenta tanto la precisión como la memoria) (44).
En otro caso, un enfoque basado en machine learning aplicado a los datos de NGS mostró una precisión mejorada (medida por la puntuación F1) en la identificación de mutaciones tumorales en comparación con otros programas existentes como MuTect1, MuTect2, SomaticSniper, Strelka, VarDict y VarScan2. Si bien sus valores de recuperación fueron similares, la plataforma de IA mostró mayor precisión (45).
Se han descrito éxitos similares para el análisis de variación del número de copias (CNV) (46,47).
Además de los paradigmas para la detección de variantes estándar, DeepVariant de Google transformó un problema de convencional en otro para el reconocimiento de imágenes al convertir un archivo BAM en imágenes similares a las instantáneas del navegador del genoma, donde el llamado de variantes se hace utilizando el marco para un flujo de tensor de inicio (del ingles, Inception Tensor Flow) que se desarrolló originalmente para la clasificación visual computarizada (48).
Otro estudio reciente aplicó con éxito el machine learning para la secuenciación de datos de múltiples regiones de un tumor, permitiendo identificar y aprender patrones de crecimiento como predictores precisos de la progresión del tumor (49).
Adicionalmente, se están entrenando otros modelos de IA para caracterización de estructuras secundarias incluyendo fosforilación proteica en respuesta a la administración de medicamentos (contemplando la dosis biológica efectiva) (50). Finalmente, el proceso de depuración depende de la homologación de decisiones de la IA a partir de nociones clínicas con enorme variabilidad intra e interindividual (Figura 4).
Figura 4. Interacción dinámica desde la clínica (información relacional de la sintomatología, imágenes y características del paciente integradas en la historia clínica electrónica) hacia la genómica y bioinformática a través de algoritmos de análisis multicapa que permiten la subselección de intervenciones terapéuticas basadas en medicina de precisión.
Para validar el papel de múltiples modelos de aprendizaje de máquina (del inglés, machine learning), el hospital Mash General diseñó un estudio que incluyó ~500 características clínicas y cerca de 20.000 variantes somáticas con potencial en la toma de decisiones.
La comparación de la estructura de IA contra la mesa multidisciplinaria de discusión genómica (del inglés, Genomic Tumor Board) demostró que el uso de una escala basada en regresión logística tuvo una tasa de falsos negativos y positivos del 1 y 2%, respectivamente, hallazgo que resultó comparable a las decisiones humanas (51).
Por otra parte, el volumen de literatura médica relacionado con genómica tumoral resulta inmanejable (~165.000/año). Esta dimensión podría llegar a ser manejable usando herramientas que contemplen el procesamiento natural del lenguaje para reducir el tiempo y esfuerzo necesarios para la recuperación de la información que permita la generación de nuevas hipótesis basadas en la mejor evidencia (Figura 5). La minería de datos también ha permitido el reconocimiento de entidades a través de proceso digitales de nominación 8Bio-NER) facilitando la extracción de referencias en medicina de precisión.
Figura 5. Número de publicaciones frente al año de indexación. En esta figura se representan dos ejes “y”, uno exhibe el número de artículos relacionados con genómica tumoral, y el otro, el número de manuscritos asociados con genómica más NLP. El eje “x” representa el año de publicación. Tomado y modificado con autorización de Xu J, Yang P, Xue S, et al. Translating cancer genomics into precision medicine with artificial intelligence: applications, challenges and future perspectives. Hum Genet. 2019 Feb;138(2):109-124. doi: 10.1007/s00439-019-01970-5.
Desafortunadamente, no existe un estándar universal para denominar las variantes genéticas y existen múltiples formas de presentar el mismo evento en la literatura y en las bases de datos genómicas.
Para consolidar el conocimiento sobre variantes patogénicas a partir de la literatura e integrarlas con los datos curados en recursos existentes como ClinVar y COSMIC, resulta esencial el uso correcto de la nomenclatura HGVS así como la introducción del número de identificación del SNP (variante de un solo nucleótido) de referencia (RSID) (52).
Recientemente, se han aplicado varios métodos de aprendizaje profundo al reconocimiento de entidades con nombre biomédico y sus respectivas alteraciones genéticas con una ganancia significativa en el rendimiento para integrar mejor las características multidimensionales y, al mismo tiempo, minimizar los requerimientos manuales (53).
Retos para la implementación y uso de la IA en el ámbito de la genómica – Intersección entre la Genómica y la IA
La evaluación de la precisión de la IA en relación con la genómica es fundamental para titular el funcionamiento de los sistemas solventando el precepto de la “caja negra”. En la genómica tiene especial importancia la clasificación de variantes y su relevancia clínica, la validación de la literatura y la clasificación de vectores que permiten el diseño de biomarcadores.
A pesar de la abundancia de información clínica y cruda de datos genómicos, la protección individual de estos documentos por las pautas HIPPA (Health Insurance Portability and Accountability Act) y GDPR (Reglamento General de Protección de Datos) limita el acceso a su estudio y uso para la capacitación y evaluación de los sistemas de IA aplicables al diseño de planes personalizados de tratamiento. En adición, la reproducibilidad de los resultados experimentales incluidos en los estudios de IA sigue siendo un problema para la implementación en la práctica clínica regular.
Debido a que los algoritmos de aprendizaje suelen tener múltiples componentes ajustables, el rendimiento suele verse afectado por la sensibilidad de la escala y calidad de los datos de entrenamiento, la configuración empírica de los parámetros, y los procesos de inicialización y optimización.
Muchas publicaciones no revelan los supuestos simplificadores o los detalles de implementación y, por lo tanto, dificultan la reproducción de los resultados. Finalmente, la mayoría de los estudios no comparte el código fuente.
Conclusión – Intersección entre la Genómica y la IA
Si bien la salud digital se ha vuelto esencial para brindar las mejores prácticas en el cuidado sanitario, plantea desafíos sin precedentes para los pacientes, investigadores y para la comunidad biomédica, en especial, cuando confluye con la complejidad de la medicina de precisión y los análisis multiómicos.
Por el momento, la intersección entre la IA y la genómica semeja a gigantes entre los gigantes, recordando la respuesta que algún día diera Isaac Asimov a la pregunta sobre el científico más grande de la historia.
Después de quedarse unos segundos en silencio, replicó entre dientes “La historia probablemente aún no lo ha visto, sin embargo, tengo dudas sobre a quién colocar en segundo lugar”. Entonces, Asimov consideraba que para este lugar ya había una dura liza entre Albert Einstein, Ernest Rutherford, Niels Borh, Louis Pasteur, Charles Darwin, Galileo Galilei, Arquímedes y algunos otros.
Lo que sí tenía claro, era que al menos hasta donde su visión alcanzó, el mayor talento había sido de Isaac Newton. La IA transformará la historiografía de la biología molecular aplicada, en especial, para patologías complejas como el cáncer, donde la fuente del análisis avanzado de datos ya lo ha hecho y lo seguirá haciendo.
Nada ha sido más estimulante que tener la oportunidad de vivirlo, nada vale más que reconocer que “antes pensábamos que nuestro futuro estaba en las estrellas, ahora sabemos que está en nuestros genes” (James Watson), y la IA está al servicio de la curiosidad para leerlos.
Referencias – Intersección entre la Genómica y la IA
1. Torkamani A, Andersen KG, Steinhubl SR, Topol EJ. High-definition medicine. Cell. 2017;170:828–43.
2. Leung MKK, Xiong HY, Lee LJ, Frey BJ. Deep learning of the tissue-regulated splicing code. Bioinformatics. 2014;30:i121–9.
3. Jaganathan K, Kyriazopoulou Panagiotopoulou S, McRae JF, Darbandi SF, Knowles D, Li YI, et al. Predicting splicing from primary sequence with deep learning. Cell. 2019;176:535–48.
4. Quang D, Xie X. DanQ: a hybrid convolutional and recurrent deep neural network for quantifying the function of DNA sequences. Nucleic Acids Res. 2016;44:e107.
5. Poplin R, Chang PC, Alexander D, Schwartz S, Colthurst T, Ku A, et al. A universal SNP and small-indel variant caller using deep neural networks. Nat Biotechnol. 2018;36:983–7.
6. Wick RR, Judd LM, Holt KE. Performance of neural network basecalling tools for Oxford nanopore sequencing. Genome Biol. 2019;20:129.
7. Luo R, Sedlazeck FJ, Lam TW, Schatz MC. A multi-task convolutional deep neural network for variant calling in single molecule sequencing. Nat Commun. 2019 Mar 1;10(1):998.
8. Tang H, Thomas PD. Tools for predicting the functional impact of nonsynonymous genetic variation. Genetics. 2016;203:635–47.
Otras Referencias – Intersección entre la Genómica y la IA
9. Quang D, Chen Y, Xie X. DANN: a deep learning approach for annotating the pathogenicity of genetic variants. Bioinformatics. 2015;31:761–3.
10. Landrum MJ, Lee JM, Benson M, Brown GR, Chao C, Chitipiralla S, et al. ClinVar: improving access to variant interpretations and supporting evidence. Nucleic Acids Res. 2018;46:D1062–7.
11. FDA approves stroke-detecting AI software. Nat Biotechnol. 2018;36:290.
12. Zhou J, Troyanskaya OG. Predicting effects of noncoding variants with deep learning-based sequence model. Nat Methods. 2015;12:931–4.
13. Zhou J, Park CY, Theesfeld CL, Wong AK, Yuan Y, Scheckel C, et al. Whole-genome deep-learning analysis identifies contribution of noncoding mutations to autism risk. Nat Genet. 2019;51:973–80.
14. Zhou J, Theesfeld CL, Yao K, Chen KM, Wong AK, Troyanskaya OG. Deep learning sequence-based ab initio prediction of variant effects on expression and disease risk. Nat Genet. 2018;50:1171–9.
15. Telenti A, Pierce LCT, Biggs WH, Di Iulio J, Wong EHM, Fabani MM, et al. Deep sequencing of 10,000 human genomes. Proc Natl Acad Sci U S A. 2016;113:11901–6.
16. Erikson GA, Bodian DL, Rueda M, Molparia B, Scott ER, Scott-Van Zeeland AA, et al. Whole-genome sequencing of a healthy aging cohort. Cell. 2016;165:1002–11.
Bibliografías – Intersección entre la Genómica y la IA
17. Gurovich Y, Hanani Y, Bar O, Nadav G, Fleischer N, Gelbman D, et al. Identifying facial phenotypes of genetic disorders using deep learning. Nat Med. 2019;25:60–4.
18. Lumaka A, Cosemans N, Lulebo Mampasi A, Mubungu G, Mvuama N, Lubala T, et al. Facial dysmorphism is influenced by ethnic background of the patient and of the evaluator. Clin Genet. 2017;92:166–71.
19. Martin AR, Kanai M, Kamatani Y, Okada Y, Neale BM, Daly MJ. Clinical use of current polygenic risk scores may exacerbate health disparities. Nat Genet. 2019;51:584–91.
20. Hsieh T-C, Mensah MA, Pantel JT, Aguilar D, Bar O, Bayat A, et al. PEDIA: prioritization of exome data by image analysis. Genet Med. 2019.
21. Dolgin E. AI face-scanning app spots signs of rare genetic disorders. Nature. 2019.
22. Mobadersany P, Yousefi S, Amgad M, Gutman DA, Barnholtz-Sloan JS, Velázquez Vega JE, et al. Predicting cancer outcomes from histology and genomics using convolutional networks. Proc Natl Acad Sci U S A. 2018;115:E2970–9.
23. Clark MM, Hildreth A, Batalov S, Ding Y, Chowdhury S, Watkins K, et al. Diagnosis of genetic diseases in seriously ill children by rapid whole-genome sequencing and automated phenotyping and interpretation. Sci Transl Med. 2019;11:eaat6177.
24. Lello L, Avery SG, Tellier L, Vazquez AI. de los Campos G, Hsu SDH. Accurate genomic prediction of human height. Genetics. 2018;210:477–97.
Otras Bibliografías – Intersección entre la Genómica y la IA
25. Wang B, Mezlini AM, Demir F, et al. Similarity network fusion for aggregating data types on a genomic scale. Nat Methods. 2014 Mar; 11(3):333-7.
26. Meng C, Zeleznik OA, Thallinger GG, et al. Dimension reduction techniques for the integrative analysis of multiomics data. Brief Bioinform. 2016 Jul; 17(4):628-41.
27. Bersanelli M, Mosca E, Remondini D, et al. Methods for the integration of multi-omics data: mathematical aspects. BMC Bioinformatics. 2016 Jan 20; 17 Suppl 2:15.
28. Ibrahim R, Pasic M, Yousef GM. Omics for personalized medicine: defining the current we swim in. Expert Rev Mol Diagn. 2016 Jul;16(7):719-22.
29. MacArthur DG, Manolio TA, Dimmock DP, et al. Guidelines for investigating causality of sequence variants in human disease. Nature. 2014 Apr 24; 508(7497):469-76.
30. Tang H, Thomas PD. Tools for Predicting the Functional Impact of Nonsynonymous Genetic Variation. Genetics. 2016 Jun; 203(2):635-47.
31. Richards S, Aziz N, Bale S, et al; ACMG Laboratory Quality Assurance Committee. Standards and guidelines for the interpretation of sequence variants: a joint consensus recommendation of the American College of Medical Genetics and Genomics and the Association for Molecular Pathology. Genet Med. 2015 May;17(5):405-24.
32. Li MM, Datto M, Duncavage EJ, et al. Standards and Guidelines for the Interpretation and Reporting of Sequence Variants in Cancer: A Joint Consensus Recommendation of the Association for Molecular Pathology, American Society of Clinical Oncology, and College of American Pathologists. J Mol Diagn. 2017 Jan;19(1):4-23.
Lecturas Recomendadas – Intersección entre la Genómica y la IA
33. Lindeman NI, Cagle PT, Aisner DL, et al. Updated Molecular Testing Guideline for the Selection of Lung Cancer Patients for Treatment With Targeted Tyrosine Kinase Inhibitors: Guideline From the College of American Pathologists, the International Association for the Study of Lung Cancer, and the Association for Molecular Pathology. J Mol Diagn. 2018 Mar;20(2):129-159. doi: 10.1016/j.jmoldx.2017.11.004. Epub 2018 Jan 23.
34. Kundra R, Zhang H, Sheridan R, et al. OncoTree: A Cancer Classification System for Precision Oncology. JCO Clin Cancer Inform. 2021 Feb;5:221-230. doi: 10.1200/CCI.20.00108.
35. Weinstein JN, Collisson EA, Mills GB, et al; Cancer Genome Atlas Research Network. The Cancer Genome Atlas Pan-Cancer analysis project. Nat Genet. 2013 Oct; 45(10):1113-20.
36. Davis RJ, Gönen M, Margineantu DH, et al. Pan-cancer transcriptional signatures predictive of oncogenic mutations reveal that Fbw7 regulates cancer cell oxidative metabolism. Proc Natl Acad Sci U S A. 2018 May 22;115(21):5462-5467.
37. Castro M, Pampana A, Alam A, et al. Combination chemotherapy versus temozolomide for patients with methylated MGMT (m-MGMT) glioblastoma: results of computational biological modeling to predict the magnitude of treatment benefit. J Neurooncol. 2021 Jul;153(3):393-402. doi: 10.1007/s11060-021-03780-0.
38. Zhang Z, He T, Huang L, et al. Immune gene prognostic signature for disease free survival of gastric cancer: Translational research of an artificial intelligence survival predictive system. Comput Struct Biotechnol J. 2021 Apr 12;19:2329-2346. doi: 10.1016/j.csbj.2021.04.025.
39. Nosi V, Luca A, Milan M, et al. MET Exon 14 Skipping: A Case Study for the Detection of Genetic Variants in Cancer Driver Genes by Deep Learning. Int J Mol Sci. 2021 Apr 19;22(8):4217. doi: 10.3390/ijms22084217.
40. Chakraborty D, Ivan C, Amero P, et al. Explainable Artificial Intelligence Reveals Novel Insight into Tumor Microenvironment Conditions Linked with Better Prognosis in Patients with Breast Cancer. Cancers (Basel). 2021 Jul 9;13(14):3450. doi: 10.3390/cancers13143450.
Otras Lecturas Recomendadas – Intersección entre la Genómica y la IA
41. Ding J, Bashashati A, Roth A, et al. Feature-based classifiers for somatic mutation detection in tumour-normal paired sequencing data. Bioinformatics. 2012 Jan 15; 28(2):167-75.
42. Hao Y, Xuei X, Li L, et al. RareVar: A Framework for Detecting Low-Frequency Single-Nucleotide Variants. J Comput Biol. 2017 Jul;24(7):637-646.
43. Spinella JF, Mehanna P, Vidal R, et al. SNooPer: a machine learning-based method for somatic variant identification from low-pass next-generation sequencing. MC Genomics. 2016 Nov 14;17(1):912.
44. ST, et al (2018) Deep learning mutation prediction enables early-stage lung cancer detection in liquid biopsy. IN: ICLR 2018 conference, Vancouver.
45. Wood DE, White JR, Georgiadis A, et al. A machine learning approach for somatic mutation discovery. Sci Transl Med. 2018 Sep 5;10(457):141.
46. Antaki D, Brandler WM, Sebat J. SV2: accurate structural variation genotyping and de novo mutation detection from whole genomes. Bioinformatics. 2018 May 15; 34(10):1774-1777.
47. Onsongo G, Baughn LB, Bower M, et al. CNV-RF Is a Random Forest-Based Copy Number Variation Detection Method Using Next-Generation Sequencing. J Mol Diagn. 2016 Nov; 18(6):872-881.
48. Going Deeper with Convolutions (2014) arXiv:1409.4842v1.
Fuentes Bibliográficas – Intersección entre la Genómica y la IA
49. Caravagna G, Giarratano Y, Ramazzotti D, et al. Detecting repeated cancer evolution from multi-region tumor sequencing data. Nat Methods. 2018 Sep;15(9):707- 714.
50. Qi H, Zhang H, Zhao Y, et al. MVP predicts the pathogenicity of missense variants by deep learning. Nat Commun. 2021 Jan 21;12(1):510. doi: 10.1038/s41467-020- 20847-0.
51. Zomnir MG, Lipkin L, Pacula M, et al. Artificial Intelligence Approach for Variant Reporting. JCO Clin Cancer Inform. 2018;2:CCI.16.00079. doi: 10.1200/CCI.16.00079. Epub 2018 Mar 22.
52. Krallinger M, Vazquez M, Leitner F, et al. The ProteinProtein Interaction tasks of BioCreative III: classification/ ranking of articles and linking bio-ontology concepts to full text. BMC Bioinformatics. 2011 Oct 3;12 Suppl 8(Suppl 8):S3. doi: 10.1186/1471-2105-12-S8-S3. 53. Habibi M, Weber L, Neves M, et al. Deep learning with word embeddings improves biomedical named entity recognition. Bioinformatics. 2017 Jul 15;33(14):i37-i48..
Autores – Intersección entre la Genómica y la IA
1 Andrés F. Cardona, Dirección de Investigación y Educación, Centro de Tratamiento e Investigación sobre cáncer Luis Carlos Sarmiento Angulo (CTIC), Bogotá, Colombia.
2 Alejandro Ruíz-Patiño, July Rodríguez, Fundación para la Investigación Clínica y Molecular Aplicada del Cáncer – FICMAC, Bogotá, Colombia.
3 Andrés F. Cardona, Alejandro Ruíz-Patiño, Elvira Jaller, July Rodríguez, Grupo de Investigación en Oncología Molecular y Sistemas Biológicos (Fox-G), Universidad El Bosque, Bogotá, Colombia.
4 Elvira Jaller, Grupo Medicina Interna, Instituto Nacional de Cancerología – INC, Bogotá, Colombia.
5 Luis Eduardo Pino, Grupo Oncología Clínica, Instituto de Cáncer Carlos Ardila Lülle, Fundación Santa Fe de Bogotá, Bogotá, Colombia.
Recibido: 12 de noviembre de 2021
Aceptado: 22 de noviembre de 2021
Correspondencia:
Andrés F. Cardona
acardona@fctic.org
CLIC AQUÍ Y DÉJANOS TU COMENTARIO