Medicina de precisión: promesas, datos y la crisis de verdad subyacente

La fantasía dominante de la medicina moderna descansa sobre cuatro fragilidades epistemológicas que desde dentro, sistemáticamente, preferimos ignorar.

¿A qué me refiero?

La medicina de precisión no es una idea mala. Más bien, es una idea interesante y poderosa: adaptar la prevención, el diagnóstico y el tratamiento a las características moleculares, genómicas y contextuales de cada individuo, superando la medicina del “talla única”. ¿Atractivo, no? El problema no está en el concepto. Está en que el castillo se construye sobre cimientos que nadie ha inspeccionado con suficiente honestidad.

Mi reflexión no es un ejercicio de nihilismo científico, aunque a veces dan ganas. Reconozco que hay éxitos patentes y demostrables en oncología molecular, farmacogenómica de alta penetrancia y enfermedades raras monogénicas. Pero esos éxitos son nichos donde la señal biológica es tan robusta que sobrevive a los sesgos metodológicos. No son la norma que justifica el paradigma. Y la diferencia importa, porque de esa confusión se derivan decisiones clínicas, políticas de salud y asignaciones de recursos.

Vamos con las fragilidades antes mecionadas y que son cuatro. Están bien documentadas y son interdependientes. Y voy nombrarlas antes de ver cómo se potencian mutuamente.

01 La crisis de replicabilidad El valor de p < 0,05 como umbral de verdad produce más falsos positivos que verdaderos en entornos de hipótesis poco plausibles a priori.	02 El sesgo estructural de los datos Los datos sobre los que se entrena y valida la mayoría de los modelos no representan a la mayoría.
03 La brecha biomarcador–clínica De los miles de biomarcadores “prometedores” publicados anualmente, una fracción ínfima alcanza validación clínica real y modifica el manejo del paciente.	04 La IA como amplificador Los modelos de aprendizaje automático aprenden los sesgos del pasado con exquisita eficiencia y los hacen más opacos, no más corregibles.

El punto de partida incómodo: Ioannidis tenía razón

En 2005, John Ioannidis publicó en PLOS Medicine el artículo más citado de la historia reciente de la medicina: “Why Most Published Research Findings Are False”. Su argumento no era retórico. Era matemático. Aplicando el teorema de Bayes al proceso de generación de conocimiento científico, demostró que cuando la proporción de hipótesis verdaderas entre las que se testean es baja, como ocurre en exploración genómica o en el cribado de biomarcadores, el valor predictivo positivo de un hallazgo estadísticamente significativo puede ser inferior al 50%. Publicar un resultado con p < 0,05 en ese contexto tiene más probabilidad de ser un falso positivo que una verdad.

La respuesta institucional dos décadas después ha sido, esencialmente, seguir publicando igual. El Reproducibility Project coordinado por Brian Nosek y publicado en Science en 2015 replicó menos del 40% de los resultados de las tres revistas de psicología de mayor impacto. En biomedicina la magnitud es comparable y peor documentada: Amgen intentó replicar 53 estudios seminales en oncología y biología del cáncer, elegidos precisamente por su influencia, y solo 6 aguantaron la replicación. Bayer reportó resultados similares al intentar replicar estudios preclínicos antes de comprometer inversión en desarrollo farmacológico.

El sesgo de publicación no es una anomalía del sistema. El sistema funciona exactamente como fue diseñado.

El mecanismo es conocido: los estudios negativos no se publican o lo hacen en revistas de menor impacto. Las revisiones sistemáticas y los metaanálisis construidos sobre esa literatura sesgada heredan y amplifican el sesgo. Los gestores sanitarios y los clínicos, que razonablemente confían en la revisión sistemática como síntesis del conocimiento, toman decisiones basadas en una muestra distorsionada de la realidad experimental. El problema no es de individuos deshonestos. Es estructural.

Los datos: abundantes, sesgados e inadecuados para el fin

La medicina de precisión exige integrar datos ómicos, registros clínicos longitudinales, exposoma, imagen cuantitativa y resultados centrados en el paciente. Cada capa tiene sus propias patologías, que se amplifican en la integración.

El problema más documentado y menos discutido es el sesgo poblacional. Más del 78% de los participantes en estudios de asociación genómica amplia (GWAS) son de ascendencia europea, según el análisis publicado por Martin y colaboradores en Nature Genetics en 2019. Los polígonos de riesgo derivados de estas cohortes predicen con potencia razonable en poblaciones nórdicas y pierden precisión de forma sustancial en poblaciones de Asia del Sur, América Latina o África subsahariana. La medicina de precisión tal como existe hoy es, en gran medida, medicina de precisión para el subgrupo más favorecido de la humanidad. Los artículos de revisión, sin embargo, siguen hablando de ella como proyecto universal.

Los datos clínicos de la historia electrónica agravan el problema desde otra dirección. Están estructurados para facturación y documentación legal, no para investigación. Sus patologías son bien conocidas: valores ausentes no aleatorios, un laboratorio que no se solicitó tiene un significado clínico que los imputadores estándar no capturan, inconsistencias terminológicas entre sistemas, fragmentación entre proveedores y drift conceptual: las definiciones diagnósticas de 2010 no son las de 2024.

Nota metodológica

La colonización del ensayo clínico oncológico por endpoints subrogados, respuesta molecular, supervivencia libre de progresión, en lugar de supervivencia global o calidad de vida tiene consecuencias reales. La FDA aprobó entre 2008 y 2012 cuarenta y ocho indicaciones oncológicas sobre endpoints subrogados. En un análisis posterior publicado en JAMA Internal Medicine por Kim y Prasad, solo el 16% de esas indicaciones habían demostrado beneficio en supervivencia o calidad de vida en estudios de confirmación.

El pipeline roto de los biomarcadores

Cada año se publican miles de biomarcadores “prometedores” en oncología, enfermedad cardiovascular y neurología. La mayoría emergen de estudios exploratorios en cohortes pequeñas, con metodología inadecuada para el contexto de descubrimiento en alta dimensionalidad: múltiples comparaciones implícitas, análisis post-hoc presentados como confirmatorios, ausencia de corrección por multiplicidad. El campo confunde sistemáticamente la generación de hipótesis con su confirmación.

El resultado cuantitativo es elocuente. Una revisión publicada en Nature Reviews Drug Discovery estimó que más del 95% de los biomarcadores descritos como “prometedores” en la literatura no alcanzan la práctica clínica. No por falta de interés, sino porque no sobreviven a la validación en cohortes independientes. La diferencia entre los requisitos del estudio exploratorio —donde casi cualquier cosa puede resultar significativa con análisis suficientemente flexibles, y los del confirmatorio, hipótesis preespecificadas, tamaño muestral calculado a priori, validación externa, existe en los libros de texto. No se aplica sistemáticamente en la práctica. Y las revistas científicas, que necesitan artículos llamativos para mantener su factor de impacto, tienen pocos incentivos para corregirlo.

La inteligencia artificial: ¿solución o amplificador?

Los modelos de aprendizaje automático aprenden de los datos disponibles. Si esos datos son sesgados, incompletos, no representativos o generados bajo las condiciones metodológicas descritas, el modelo aprende los sesgos con exquisita eficiencia y los hace más difíciles de detectar, no más fáciles.

El caso más documentado es el análisis publicado por Roberts y colaboradores en Nature Machine Intelligence en 2021, que examinó más de 400 modelos de IA para diagnóstico y pronóstico de COVID-19. Ninguno fue considerado clínicamente útil. La mayoría presentaba deficiencias metodológicas graves: datos de entrenamiento y validación solapados, ausencia de validación externa, falta de análisis de rendimiento por subgrupos. Todos habían pasado revisión por pares y habían sido publicados en revistas científicas. El proceso de revisión no fue capaz de detectar los fallos porque esos fallos requerían competencia metodológica específica en ciencias de datos que muchos revisores biomédicos no poseen.

La IA no resuelve el problema epistemológico de la medicina de precisión. Puede ser, si se aplica sin rigor, una forma de amplificarlo y de hacerlo más opaco.

El riesgo específico de la IA en este contexto es la ilusión de objetividad. Un modelo con una curva ROC de 0,85 comunica una precisión que puede ser completamente artefactual si el conjunto de validación fue construido con datos del mismo centro, del mismo período temporal, con los mismos sesgos de selección que el entrenamiento. La opacidad de los modelos de alta complejidad añade una capa adicional: no solo los resultados pueden ser incorrectos, sino que los mecanismos del error son difíciles de identificar.

Hacia una reforma del método

Las soluciones son conocidas. Ninguna es nueva. Lo que no existe es voluntad colectiva de aplicarlas, porque cada una de ellas amenaza un interés establecido.

El prerregistro obligatorio de hipótesis y protocolos analíticos antes del acceso a los datos, incluyendo estudios observacionales, elimina el HARKing (Hypothesizing After Results are Known) y el p-hacking retrospectivo. La validación externa en cohortes independientes geográfica y temporalmente separadas del entrenamiento es el estándar mínimo aceptable para cualquier modelo predictivo o biomarcador que aspire a modificar el manejo clínico. La apertura de datos y código no puede seguir siendo mérito opcional: debe ser requisito de publicación. Y la financiación de estudios de replicación no puede depender de la generosidad accidental de investigadores con agenda propia.

El campo necesita además una distinción operativa clara entre investigación exploratoria e investigación confirmatoria, con requisitos metodológicos explícitamente diferentes para cada una. El clínico, el gestor y el regulador necesitan poder saber qué están leyendo. Hoy no pueden, porque el sistema no se lo dice.

La paradoja central

Para hacer medicina de precisión de verdad, necesitamos precisión en la ciencia que la sustenta. Y esa es, hoy por hoy, la variable más escasa. El problema no es de inteligencia ni de tecnología. Es de incentivos. El sistema científico premia lo que produce el problema y no premia lo que lo resolvería.

Reconocer esto no es nihilismo. Es el primer paso necesario para construir algo que merezca el nombre de medicina de precisión: no una narrativa de inversión con datos moleculares de fondo, sino un edificio epistemológicamente honesto y riguroso que sirva a todos los pacientes, no solo a los que ya tenían más.

Referencias
Ioannidis JPA. Why most published research findings are false. PLOS Medicine, 2005.
Open Science Collaboration. Estimating the reproducibility of psychological science. Science, 2015.
Begley CG, Ellis LM. Raise standards for preclinical cancer research. Nature, 2012.
Martin AR et al. Clinical use of current polygenic risk scores may exacerbate health disparities. Nature Genetics, 2019.
Roberts M et al. Common pitfalls and recommendations for using machine learning to detect and prognosticate for COVID-19. Nature Machine Intelligence, 2021.
Kim C, Prasad V. Cancer drugs approved on the basis of a surrogate end point and subsequent overall survival. JAMA Internal Medicine, 2015.