El glaucoma sigue siendo una de las principales causas de discapacidad visual irreversible a nivel mundial. Su detección temprana continúa siendo un desafío debido a la naturaleza insidiosa de la enfermedad, la variabilidad anatómica del nervio óptico entre pacientes, la dependencia del desempeño del paciente en las pruebas de campo visual automatizado y la coexistencia de condiciones estructurales particulares del nervio óptico, que pueden actuar como variables de confusión en la evaluación mediante tomografía de coherencia óptica (OCT, por su sigla en inglés). (1)
Ante la necesidad de contar con herramientas diagnósticas más sencillas y versátiles, en los últimos años la inteligencia artificial (IA) ha adquirido un rol creciente en oftalmología, especialmente mediante algoritmos de aprendizaje profundo aplicados a imágenes de fondo de ojo y OCT. Sin embargo, la mayoría de estos sistemas aún presenta limitaciones para integrar información clínica heterogénea y reproducir el razonamiento diagnóstico humano.(1–5)
En este contexto emergen los modelos de lenguaje de gran escala (Large Language Models, LLM), como ChatGPT, que introducen nuevas posibilidades al permitir la interpretación conjunta de datos estructurales, funcionales y numéricos, así como la generación de explicaciones clínicas coherentes en reportes de salud ocular. Así, la aplicación de LLM en el diagnóstico del glaucoma representa una oportunidad relevante para explorar herramientas de apoyo clínico que no solo alcancen niveles de precisión comparables a los del especialista, sino que también mantengan consistencia diagnóstica entre distintos grupos poblacionales, considerando la variabilidad anatómica y clínica entre pacientes. (1,4)
Frente a la necesidad de evaluar las nuevas capacidades de ChatGPT y sus avances recientes, Huang y colaboradores (2026) realizaron un estudio para analizar la precisión de ChatGPT o1 Pro en la identificación del glaucoma, utilizando datos de tomografía de coherencia óptica de la capa de fibras nerviosas retinianas circumpapilares (RNFL) y campo visual (CV). Además, evaluaron su consistencia entre distintas ancestrías y niveles de riesgo poligénico para glaucoma (PRS). (1,4)
Es importante destacar que ChatGPT o1 Pro es un modelo de LLM desarrollado por OpenAI, orientado al razonamiento avanzado y al análisis de información compleja. En este contexto, puede interpretar datos numéricos, reportes diagnósticos e información multimodal, y generar explicaciones clínicas coherentes. En el ámbito médico, su uso puede explorarse como herramienta de apoyo a la decisión clínica, al integrar datos estructurales y funcionales; sin embargo, no sustituye el juicio profesional ni la valoración por el especialista. (2,4)
Para cumplir el objetivo planteado, los autores desarrollaron un estudio de exactitud diagnóstica en una cohorte multiancestral de participantes sometidos a una evaluación oftalmológica estandarizada, que incluyó campo visual automatizado Humphrey 24‑2 y OCT, mediante mediciones cuantitativas de la RNFL. Dos especialistas en glaucoma, enmascarados al riesgo genético, establecieron por consenso el diagnóstico clínico utilizado como referencia, de acuerdo con protocolos establecidos. (1)
ChatGPT o1 Pro analizó exclusivamente datos anónimos de CV y valores numéricos de OCT, sin acceso a imágenes ni a información clínica adicional. Para ello, se utilizó un prompt estandarizado orientado a clasificar cada caso como glaucoma o no glaucoma. El rendimiento del modelo se evaluó mediante métricas de exactitud diagnóstica, y su consistencia se analizó según la ancestría genética y el nivel de riesgo poligénico para glaucoma. (1)
Entre los resultados principales, los autores encontraron que el modelo ChatGPT o1 Pro demostró un desempeño diagnóstico elevado para identificar glaucoma a partir de datos de CV y OCT de la RNFL. La alta sensibilidad observada sugiere una capacidad importante del modelo para detectar casos glaucomatosos, incluso en estadios tempranos, mientras que la especificidad, aunque ligeramente inferior, se mantuvo en rangos clínicamente aceptables. (1)
Es importante resaltar que, desde una perspectiva asistencial, el valor predictivo negativo fue extremadamente alto, lo que indica que los casos clasificados por el modelo como “no glaucoma” tendrían una baja probabilidad de corresponder a enfermedad real. Este hallazgo respalda su posible utilidad como una herramienta de apoyo en estrategias de tamizaje y priorización clínica. Por otra parte, al analizar el desempeño por subgrupos, no se observaron diferencias estadísticamente significativas en la exactitud diagnóstica entre participantes de ancestría europea y no europea, ni entre aquellos con riesgo poligénico alto frente a quienes presentaban riesgo bajo o intermedio para glaucoma. (1)
Los autores sugieren que, en este caso, el razonamiento diagnóstico del modelo pareció basarse principalmente en patrones estructurales y funcionales derivados directamente de las pruebas oftalmológicas, más que en variables contextuales o demográficas. Esto podría explicar su comportamiento relativamente equitativo entre distintos grupos. Asimismo, señalan que el espesor de la RNFL fue el principal determinante de concordancia entre la clasificación del modelo y el diagnóstico clínico de referencia, lo que sugiere que este biomarcador estructural tuvo un peso decisivo tanto para ChatGPT o1 Pro como para los especialistas. (1)
En conclusión, ChatGPT o1 Pro muestra un potencial importante como apoyo a la decisión clínica en glaucoma, especialmente en contextos de detección temprana y tamizaje. No obstante, su uso debe entenderse como complemento del juicio profesional y estar respaldado por procesos rigurosos de validación clínica y supervisión ética constante. (1)
Referencias
1. HUANG AS, FAM A, ZHAO H, PAULESCU N, FABCZAK-KUBICKA ANNA, WIGGS JL, et al. ChatGPT-Assisted Glaucoma Diagnosis: A Health-Equitable Multi-Ancestry Analysis Using Visual Field and Optical Coherence Tomography Data. Am J Ophthalmol. el 1 de marzo de 2026;283:129–37. doi:10.1016/j.ajo.2025.11.046 PubMed PMID: 41349854.
2. Goodman RS, Patrinely JR, Stone CA, Zimmerman E, Donald RR, Chang SS, et al. Accuracy and Reliability of Chatbot Responses to Physician Questions. JAMA Netw Open. el 2 de octubre de 2023;6(10). doi:10.1001/jamanetworkopen.2023.36483 PubMed PMID: 37782499.
3. Enomoto N, Saito H, Araie M, Kambayashi M, Murata H, Kikawa T, et al. Effect of Deep Optic Nerve Head Morphology on Lamina Cribrosa and Peripapillary Scleral Configurations in Healthy Eyes. Invest Ophthalmol Vis Sci. el 1 de julio de 2025;66(9). doi:10.1167/iovs.66.9.66 PubMed PMID: 40728361.
4. Jalili J, Jiravarnsirikul A, Bowd C, Chuter B, Belghith A, Goldbaum MH, et al. Glaucoma Detection and Feature Identification via GPT-4V Fundus Image Analysis. Ophthalmology Science. el 1 de marzo de 2025;5(2). doi:10.1016/j.xops.2024.100667
5. Huang AS, Hirabayashi K, Barna L, Parikh D, Pasquale LR. Assessment of a Large Language Model’s Responses to Questions and Cases about Glaucoma and Retina Management. JAMA Ophthalmol. el 18 de abril de 2024;142(4):371–5. doi:10.1001/jamaophthalmol.2023.6917 PubMed PMID: 38386351.
