El glaucoma es una de las principales causas de ceguera irreversible en el mundo. Aunque factores como el sexo, raza, presión intraocular (PIO) y el espesor corneal están claramente identificados como riesgos, la detección temprano sigue siendo un desafío. Esto se debe a que la enfermedad suele iniciar de forma asintomática y carece de indicadores lo suficientemente específicos y sensibles para identificar sus fases iniciales. (1)
La investigación actual busca métodos eficaces para predecir la aparición de la patología, su progresión y el pronóstico del tratamiento. Si fuera posible determinar de forma temprana el glaucoma y estimar el daño que sufriría el nervio óptico a lo largo de la vida del paciente, el impacto en términos de discapacidad visual podría reducirse al máximo. (1)
En este contexto, la búsqueda de herramientas predictivas ocupa un lugar prioritario en la oftalmología. Una de las más prometedoras es la inteligencia artificial (IA), que ofrece múltiples posibilidades de aplicación. Entre ellas se destacan los modelos de lenguaje de gran tamaño (LLM, por su sigla en inglés), como el Generative Pre-Trained Transformer (ChatGPT). Este tipo de chabot ha mostrado un crecimiento exponencial en su uso, y actualmente se investiga su potencial para apoyar la predicción y el diagnóstico oportuno del glaucoma. (1)
ChatGPT se ha consolidado como una herramienta versátil para el desarrollo de múltiples tareas y conversaciones, gracias a su capacidad de interpretar y responder preguntas de forma similar a las interacciones humanas. Su funcionamiento se basa en métodos de aprendizaje automático alimentados por grandes volúmenes de datos textuales obtenidos de internet. Entre sus diversas aplicaciones, se ha evaluado su potencial en el ámbito de la salud, poniéndolo a prueba en áreas como patología, microbiología, farmacología, etc. (1)
En oftalmología, los resultados han sido variables según el contexto. Shemer y colaboradores (2024) evaluaron a ChatGPT con 126 informes de casos y observaron que su desempeño fue inferior al de residentes y médicos. En contraste, Delsoz y colaboradores (2023) reportaron que ChatGPT alcanzó una precisión del 72.7 % en el diagnóstico de glaucoma, comparable o incluso superior a la de residentes con formación avanzada. Asimismo, la versión ChatGPT-4.0 mostró una mejora significativa frente a su predecesora 3.5. En neurooftalmología, alcanzó un 77 % de precisión, y en el análisis de imágenes oftálmicas, logró un 70 % de respuestas correctas, destacándose en preguntas sin imágenes (82 %) frente a las basadas en imágenes (65 %). Estos resultados reflejan avances prometedores en la aplicación de ChatGPT para el diagnóstico y prevención del glaucoma. (1-4)
Como contribución al avance en el uso potencial de ChatGPT para el estudio del glaucoma, Huang y colaboradores (2024) evaluaron su eficacia para predecir el desarrollo de la enfermedad a partir de parámetros demográficos, clínicos, oculares, de campo visual (CV) y de la cabeza del nervio óptico (NO), utilizando big data en lugar de informes de casos. (1)
Los datos se obtuvieron del Ocular Hypertension Treatment Study (OHTS), un ensayo clínico prospectivo desarrollado en 22 instituciones en Estados Unidos con el objetivo de investigar estrategias para prevenir la progresión del daño en el campo visual en pacientes con PIO elevada. Al inicio, se registraron todos los factores de riesgo para establecer valores basales antes de la asignación aleatoria de los participantes. Las variables relacionadas con el campo visual y al nervio óptico se recopilaron cada año o cada seis meses, durante aproximadamente 16 años. Esta estructura longitudinal proporcionó una base sólida para desarrollar modelos predictivos capaces de anticipar la aparición del glaucoma antes de su manifestación clínica, incluyendo aquellos basados en IA. (1)
En este proyecto, se emplearon registros longitudinales del OHTS que incluían tanto mediciones de campo visual como imágenes de nervio óptico. A partir de esta información, se clasificaron los ojos como afectados o no por glaucoma según los hallazgos estructurales o funcionales, centrándose en las evaluaciones realizadas aproximadamente un año antes del diagnóstico. El objetivo fue determinar si ChatGPT podía predecir la aparición de la enfermedad. La clasificación de cada paciente se estableció en función de si alguno de sus ojos desarrollaba glaucoma. Además, se llevó a cabo una investigación paralela para explorar el desempeño de ChatGPT en la detección clínica de la patología. (1)
Un aspecto clave del estudio fue el uso de la “Application Programming Interface” (API) de ChatGPT junto con la herramienta LangChain, lo que permitió automatizar el envío de preguntas al modelo. Esta estrategia fue necesaria debido a las limitaciones de uso de las versiones gratuitas y de pago, que hacían inviable procesar manualmente todo el volumen de datos. Analizar la base completa del OHTS podría tomar más de una semana, sin embargo, la automatización agilizó el proceso de forma significativa. Para garantizar la consistencia de las respuestas, se configuró el modelo con el parámetro de temperatura en cero, evitando así variaciones entre intentos. (1)
El objetivo principal fue evaluar la capacidad de ChatGPT para identificar casos de glaucoma de ángulo abierto (GAA) antes de su manifestación clínica. El desempeño se midió utilizando indicadores como precisión, sensibilidad, especificidad, área bajo la curva (AUC, por su sigla en inglés) y puntaje F1. Las respuestas clasificadas como “glaucoma” se consideraron casos positivos; mientras que términos “hipertensión ocular” o “sospecha de glaucoma” se interpretaron como negativos. Esto permitió comparar las predicciones del modelo con los datos clínicos reales. (1)
En los resultados, ChatGPT-4 alcanzó aproximadamente un 75 % de precisión y un AUC de 0.67 al predecir la aparición de glaucoma un año antes del inicio clínico, lo que indica una capacidad discriminativa moderada, superior al azar, pero inferior a la de los modelos de aprendizaje profundo especializados en imágenes, que suelen mostrar valores más altos. (1)
La sensibilidad fue de aproximadamente 56 %, detectando poco más de la mitad de los casos que realmente desarrollaron glaucoma. En contraste, la especificidad fue del 78 %, con mayor acierto para descartar a quienes no desarrollarían la enfermedad. Este desequilibrio sugiere que el modelo tiende a priorizar la especificidad, con el riesgo de pasar por alto a algunos pacientes en riesgo. (1)
Al comparar las versiones de esta IA, los autores encontraron que ChatGPT-3.5 obtuvo un rendimiento inferior, con cerca de 61 % de precisión y un AUC de 0.62, lo que resalta la mejoría alcanzada en la versión 4.0. Esta diferencia subraya la relevancia de las actualizaciones y el ajuste fino del modelo para aplicaciones clínicas, especialmente en el análisis de datos relacionados con el glaucoma. (1)
El rendimiento predictivo dependió en gran medida de la calidad y redacción de los prompts, así como de la combinación de variables incluidas. La incorporación de datos demográficos, clínicos y de medicación sistémica mejoró significativamente los resultados, lo que evidencia la importancia de proporcionar entradas textuales ricas y bien estructuradas. En este sentido, la conversión de datos clínicos tabulados en texto fue un paso clave, ya que la presentación de la información influyó directamente en la comprensión y las respuestas del modelo. (1)
En su análisis, los autores, destacan que ChatGPT, especialmente en su versión 4.0, puede alcanzar una precisión moderada en la predicción del glaucoma. Aunque no supera el desempeño de modelos especializados en análisis de imágenes —como redes neuronales profundas entrenadas en datos oftalmológicos—, ofrece ventajas notables: accesibilidad, capacidad de interpretación y explicaciones humanizadas. (1)
La posibilidad de convertir datos clínicos, demográficos y de medición en prompts textuales permite que ChatGPT funcione como una herramienta complementaria en la evaluación del riesgo, especialmente en contextos donde la interpretación rápida y comprensible es clave, y en poblaciones numerosas que requieren atención en salud. (1)
Una limitación importante es que ChatGPT no interpreta imágenes, elemento fundamental en la evaluación del glaucoma. Este tipo de información proviene de exámenes especializados como la tomografía de coherencia óptica (OCT), fotografías del nervio óptico, reportes de campos visuales, etc., cuya ausencia reduce la precisión frente a modelos de deep learning diseñados para análisis visual. (1)
Además, la dependencia del diseño de prompts y la calidad de los datos de entrada implica que el rendimiento puede variar significativamente según cómo se formulen las preguntas y qué información se aporte. Esta variabilidad puede llevar a que ChatGPT pase por alto algunos casos en riesgo, lo cual es crítico en la detección temprana y en la prevención de la enfermedad. (1)
Pese a estas limitaciones, los autores consideran que ChatGPT puede ser útil como herramienta de apoyo en la evaluación clínica, especialmente en entornos con recursos limitados o como medio para facilitar la comunicación con pacientes. Su facilidad de interpretación y accesibilidad favorecen su integración en la práctica, siempre como complemento y no como sustituto de los métodos diagnósticos tradicionales. En última instancia, la valoración clínica profesional sigue siendo la herramienta más importante en el diagnóstico y manejo integral del glaucoma. (1)
Para potenciar el uso de ChatGPT en oftalmología, los autores señalan la necesidad de desarrollar modelos multimodales que integren datos textuales con imágenes y otros biomarcadores. Esta combinación podría superar las limitaciones actuales y ofrecer predicciones más precisas. Asimismo, destacan que la personalización mediante fine-tuning en dominios específicos de oftalmología, junto con la incorporación de datos clínicos más detallados, podría aumentar la sensibilidad y la especificidad del sistema en su capacidad predictiva. Finalmente, subrayan que, aunque los resultados son prometedores, es imprescindible contar con una valoración clínica rigurosa y evaluar el desempeño en diferentes poblaciones antes de considerar una adopción generalizada de la IA. (1)
Referencias
- Huang X, Raja H, Madadi Y, Delsoz M, Poursoroush A, Kahook MY, et al. Predicting Glaucoma Before Onset Using a Large Language Model Chatbot. Am J Ophthalmol. 2024 Oct 1;266:289–99.
- Madadi Y, Delsoz M, Lao PA, Fong JW, Hollingsworth TJ, Kahook MY, et al. ChatGPT Assisting Diagnosis of Neuro-Ophthalmology Diseases Based on Case Reports. Journal of Neuro-Ophthalmology [Internet]. 2024 Oct 10; Available from: https://journals.lww.com/10.1097/ WNO.0000000000002274
- Shemer A, Cohen M, Altarescu A, Atar-Vardi M, Hecht I, Dubinsky-Pertzov B, et al. Diagnostic capabilities of ChatGPT in ophthalmology. Graefe’s Archive for Clinical and Experimental Ophthalmology. 2024 Jul 1;262(7):2345–52.
- Delsoz M, Raja H, Madadi Y, Tang AA, Wirostko BM, Kahook MY, et al. The Use of ChatGPT to Assist in Diagnosing Glaucoma Based on Clinical Case Reports. Ophthalmol Ther. 2023 Dec 1;12(6):3121–32.