Inteligencia Artificial en patología de pierna y pie: ¿Pueden los los grandes modelos de lenguaje reemplazar nuestra práctica?

Autores/as

DOI:

https://doi.org/10.30795/jfootankle.2024.v18.1757

Palabras clave:

diagnostico, tratamiento, inteligencia, artificial, chatgpt

Resumen

Objetivo: Determinar si los grandes modelos de lenguaje proporcionan información mejor o similar en comparación con un experto capacitado en patología del pie y tobillo, en varios aspectos de la práctica diaria (definición de una patología, tratamiento de una patología, preguntas generales).

Métodos: Tres expertos y dos modelos de IA, ChatGPT (GPT-4) y Google Bard, respondieron a 15 preguntas relacionadas con la especialidad, divididas equitativamente entre definiciones, tratamientos y consultas generales. Tras codificarlas, las respuestas se redistribuyeron y fueron evaluadas por otros cinco expertos adicionales, valorando aspectos como claridad, precisión y utilidad para el paciente. La puntuación se realizó utilizando una escala Likert, que permitió a los expertos evaluar las preguntas de acuerdo con la información proporcionada.

Resultados: Utilizando la escala Likert, cada pregunta podía puntuar entre 5 y 25 puntos, sumando un total de 375 para el toral del examen o  75 puntos para las evaluaciones por bloques. El Expert 2 lideró con un 69,86%, seguido del Expert 1 con un 68,53%, ChatGPT con un 64,80%, Expert 3 con un 58,40% y Google Bard con un 54,93%. Al comparar a los expertos, surgieron diferencias significativas, especialmente con Google Bard. En secciones específicas como definiciones y tratamientos, se  destaca el excelente rendimiento de de ChatGPT. En la sección tratamiento, los resultados enfatizan las diferencias en el rendimiento entre expertos y modelos de IA.

Conclusión: nuestros hallazgos indican que ChatGPT a menudo tuvo un rendimiento comparable o incluso superior al de los expertos, especialmente en las secciones de definición y pregunta general. Sin embargo, ambos LLMs tuvieron notables deficiencias en el dominio del tratamiento. Estos resultados resaltan el potencial de los LLMs como herramientas valiosas en ortopedia, pero también señalan sus limitaciones, enfatizando el papel insustituible de la experiencia experta en contextos médicos complejos.

Nivel de evidencia: III

Tipo de estudio: observacional, analítico.

Palabras clave: Modelos de Lenguaje Grandes, inteligencia artificial, pie y tobillo, ChatGPT, Google Bard, IA Generativa.

Descargas

Publicado

2024-05-14

Cómo citar

Segura, F. P., Segura, F. M., Porta, J., Heredia, N., Masquijo, I., Anain, F., … Segura, F. V. (2024). Inteligencia Artificial en patología de pierna y pie: ¿Pueden los los grandes modelos de lenguaje reemplazar nuestra práctica?. Journal of the Foot & Ankle, 18(1), 52–58. https://doi.org/10.30795/jfootankle.2024.v18.1757