

- 08/04/2025 00:00
Un nuevo estudio realizado por investigadores de la universidad de Dartmouth (Estados Unidos) descubrió que una herramienta de inteligencia artificial (IA) generativa, diseñada para actuar como terapeuta, generó mejoras sustanciales en pacientes con depresión, ansiedad y trastornos alimentarios. Sin embargo, la herramienta aún necesita ser supervisada por expertos.
El estudio se publicó en marzo en la revista NEJM AI. Los investigadores realizaron un ensayo con 106 personas que usaron Therabot, una aplicación para teléfonos inteligentes desarrollada en el alma mater durante los últimos años.
Es una muestra pequeña, pero los profesionales afirmaron que es el primer ensayo clínico de un chatbot terapéutico con IA. Los resultados muestran ventajas significativas, principalmente porque el ‘bot’ está disponible las 24 horas del día, lo que reduce la inmediatez que enfrentan los pacientes con la terapia tradicional. Sin embargo, advierten de que la terapia generativa asistida por IA puede ser peligrosa si no se hace correctamente.
“Creo que este espacio aún tiene mucho por evolucionar”, afirmó Nick Jacobson, autor principal del estudio y profesor asociado de ciencia de datos biomédicos y psiquiatría en Dartmouth. “Es realmente asombroso el potencial de un impacto personalizado y escalable”.
Los individuos utilizaron la aplicación y los investigadores se sorprendieron por la cantidad y la cercanía con la que se comunicaron con el chatbot. Encuestados posteriormente, los participantes informaron un grado de “alianza terapéutica” (confianza y colaboración entre paciente y profesional de la salud mental) similar al de los terapeutas presenciales.
El horario de las interacciones también fue notable, con un pico de interacciones en plena noche y en otros momentos en los que los pacientes suelen experimentar inquietudes. Esas son las horas en las que contactar con un terapeuta humano es particularmente difícil.
“Con Therabot, las personas accederán, y de hecho lo hicieron, durante el ensayo en su vida diaria, en los momentos en que más lo necesitan”, señaló Jacobson. Esto incluyó momentos en los que alguien tuvo dificultad para conciliar el sueño a las 2:00 a.m. debido a la ansiedad o inmediatamente después de un momento difícil.
Las evaluaciones posteriores de los pacientes mostraron una reducción del 51 % en los síntomas del trastorno depresivo mayor, del 31 % en los del trastorno de ansiedad generalizada y del 19 % en los de los trastornos alimentarios entre los pacientes con riesgo de padecer estas afecciones específicas.
“Las personas que participaron en el ensayo no solo presentaban síntomas leves”, afirmó Jacobson. “Por ejemplo, al inicio, los participantes del grupo presentaban una depresión de moderada a grave. Sin embargo, en promedio, experimentaron una reducción del 50 % en sus síntomas, que pasaron de graves a leves o de moderados a casi inexistentes”.
Jacobson comentó que, durante las primeras cuatro semanas del estudio, debido a la incertidumbre sobre el comportamiento del bot, leyó todos los mensajes que enviaba lo antes posible. “No dormí mucho en la primera parte del ensayo”, comentó.
“Las intervenciones humanas fueron poco frecuentes”, añadió el líder del proyecto. Las pruebas de modelos anteriores efectuadas hace dos años mostraron que más del 90 % de las respuestas eran consistentes con las mejores prácticas. Cuando los investigadores intervinieron, a menudo fue cuando el ‘bot’ ofreció consejos fuera del alcance de un terapeuta, como cuando intentó brindar consejos médicos más generales, como cómo tratar una enfermedad de transmisión sexual en lugar de derivar al paciente a un profesional médico. “Sus consejos fueron razonables, pero eso queda fuera del ámbito de la atención que brindaríamos”.
Therabot no es el típico modelo de lenguaje extenso; fue esencialmente entrenado manualmente. Jacobson explicó que un equipo de más de 100 personas creó un conjunto de datos utilizando las mejores prácticas sobre cómo un terapeuta debería responder a experiencias humanas reales.
“Solo los datos de la más alta calidad terminan formando parte de él”, afirmó. Un modelo general como Gemini de Google o Claude de Anthropic, por ejemplo, se entrena con muchos más datos que la literatura médica y puede responder incorrectamente.