la mitad de sus respuestas médicas son erróneas o peligrosas
La escena se repite cada vez más en las consultas españolas: los pacientes llegan con un diagnóstico o una pauta dictada por un asistente de inteligencia artificial. Sin embargo, lo que parece ser una herramienta útil es en realidad un campo minado de imprecisiones. una investigacion … publicado esta semana en la revista científica ‘BMJ Open’ revela que el 50% de las respuestas propuestas por cinco chatbots más populares del mercado sobre temas críticos de salud son problemáticos, incompletos o completamente incorrectos.
Durante décadas, el reto fue combatir los bulos en las redes sociales, pero la llegada de la IA generativa ha complicado el problema. Estos modelos no “entienden” la medicina; Simplemente predicen qué palabra debe seguir a otra basándose en modelos estadísticos. El estudio, dirigido por el Dr. Nicolás Tillerinvestigador del Instituto Lundquist de Innovación Biomédica (California, EE. UU.), demuestra que la confianza ciega en estos sistemas puede conducir a la trazabilidad de tratamientos ineficaces o incluso dañinos si se aplica sin supervisión profesional.
Revisión de los gigantes tecnológicos
Para probar la confiabilidad de la IA, los investigadores probaron cinco de los modelos más utilizados en la actualidad: Géminis (Google), búsqueda profunda, Meta-IA, ChatGPT (OpenAI) y Grok (xAI). El equipo realizó 250 consultas sobre cinco áreas particularmente sensibles a la desinformación: cáncer, vacunas, células madre, nutrición y rendimiento deportivo. Las preguntas fueron diseñado para “estresar” a las máquinas, imitando las dudas comunes de los usuarios y los tropos de información errónea que circulan en línea.
Los resultados no son muy alentadores para el usuario medio. El 20% de las respuestas se clasificaron como “muy problemático”mientras que otro 30% fue considerado “algo problemático”. Aunque los modelos son más sólidos en lo que respecta a vacunas y cáncer, han fracasado en áreas como la nutrición y el uso de células madre.
En el análisis individual, Grok fue el estudiante menos favorecido: el 58% de sus respuestas fueron muy problemáticas. En el otro extremo, Géminis fue quien mostró un comportamiento más conservador y preciso, ofreciendo mayor número de respuestas correctas.
Débil rigor científico
Esta disparidad entre sujetos tiene una explicación técnica ligada a la calidad de la información con la que se entrenan estos algoritmos. En declaraciones a ABC, Tiller analiza por qué Áreas como la nutrición o el deporte son más vulnerables. al error en la IA. «Los chatbots no obtuvieron resultados particularmente buenos en ninguna categoría, pero lo hicieron relativamente mejor en cuestiones sobre vacunas y cáncer. Todos los campos están plagados de desinformación, pero la investigación sobre las vacunas y el cáncer es a menudo rigurosa y se caracteriza por argumentos bien estructurados y estudios de alta calidad. Esto podría ser suficiente para permitir que un chatbot reproduzca contenidos con mayor precisión», dice Tiller a este periódico.
“Todos los campos están plagados de información errónea, pero la investigación sobre vacunas y cáncer suele ser rigurosa”
Nicolás Tiller
Instituto Lundquist
Por el contrario, el investigador señala que la nutrición y el rendimiento físico siguen siendo “disciplinas más jóvenes con investigaciones comparativamente menos rigurosas”, lo que facilita que la IA absorba y reproduzca mitos o datos contradictorios. por faltar capacidad de juicio críticola máquina simplemente combina la evidencia científica con el ruido de foros y redes sociales.
Falso sentido de autoridad.
Uno de los aspectos que más preocupa a los expertos es la seguridad con la que se expresan estos sistemas. A diferencia de un médico humano, que puede dudar o tener reservas, los chatbots generalmente responden con absoluta confianza y sin advertir claramente sobre sus limitaciones. De las 250 solicitudes, la inteligencia artificial (en este caso Meta AI) se negó a responder sólo dos veces, en particular a preguntas sobre esteroides anabólicos y tratamientos alternativos contra el cáncer.
De las 250 solicitudes, la IA (en este caso Meta) sólo se negó a responder dos veces.
“Por defecto, los chatbots no acceder a datos en tiempo real«Pero generan resultados infiriendo modelos estadísticos a partir de sus datos de entrenamiento», explican los autores en el estudio. «No razonan, no sopesan la evidencia, ni son capaces de hacer juicios éticos o basados en valores. Esta limitación de comportamiento significa que pueden reproducir respuestas que parecen autoritarias pero que son potencialmente imperfectas».
Esta “arrogancia algorítmica” es lo que comúnmente se llama alucinaciones: la capacidad de la IA para inventar datos y, peor aún, literatura científica.
Referencias inventadas y lenguaje complejo.
El estudio también revela una debilidad crítica para cualquier usuario que intente verificar información: la mala calidad de las fuentes. El puntaje promedio de referencias fue solo del 40% y ninguno de los chatbots logró proporcionar una lista de referencias completamente precisa; En muchos casos, los sistemas inventaron nombres de estudios o combinaron autores reales con títulos de artículos inexistentes.
Ninguno de los chatbots logró proporcionar una lista de referencias completamente precisa.
Además, existe una barrera para la comprensión. Aunque se presentan como herramientas accesibles, el análisis de legibilidad reveló que las respuestas a menudo son escrito en un lenguaje “difícil”equivalente a un nivel de estudios universitarios superiores. Esto crea una brecha peligrosa: el contenido es difícil de digerir para el ciudadano medio, pero se presenta con una estructura académica que le da un falso barniz de rigor. Ante este escenario, la recomendación de los expertos es clara: la IA puede ser un asistente útil para escribir correos electrónicos, pero sigue siendo un paciente de riesgo a la hora de prescribir medicamentos o dietas.
Puedes consultar la fuente de este artículo aquí