Por Michelle Ballesteros Aguirre
Una investigación de la Universidad de Deakin (Australia) ha medido sistemáticamente la fiabilidad de la inteligencia artificial en la generación de contenido académico, revelando que aproximadamente dos tercios de las referencias bibliográficas producidas por ChatGPT-4o contienen errores significativos o son completamente falsas.
Metodología del estudio:
Los investigadores solicitaron a ChatGPT-4o que generara revisiones de aproximadamente 2.000 palabras sobre tres trastornos de salud mental (trastorno depresivo mayor, trastorno por atracón y trastorno dimórfico corporal), incluyendo al menos 20 citas bibliográficas cada una.
Resultados alarmantes:
- El 19.9% (35 de 176) de las citas eran completamente falsas
- El 36.4% (64 citas) de las referencias reales contenían al menos un error
- Solo el 43.7% (77 citas) resultaron ser precisas y verificables
- La tasa de error variaba según la complejidad del tema: desde 6% en trastornos bien estudiados hasta 29% en temas menos investigados
Implicaciones prácticas:
El fenómeno de las “alucinaciones” de la IA -afirmaciones que parecen válidas pero carecen de fundamento real- representa un riesgo significativo para usuarios que confían en estos sistemas para trabajos académicos, investigación o toma de decisiones. Los investigadores enfatizan que, aunque el estudio se centró únicamente en ChatGPT, los resultados sirven como advertencia general sobre la necesidad de verificar meticulosamente cualquier información generada por IA.
El equipo australiano planea expandir su investigación para examinar una gama más amplia de modelos de IA, pero concluye que la verificación humana posterior sigue siendo esencial cuando se utiliza cualquier sistema de inteligencia artificial para tareas que requieren precisión factual.
