Cazadores de zombis
Mientras los zombis académicos infectan silenciosamente la investigación, algunos cazadores están encontrando nuevas formas de lidiar con artículos fraudulentos y poco éticos generados por IA.
Por Claudia Civinini, agosto de 2025 (Traducción automática de Google)
Puntos de conversación
- Los editores depredadores, las fábricas de artículos y el uso de inteligencia artificial para generar artículos de investigación fraudulentos están socavando la integridad de la literatura científica.
- La proliferación de documentos fraudulentos y generados por IA está creando una crisis de credibilidad que se agrava por la dificultad de detectar contenido generado por IA, a medida que las herramientas tradicionales se vuelven obsoletas.
- Para combatir estos problemas, los investigadores han desarrollado nuevas herramientas para detectar artículos poco éticos. Fomentar una mentalidad investigadora entre los estudiantes y mejorar la colaboración entre científicos, universidades y editoriales es crucial.
El profesor Graham Kendall, vicerrector de la Universidad MILA de Malasia, llevó una vida secreta durante un tiempo, administrando de forma anónima la cuenta @fake_journals en X.
La inspiración para crear un relato que visibilice el panorama editorial depredador, explica el profesor Kendall, surgió tras la jubilación de Jeffrey Beall. La famosa lista de editoriales depredadoras de Beall, acertadamente titulada «La Lista de Beall», fue posteriormente clausurada.
“Desde que Beall comenzó su trabajo en 2010, no hemos logrado ningún avance para detener estas prácticas. De hecho, han empeorado”, afirma.
En muchos campos, resulta cada vez más difícil desarrollar un enfoque acumulativo sobre un tema, porque carecemos de una base sólida de hallazgos fiables. Y la situación empeora cada vez más.
La gente asume que, como los niños crecen usando herramientas digitales, saben cómo usar internet. Pero no es así.
La IA generativa facilita el desarrollo de bots simples, permitiendo que incluso personas sin conocimientos técnicos profundos puedan lanzar ataques de bots.
Una publicación en particular hizo que la cuenta del profesor Kendall ganara muchos seguidores y superara la marca de los 10.000: se trataba de autores hiperprolíficos.
Si bien el profesor Kendall admite que, en algunos campos de investigación, es más común publicar artículos más cortos o una serie de artículos, se debería considerar la productividad excesiva, como publicar más de un artículo al día, dice.
“Sin duda, hay gente que utiliza fábricas de papel e inteligencia artificial generativa para producir papel”.
Pero eso es solo la punta del iceberg. La IA generativa, las fábricas de papel, la mala revisión por pares y las editoriales depredadoras son problemas que, en conjunto, dañarán la integridad del archivo científico, según el profesor Kendall.
“Si esto continúa así durante demasiado tiempo, ya no podremos confiar en el archivo científico ni tener fe en él”, afirma.
“La gente terminaría usando artículos producidos con IA generativa, artículos que no son realmente buena ciencia, que no han sido revisados por pares, pero que aun así han logrado abrirse camino en la literatura científica”.
La publicación poco ética es un problema antiguo, pero las herramientas de IA generativa están otorgando una velocidad sin precedentes a los estafadores, lo que magnifica la magnitud del problema . Esto, a su vez, está creando un archivo académico zombi, una mezcla de contenido generado por IA, fraude humano, errores difíciles de corregir y ciencia falsa que podría perdurar para siempre en los modelos de IA.
Los científicos de todo el mundo están respondiendo a la amenaza y tratando de perseguir las publicaciones poco éticas en un intento de salvaguardar la integridad de la literatura científica.
Se han recibido advertencias de que la avalancha de artículos basura está creando una crisis de credibilidad y está frenando la investigación, especialmente en campos cruciales como la medicina.
En declaraciones a The Guardian, la profesora Dorothy Bishop declaró en 2024: «En muchos campos, resulta cada vez más difícil desarrollar un enfoque acumulativo sobre un tema, porque carecemos de una base sólida de hallazgos fiables. Y la situación va de mal en peor».
Bishop fue uno de los organizadores de una conferencia reciente en la Universidad de Oxford en el Reino Unido sobre integridad académica y fraude .
Artificialmente más inteligente
La Dra. Ophélie Fraisier-Vannier es investigadora postdoctoral en el Instituto de Investigación en Informática de Toulouse (Francia). El año pasado, se unió al equipo dirigido por el Dr. Guillaume Cabanac, catedrático de informática cuya actividad como “detective del fraude” fue reconocida por Nature en 2021 , para continuar investigando, entre otros temas, la detección del fraude.
El Dr. Cabanac es el creador del Cribador de Artículos Problemáticos (PPS), que examina las investigaciones en busca de indicios de que se han producido de forma poco ética. Estos indicios incluyen frases forzadas, oraciones con expresiones extrañas —por ejemplo, conciencia falsa en lugar de inteligencia artificial— que indican un uso grosero de sinónimos, generalmente una forma de ocultar el plagio. El PPS también identifica otros artículos problemáticos, como los generados con SciGen, los que contienen huellas dactilares de ChatGPT o los artículos citejacked (artículos de revistas legítimas que citan artículos de revistas pirateadas).
“Es un tema realmente fascinante porque está en el corazón de la investigación: si no se puede confiar en el registro científico, se convierte en un gran problema. No solo para la ciencia, sino para la sociedad en general”, explica la Dra. Fraisier-Vannier.
Necesitamos que más personas señalen los problemas para que el registro científico siga siendo confiable y la sociedad pueda confiar en la investigación científica, confiando en lo que surge de los laboratorios, las universidades y similares.
Lamentablemente, la IA generativa también está dificultando la detección del fraude.
“Hay varios tipos de herramientas de detección incluidas en el PPS, pero la principal gira en torno a las frases torturadas”, explica la Dra. Fraisier-Vannier.
El problema es que ChatGPT es demasiado inteligente para generar frases distorsionadas. Por lo tanto, ya sabemos que el detector de frases distorsionadas está bastante desactualizado, porque estas ya no se utilizan para generar artículos.
La IA generativa, explica la Dra. Fraisier-Vannier, podría ser una herramienta muy eficiente para que las fábricas de papel generen artículos con mayor rapidez. Antes de la IA, quienes estaban detrás de las fábricas de papel tenían que copiar y pegar artículos y evitar la detección de plagio mediante el uso excesivo de sinónimos, lo que creaba frases complejas. Ahora, esto podría ya no ser necesario.
“Su flujo de trabajo se ha reducido en un paso”, dice. “Solo necesitan generar un artículo completamente nuevo”.
Afortunadamente, algunos errores humanos aún hacen evidente el uso no revelado de la IA.
No es raro encontrar artículos que contengan fragmentos de una respuesta de maestría. Esto incluye frases como “No tengo acceso a datos en tiempo real” y, en algunos casos, texto que indica que el autor es un modelo de lenguaje de IA.
Estos artículos se publican regularmente en redes sociales (por ejemplo, véase aquí ) y también están siendo recopilados por investigadores. Una lista, basada en una estrategia de búsqueda desarrollada por el Dr. Cabanac, se puede encontrar en Retraction Watch . Otro proyecto es Academ-AI.
Algunos usos de la IA son, por supuesto, no maliciosos. Si bien las opiniones varían sobre qué debe divulgarse y qué no, una edición ligera y los correctores ortográficos probablemente sean adecuados. Generar un artículo completo con un LLM sin eliminar la información “a partir de mi última actualización de conocimientos”, en cambio, es una historia completamente distinta.
Pero aquellos artículos que hacen evidente el uso no revelado de la IA son, según la Dra. Fraisier-Vannier, casos atípicos; detectar artículos generados por IA que no contienen esas frases reveladoras requiere análisis que consumen más tiempo.
Uno de estos análisis, explica la Dra. Fraisier-Vannier, se puede realizar sobre las citas: las referencias que no tienen nada que ver con el tema o las citas fantasmas (referencias inventadas) pueden marcar un artículo como sospechoso.
“Tendremos que apoyarnos más en este tipo de banderas que en palabras clave”, afirma.
Las palabras clave seguirán detectando a algunos usuarios atípicos, personas que olvidaron borrar una frase. Pero me temo que, de lo contrario, perderemos a la mayoría.
La colaboración transfronteriza entre científicos sobre la cuestión de la integridad académica es fuerte.
“Tenemos una cuenta informal de Slack donde abordamos estos temas de integridad”, dice la Dra. Fraisier-Vannier. La cuenta incluye a algunas personas muy reconocidas en el ámbito de la integridad académica.
Y la comunidad que trabaja en estos temas intenta colaborar con otras partes interesadas. Las universidades y las editoriales deben participar. Intentamos organizarnos y tener el mayor impacto posible con todas las partes interesadas, pero sin duda aún queda mucho por hacer.
Al preguntársele si este tipo de investigación se convertirá en un campo de investigación por derecho propio, la Dra. Fraisier-Vannier afirma que es una pregunta que también circula en la comunidad investigadora. Pero quizás se convierta en una especialización dentro de cada campo de investigación.
“Por ejemplo, si pensamos en la alteración de imágenes, está más presente en biología que en informática, así que todo depende del campo”, explica.
Nativos digitales
También es necesario fomentar una mentalidad investigadora en los estudiantes.
Para los estudiantes, es fundamental desarrollar las habilidades para interactuar con la IA generativa de manera segura y crítica, pero el mito del nativo digital puede jugar en su contra.
La semana anterior a nuestra entrevista, mientras asistía a una conferencia, la Dra. Fraisier-Vannier escuchó a un colega decir algo que confirmó lo que ella ya sabía: que los estudiantes pueden no ser los expertos naturales en IA que creemos que son.
“Había una investigadora allí que explicó que tenía estudiantes que usaban ChatGPT para saber qué hora era”, recuerda.
Las herramientas de IA han llegado para quedarse y se pueden usar de forma inteligente, explica, pero no podemos dar por sentado que los estudiantes sabrán hacerlo instintivamente. Cuando la generación anterior crecía e internet era aún bastante nuevo, se enseñaba explícitamente a los estudiantes habilidades como cómo usar internet y en qué fuentes no confiar, explica, pero esto ya no es tan común.
Siento que después de mi generación, este tipo de enseñanza ha disminuido, porque la gente asume que, como los niños crecen usando herramientas digitales, saben usar internet. Pero no es así —añade—.
Los nativos digitales, personas que son naturalmente expertos en tecnología porque crecieron utilizando tecnología, son en verdad criaturas míticas .
Necesitamos capacitar a los estudiantes sobre las herramientas, sus habilidades, sus deficiencias, sus limitaciones y que siempre revisen sus fuentes. Esa es la regla principal, desde que los estudiantes empezaron a investigar en internet. Y creo que es aún más importante con la IA generativa, afirma la Dra. Fraisier-Vannier.
Esto es especialmente importante en el actual entorno online.
La Dra. Vlada Rozova, investigadora en aprendizaje automático aplicado en el Centro de Transformación Digital de la Salud de la Universidad de Melbourne, Australia, cuenta que a veces recibe propuestas para proyectos de investigación de maestría en los que se genera todo el ensayo, incluidas las referencias, y algunas de esas referencias son falsas.
Los resúmenes de búsqueda generados por LLM, que han sido criticados por contener respuestas a veces “alucinatorias ”, son muy tentadores de utilizar para ahorrar tiempo.
Pero la Dra. Rozova dice que es difícil estimar cuán confiable es la información en un resumen de LLM, ya que podría depender de cualquier cantidad de fuentes, incluidos artículos falsos generados por IA, y si bien es conveniente leer el resumen, no ayuda a los estudiantes a practicar sus habilidades de investigación.
“Es tentador, porque no es necesario hacer clic y confirmar la información uno mismo, abrir múltiples pestañas y sintetizarla uno mismo, pero esta actividad es realmente importante, especialmente en la investigación”, afirma.
“Esto es lo que les decimos a nuestros estudiantes de doctorado: todo lo que producen debe pasar por ustedes, debe tener ese filtro aplicado que son ustedes”.
Inquietantemente silencioso
Mientras los investigadores cazan zombis y los profesores intentan formar a estudiantes expertos en inteligencia artificial, los editores se enfrentan a otros problemas.
Simon Linacre, director comercial de Cabells y autor de The Predator Effect: Understanding the Past, Present and Future of Deceptive Journals, explica que la situación en Internet se ha vuelto más tranquila para los editores.
Las estadísticas de descargas, una métrica valiosa tanto para editoriales como para autores, incluso en el modelo de acceso abierto, han perdido su utilidad. Cada vez más, las cifras no reflejan el uso real, ya que algunas se obtendrán mediante IA y no todas se basarán en descargas como antes.
Si las personas usan IA para investigar, es posible que no lean ninguno de los artículos originales. Dado que muchos de los artículos de acceso abierto ya están absorbidos por modelos de IA, no se registrará ninguna visita al sitio web de la editorial.
Muchos editores y bibliotecas se están dando cuenta de que la métrica de descargas está en declive. Esto causará un verdadero problema, ya que las bibliotecas tendrán menos métricas valiosas para comprender el costo por descarga. Los editores están preocupados porque su tráfico está disminuyendo, afirma Linacre.
Los ataques automatizados, o la actividad de bots maliciosos, son otra amenaza que enfrentan tanto las universidades como las editoriales.
Según la empresa de ciberseguridad Imperva, parte del Grupo Thales, los bots maliciosos pueden dañar el sector educativo, por ejemplo, apoderándose de las cuentas de estudiantes y profesores y sustrayendo datos e investigaciones confidenciales.
Tim Ayling, especialista en ciberseguridad de Thales, explica a la revista QS Insights que la IA generativa facilita el desarrollo de bots simples, permitiendo que incluso personas sin conocimientos técnicos profundos lancen ataques de bots.
Las editoriales académicas poseen una gran cantidad de valioso contenido protegido por derechos de autor, parte del cual puede tener décadas de antigüedad. Revistas, artículos de investigación e incluso la reputación de los autores y las revistas académicas, especialmente prestigiosas, pueden ser muy valiosas, lo que naturalmente las convierte en blanco de delincuentes, afirma.
Debido a las vulnerabilidades de las herramientas de gestión de identidad y acceso heredadas en los sitios web de editoriales y universidades, así como a la capacidad limitada para monitorear y bloquear la actividad automatizada, este contenido puede correr un riesgo especial.
También se puede extraer contenido en masa de revistas académicas, afirma, lo que puede generar mayores costos operativos para los editores debido al enorme incremento de solicitudes de contenido y amenazar su viabilidad financiera.
“La extracción de datos protegidos por derechos de autor representa una amenaza financiera tanto para los editores académicos como para las universidades”, afirma Ayling.
Si esos datos se utilizan para generar contenido académico no original mediante herramientas de IA, esta actividad también amenaza con devaluar la investigación académica de alta calidad al distorsionar la evaluación del trabajo académico, además del riesgo de desinformación.
Es de hecho la cuestión fundamental sobre la integridad de la investigación la que parece aún más urgente.
En un artículo de 2024 , la Dra. Jessamy Bagenal, editora ejecutiva sénior y jefa del área clínica de The Lancet, preguntó: ¿cómo pueden los editores científicos y los editores de revistas asegurarse de que la investigación que ven es real?
Cómo sobrevivir a un brote de zombis
Hay otra pregunta que debemos reflexionar, una que a primera vista puede parecer irrelevante: ¿qué hacemos cuando hay un brote zombi?
La Teoría del Internet Muerto postula que lo que vemos en línea es resultado de la actividad de bots. Para interpretar la situación en las redes sociales, 404 Media sugirió otro término: el internet zombi: una mezcla de cuentas automatizadas, cuentas humanas y cuentas que alguna vez fueron humanas pero que ya no lo son.
En el ámbito de las redes sociales, explica el Dr. Jake Renzella, profesor titular de la Escuela de Ciencias de la Computación e Ingeniería de la Universidad de Nueva Gales del Sur (Australia), plataformas como Discord, que permiten a las personas crear comunidades más pequeñas y privadas, están en auge.
“¿Qué hacemos cuando hay un brote zombi? Construimos muros, nos aislamos en una comunidad”, explica.
Ahora bien, eso puede sonar un poco negativo, pero creo que lo que dicen esas plataformas de redes sociales más pequeñas es que la gente quiere una conexión más íntima con otras personas que saben que son reales.
Un pensamiento similar podría aplicarse al ámbito de la investigación. Sin embargo, por supuesto, la publicación abierta y el acceso abierto a la investigación son sumamente importantes.
La analogía de Internet zombi, como se describe en “ The Zombie Scientific Archive ”, encaja con la maleza en línea de publicaciones científicas poco éticas: una mezcla de contenido generado por IA, fraude humano y ciencia falsa difícil de eliminar que vive para siempre en modelos de IA.
Lo que esos muros que menciona el Dr. Renzella podrían significar para la investigación y la publicación es una pregunta que merece la pena reflexionar.
Linacre señala que la publicación bibliotecaria, en la que las bibliotecas universitarias asumen un mayor control de los resultados de las investigaciones, es una solución que se ha propuesto en respuesta a desafíos anteriores a los modelos tradicionales de investigación y publicación.
“En el clima actual, creo que este argumento aún tiene peso, y las universidades aprovechan las bajas barreras de entrada al sector editorial al exigir publicaciones a través de sus propias plataformas”, explica.
En su artículo de 2024, la Dra. Bagenal propuso una serie de soluciones.
Una parte, escribió, consistiría en encontrar nuevas formas de financiar el modelo de acceso abierto, como nuevos tipos de acuerdos colectivos que desvíen la atención de los cargos por procesamiento de artículos, a la vez que reforman el sistema de recompensas académicas para priorizar la calidad sobre la cantidad y reducir el vínculo entre publicación y promoción. También abogó por procesos editoriales más sólidos que examinen los estudios en busca de indicios de falsificación de datos.
Su artículo, sobre todo, es un llamado a editores y editoriales para que aborden los desafíos que plantea la IA generativa. Citó el libro The Coming Wave del emprendedor en IA Mustafa Suleyman y el escritor Michael Bhaskar, que advierte que la humanidad no está preparada para el impacto de las nuevas tecnologías e introduce el concepto de «aversión al pesimismo»: la reticencia a afrontar cambios difíciles.
Para los editores de revistas y publicaciones científicas de hoy, advirtió, la aversión al pesimismo es una trampa peligrosa en la que caer.
“Todas las señales sobre la IA generativa en las publicaciones científicas sugieren que las cosas no van a estar bien”, escribió.
0 Comments