¿Tiene cabida la IA en la evaluación de la investigación?
A medida que el mundo se apresura a aplicar la IA a sus prácticas laborales, su uso se está haciendo evidente tanto en la producción de “productos” de investigación para la evaluación (resultados, propuestas, CV) como en la evaluación real de esos productos y sus productores.
Todo esto llega en un momento en que el sector de la investigación busca reformar la forma en que evalúa la investigación, tanto para mitigar algunos de los resultados problemáticos de las formas de evaluación dominadas por la publicación (como el aumento de las fábricas de artículos, las ventas de autorías, los cárteles de citas y la falta de incentivos para participar en prácticas de investigación abiertas) como para priorizar la revisión por pares sobre las formas de evaluación meramente cuantitativas.
Donde se encuentran la reforma de la evaluación y las herramientas de IA
Hay dos problemas principales que surgen en la intersección de la reforma de la evaluación y la IA. El primero es el grado en que nuestro régimen de evaluación actual está impulsando el uso indebido de la IA generativa para producir resultados muy apreciados que parecen académicos pero no lo son. Y el segundo es el grado en que la IA podría usarse legítimamente en la evaluación de la investigación en el futuro.
En el primer tema, estamos en terreno bien trillado.
Los métodos de evaluación estrechos y centrados en la publicación que se utilizan para evaluar la investigación y a los investigadores están impulsando muchos comportamientos deficientes. Uno de estos comportamientos es la búsqueda de prácticas de investigación cuestionables, como el sesgo de publicación y citación . Peor aún es la mala conducta en la investigación, como la fabricación, la falsificación y el plagio.
El sistema recompensa la publicación en sí misma por encima del contenido y la calidad de la investigación, hasta el punto de que ahora recompensa meras aproximaciones de publicaciones. Por lo tanto, no debería sorprender que los malos actores estén motivados financieramente para utilizar cualquier medio a su disposición para producir publicaciones, incluida la IA.
En este caso, nuestro principal problema no es la IA, sino la evaluación de la investigación centrada en la publicación. Podemos abordar este problema ampliando la gama de contribuciones que valoramos y adoptando un enfoque más cualitativo para la evaluación . Al hacer esto, al menos desincentivaremos la contaminación del llamado “registro académico” (contenido curado y revisado por pares) con falsificaciones y fraudes.
IA en los resultados de investigación versus evaluación.
Suponiendo que lográramos desincentivar el uso de IA para generar publicaciones sin valor en cualquier sistema de evaluación reformado, la pregunta es si podría incentivarse en otros aspectos.
Esto se debe a que ampliar la valoración de la investigación y adoptar formas de evaluación más cualitativas (léase “narrativas”) implicará más trabajo, no menos, tanto para los evaluadores como para los evaluados.
Y si hay algo en lo que sabemos que GenAI es bueno, es en generar narrativas rápidamente. GenAI podría incluso ayudar a nivelar el campo de juego para aquellos para quienes el lenguaje de evaluación no es su primera lengua, haciendo que los artículos sean más claros y fáciles de leer.
La mayoría de las directrices establecen que si se siguen las precauciones de seguridad adecuadas (si el humano mantiene el control editorial, es transparente sobre el uso de la IA y no introduce información confidencial en un Modelo de Lenguaje Grande), es perfectamente legítimo enviar el contenido resultante para su evaluación.
Donde las directrices son más cautelosas es en el uso de la IA para realizar la evaluación. Las directrices
del Espacio Europeo de Investigación (EEI) sobre el uso responsable de la IA en la investigación son claras al señalar que deberíamos “abstenernos de utilizar herramientas GenAI en revisiones y evaluaciones por pares”. Pero esto no significa que los investigadores no estén experimentando.
El equipo de Mike Thelwall ha tenido poco éxito al usar ChatGPT para replicar las puntuaciones de las revisiones por pares humanas, y muchos investigadores creen haber sido víctimas de un nuevo Revisor Dos, demasiado exhaustivo y menos agresivo, que probablemente sea una IA.
Pero dado que la revisión por pares humanos ya es un ejercicio muy controvertido (¿cuándo el Revisor Uno está de acuerdo con el Revisor Dos?), debemos hacernos la pregunta: si ChatGPT no puede replicar las puntuaciones de la revisión por pares humanos, ¿dice más sobre la IA o el humano?
Tenemos que cuestionar si las puntuaciones humanas son las correctas y si le estamos haciendo un flaco favor al aprendizaje automático al esperar que simplemente replique las puntuaciones humanas, solo que más rápido. Se podría argumentar que el verdadero poder de la IA está en ver lo que no podemos ver; encontrar patrones que no podemos; e identificar el potencial que no podemos.
El doble valor de la revisión por pares
Quizás primero debamos preguntarnos, ¿el proceso académico en sí mismo se trata puramente de generar y (a través de la evaluación de la investigación) verificar nuevos descubrimientos? ¿O hay algo valioso en el acto de descubrimiento y verificación: la adquisición y el despliegue de habilidades, conocimiento y comprensión, que es fundamental para ser humano?
Debemos preguntarnos si el proceso de colaboración con otros seres humanos en la búsqueda de nuevos conocimientos se limita a estos nuevos conocimientos, o si la tarea de establecer conexiones e interactuar con otros es esencial para el bienestar humano, la sociedad civil y la seguridad geopolítica.
El reconocimiento de nuestros semejantes —mediante la revisión y evaluación por pares— va más allá de una simple verificación de nuestros resultados y contribuciones; es, en cambio, algo crucial para nuestro bienestar y motivación: un reconocimiento de que, de persona a persona, te veo y te valoro. ¿Acaso algún investigador estaría contento sabiendo que su contribución ha sido evaluada únicamente por la automatización?
La cuestión es si valoramos solo el resultado o el proceso.
Y si subcontratamos continuamente ese proceso a la tecnología y generamos resultados que podrían proporcionar respuestas, pero que en realidad no entendemos o en los que no confiamos, corremos el riesgo de perder toda conexión humana con el proceso de investigación. Las habilidades, el conocimiento y la comprensión que acumulamos al realizar evaluaciones son sin duda fundamentales para la investigación y el desarrollo de los investigadores.
Proceder con la cantidad adecuada de precaución
No hay justificación para condenar a la IA por completo. Se está utilizando (y su precisión luego verificada por humanos) para resolver muchos de los problemas previamente no resueltos de la sociedad .
Sin embargo, cuando se trata de cuestiones de juicio, donde los humanos pueden no estar de acuerdo en la “respuesta correcta”, o incluso en que exista una respuesta correcta, debemos ser mucho más cautelosos sobre el papel de la IA. La evaluación de la investigación está en esta categoría.
Hay muchos paralelismos entre el papel de las métricas y el papel de la IA en la evaluación de la investigación. Existe un acuerdo significativo en que las métricas no deberían realizar nuestras evaluaciones por nosotros sin supervisión humana. Y los reformadores de la evaluación tienen claro que referirse a indicadores apropiados a menudo puede conducir a una mejor evaluación, pero el juicio humano debe tener prioridad.
Esta lógica nos ofrece un modelo para abordar la IA: priorizando el juicio humano y apoyando la tecnología; o bien, la evaluación humana aumentada por IA.
Al prohibir por completo el uso de la IA en la evaluación, las directrices de la ERA adoptaron una respuesta inicial comprensiblemente cautelosa. Sin embargo, con la debida moderación, la participación juiciosa de la IA en la evaluación puede ser nuestra aliada, no nuestra enemiga. Todo depende en gran medida del tipo de evaluación de la investigación del que hablamos y del papel que permitimos que desempeñe la IA.
El uso de la IA para proporcionar un primer borrador de los trabajos escritos, o para resumir, identificar inconsistencias o proporcionar una perspectiva sobre el contenido de dichos trabajos podría conducir a evaluaciones cualitativas más justas y sólidas.
Sin embargo, no deberíamos confiar en la IA para realizar el trabajo creativo de la reforma de la evaluación y replantearnos el concepto de “calidad”, ni deberíamos externalizar por completo la toma de decisiones humanas a la IA. Al buscar reformar la evaluación de la investigación, simplemente deberíamos estar abiertos a las posibilidades que ofrecen las nuevas tecnologías para respaldar los juicios humanos.
La Dra. Elizabeth Gadd es jefa de cultura y evaluación de la investigación en la Universidad de Loughborough, Reino Unido. Preside el Grupo de Evaluación de la Investigación de la Red Internacional de Sociedades de Gestión de la Investigación (INORMS) y es vicepresidenta de la Coalición para el Avance de la Evaluación de la Investigación (CoARA). Es coautora del informe encargado por UKRI, «Aprovechando la Marea Métrica: Indicadores, infraestructuras y prioridades para la Evaluación de la Investigación en el Reino Unido».
El profesor Nick Jennings es vicerrector y presidente de la Universidad de Loughborough, Reino Unido. Anteriormente, fue vicerrector de investigación y empresa en el Imperial College de Londres, el primer asesor científico principal del Gobierno del Reino Unido en materia de seguridad nacional y el primer catedrático regio de informática del Reino Unido. Su investigación se centra en las áreas de inteligencia artificial, sistemas autónomos, ciberseguridad y computación basada en agentes.
Este comentario se publicó originalmente en el blog “Impacto de las Ciencias Sociales” de la LSE. Lea el artículo original aquí . Ofrece las opiniones de los autores.
0 Comments