Ciencia: El 13,5% de los artículos biomédicos podrían ser escritos por ChatGPT y otras IA en 2024

Para medir el impacto de los grandes modelos lingüísticos en el lenguaje escrito, los investigadores compararon la frecuencia real de palabras en 2024 con los valores previstos. El pronóstico se basó en datos de 2021-2022, período anterior a la implementación masiva del LLM. Los expertos excluyeron del análisis los datos de 2023, ya que podrían reflejar el efecto del uso de chatbots de IA. Entre las 26.657 palabras, los científicos encontraron muchos términos con un uso excesivo en 2024.
Entre los marcadores LLM, se identificaron diversas formas de las palabras «delves» (excavar) con un coeficiente de exceso de frecuencia (r) de 28, «underscores» (enfatizar) con un r de 13,8 y «showcasing» (demostración) con un r de 10,7. El grupo también incluyó «potential» (potencial), «hallazgos» y «critical» (crítico). El uso de estas palabras marcadoras aumentó considerablemente en 2023-2024. A modo de comparación, el coeficiente de exceso de frecuencia de la palabra «ébola» en 2015 fue de 9,9 y el de «zika» en 2017 fue de 40,4.
Ratio de frecuencia y brecha de frecuencia de palabras "redundantes" en 2022-2024
Los investigadores también seleccionaron manualmente 900 palabras "redundantes" únicas que se desviaban del vocabulario estándar de los artículos científicos. Durante la pandemia de COVID-19, su corpus consistió casi en su totalidad en palabras de contenido (como "respiratorio", "remdesivir", etc.), mientras que el vocabulario redundante en 2024 consistió casi en su totalidad en palabras de estilo. Las palabras de "contenido" que se desvían del vocabulario principal son predominantemente sustantivos (79,2%) y, por lo tanto, la mayoría de las palabras "redundantes" antes de 2024 también eran sustantivos. En cambio, de las 379 palabras de estilo en 2024, el 66% eran verbos y el 14% adjetivos.
Al resumir el estudio, los expertos coincidieron en que sus colegas suelen utilizar los modelos lingüísticos en su trabajo para mejorar la gramática, la retórica y la legibilidad general de sus textos, así como para traducir publicaciones al inglés y crear resúmenes rápidamente. Sin embargo, los autores del estudio señalaron que los modelos lingüísticos a menudo inventan citas falsas, formulan conclusiones inexactas y formulan afirmaciones falsas que parecen autoritarias y persuasivas. Si bien los expertos pueden detectar y corregir errores factuales en sus propios escritos, esto se vuelve más difícil al trabajar con revisiones bibliográficas profesionales (y en otros casos).
Además, los LLM pueden reproducir sesgos y otras deficiencias de sus datos de entrenamiento, así como inducir plagio manifiesto. Esto hace que los textos generados por IA sean menos diversos y originales que los escritos por humanos. Esta unificación puede reducir la calidad de las publicaciones científicas: por ejemplo, todas las conclusiones generadas por la IA sobre un tema determinado pueden parecer iguales, contener las mismas ideas y referencias, lo que limita la aparición de nuevos conceptos y agrava el problema de las citas no éticas. Los autores del estudio también temen que participantes inescrupulosos en el proceso científico, como las empresas de investigación científica, puedan utilizar modelos lingüísticos para producir masivamente publicaciones falsas.
Los autores del estudio señalan que su método para encontrar palabras redundantes podría ayudar a rastrear el uso futuro del LLM en publicaciones académicas, solicitudes de becas y otros textos. Los investigadores también esperan que su análisis aporte información para los debates necesarios sobre políticas de LLM, al proporcionar un método para medir el uso de patrones lingüísticos amplios.
Existen otros riesgos asociados al uso de IA en el ámbito sanitario. Por ejemplo, investigadores de la Universidad Flinders (Australia) descubrieron que chatbots de IA populares como GPT-4o de OpenAI, Gemini 1.5 Pro de Google, Claude 3.5 Sonnet de Anthropic y Grok Beta de X pueden reutilizarse fácilmente para proporcionar respuestas falsas a preguntas médicas de forma rutinaria. Los autores del estudio lograron entrenar a LLM para que proporcionara citas falsas de revistas médicas reales y creara una imagen de autoridad. Sin las medidas de seguridad adecuadas, los atacantes podrían usar estas capacidades para generar desinformación médica masiva y difundirla por internet y redes sociales, advirtieron los expertos.
vademec