Google Books, una herramienta esencial para académicos al indexar material publicado, ha comenzado a indexar libros de baja calidad, lo que podría impactar negativamente en su herramienta de seguimiento del lenguaje, Ngram.
Según el informe de 404Media, Google Books ha incluido varios libros que podrían haber sido generados por inteligencia artificial (IA). La publicación realizó una búsqueda en Google Books utilizando el término «as of my last knowledge update», una frase comúnmente empleada por chatbots como ChatGPT. Esta función permite buscar frases o términos específicos, devolviendo generalmente obras que contienen dichas frases.
404Media descubrió que, si bien la mayoría de los libros en las primeras páginas de la búsqueda trataban sobre IA, también había algunos resultados que no abordaban la tecnología y aparentaban ser escritos por un bot.
Se menciona que libros como «Bears, Bulls, and Wolves: Stock Trading for the Twenty-Year-Old» de Tristin McIver, parecían haber obtenido información de Wikipedia sobre eventos financieros y utilizaban la frase «as of my last knowledge update». Además, otros libros sobre temas como Twitter aún contenían información del año 2021, cuando algunos modelos de IA habrían recibido por última vez datos de entrenamiento.
Google Books constituye la principal fuente de datos para su visor de Ngram, una herramienta de investigación que analiza la evolución del lenguaje a lo largo del tiempo mediante el análisis de obras escritas.
Es relevante señalar que Google Books ha escaneado e indexado obras escritas que datan desde el siglo XVI, mientras que Ngram actualizó por última vez los datos en 2019. A pesar de que Ngram no es perfecto, es ampliamente utilizado por lingüistas y académicos para recopilar información en sus investigaciones.
Google ha comunicado a 404Media que las obras recientes en Google Books no aparecen en los resultados de Ngram en la actualidad, aunque es posible que estas sean incluidas en futuras actualizaciones de datos.