OpenAI transcribió más de un millón de horas de videos de YouTube para entrenar a GPT-4

Un reciente informe del New York Times ha revelado las estrategias empleadas por los principales actores en el campo de la inteligencia artificial para ampliar su acceso a datos de entrenamiento.

Esta semana, el Wall Street Journal alertó sobre los desafíos que enfrentan las empresas de inteligencia artificial al recopilar datos de entrenamiento de alta calidad. En línea con esta preocupación, The New York Times ha detallado algunas de las tácticas utilizadas por estas empresas. Como era de esperar, estas estrategias a menudo entran en un área gris de la ley de derechos de autor en el ámbito de la inteligencia artificial.

El reporte se centra en OpenAI, que, ante la urgente necesidad de datos de entrenamiento, desarrolló su modelo de transcripción de audio llamado Whisper, transcribiendo más de un millón de horas de videos de YouTube para mejorar su avanzado modelo de lenguaje, GPT-4. Aunque este enfoque plantea cuestiones legales, OpenAI, según The New York Times, consideró que se trataba de un uso justo. El presidente de OpenAI, Greg Brockman, incluso estuvo personalmente involucrado en la recolección de los videos utilizados para este propósito.

Lindsay Held, portavoz de OpenAI, señaló que la empresa crea conjuntos de datos únicos para cada uno de sus modelos con el fin de enriquecer su comprensión del mundo y mantener su competitividad en la investigación global. Held también mencionó que OpenAI utiliza diversas fuentes, incluyendo datos públicos y asociaciones para datos privados, e incluso está explorando la generación de sus propios datos sintéticos.

Según el artículo del Times, la empresa agotó sus fuentes de datos útiles en 2021 y consideró transcribir videos de YouTube, podcasts y audiolibros como una solución alternativa. Además de YouTube, Google también ha recopilado transcripciones de videos, aunque ambas empresas podrían enfrentar desafíos legales por estas prácticas.

Este informe destaca los dilemas éticos y legales que enfrentan las empresas de tecnología en su búsqueda de datos de entrenamiento para mejorar sus modelos de inteligencia artificial. Mientras tanto, el mundo de la inteligencia artificial enfrenta la creciente escasez de datos de entrenamiento, lo que podría obstaculizar el desarrollo futuro de esta tecnología. Las soluciones propuestas, como el entrenamiento con datos sintéticos o el aprendizaje curricular, todavía no han sido plenamente validadas y podrían no ser suficientes para abordar este desafío en constante evolución.

OpenAI transcribió más de un millón de horas de videos de YouTube para entrenar a GPT-4

Up next

¿Para quién está destinado el iPad Pro OLED rumoreado de Apple?

Author

Editor EntornoInteligente

Tags

Share article

Deja una respuesta

Programa Análisis de Entorno. Suscríbete por Youtube @analisisdeentorno

Nuevo Programa. Análisis de Entorno. 03/02/2026

The 10 interesting benefits of listening to classical music

Instagram embed example

Nueva etapa economica bajo tutela financiera

La cuerda más larga, por Rory Branker

Andreína Baduel estimó que la Ley de Amnistía es un instrumento de impunidad que prolonga el dolor

«Debemos seguir presionando»: Alfredo Romero consideró restrictiva la nueva Ley de Amnistía

Jorge Rodríguez admite que Ley contra El Odio fue mal utilizada

Maria Corina Machado prepara su regreso a Venezuela

Donald Trump en la inauguración de su Junta de Paz da un plazo de «10 días» a Irán para llegar a un acuerdo o «de lo contrario pasarán cosas malas»

«El presidente Trump espera que esto continúe»: Casa Blanca responde a NTN24 sobre los presos políticos que no han sido excarcelados

El FMI calificó la situación económica y humanitaria de Venezuela como “bastante frágil”

Donald Trump anunció que 50 millones de barriles de petróleo venezolano están en camino a EEUU

Donald Trump ordenó desclasificar los archivos gubernamentales relacionados con ovnis y vida extraterrestre

El diputado opositor Henrique Capriles dice que amnistía debe cerrar el capítulo de «represión» en Venezuela

El FMI asegura que podrán iniciar contactos con Venezuela si Caracas lo requiere

Delcy Rodríguez pide revisar casos no contemplados en la ley de amnistía

Familiares de presos políticos levantan huelga de hambre y aguardan excarcelaciones

España pedirá a la UE que retire las sanciones a Delcy Rodríguez

Una ley de amnistía aprobada entre restricciones y dudas

Juan Pablo Guanipa obtiene libertad plena tras aprobación de ley de amnistía

Vladimir Putin recibió en Moscú al canciller del régimen cubano y aseguró que Rusia “siempre” estará del lado de La Habana

El Parlamento de Venezuela retomará este jueves el debate sobre la ley de amnistía

Nueva etapa economica bajo tutela financiera

La cuerda más larga, por Rory Branker

Andreína Baduel estimó que la Ley de Amnistía es un instrumento de impunidad que prolonga el dolor

«Debemos seguir presionando»: Alfredo Romero consideró restrictiva la nueva Ley de Amnistía

OpenAI transcribió más de un millón de horas de videos de YouTube para entrenar a GPT-4

Up next

Author

Tags

Share article

Deja una respuesta

You May Also Like