Apple y otras compañías utilizaron videos de YouTube para entrenar su inteligencia artificial

17 de Julio de 2024

Apple, Anthropic y otras empresas tecnológicas han sido señaladas por utilizar subtítulos de YouTube sin permiso para entrenar sus modelos de lenguaje.

Radio Viva Fenix Apple y otras empresas tecnológicas han sido acusadas de utilizar videos de YouTube para entrenar sus sistemas de inteligencia artificial, específicamente utilizando datos de subtítulos sin autorización. La investigación reveló que Apple, junto con compañías como NVIDIA, Anthropic y Salesforce, emplearon un conjunto de datos que incluye subtítulos de más de 173.000 videos de más de 48.000 canales de YouTube, que abarcan desde contenido de youtubers famosos como MrBeast y PewDiePie hasta medios de comunicación reconocidos como BBC y The New York Times.
 
El conjunto de datos, conocido como YouTube Subtitles, forma parte de un proyecto más grande llamado The Pile, un corpus de datos de código abierto que incluye una amplia variedad de fuentes para entrenar modelos de IA. Aunque se argumenta que estos subtítulos ofrecen contenido educativo y cultural, la investigación señala que fueron utilizados sin permiso explícito de los creadores de los videos. Radio Viva Fenix Apple empleó estos datos para entrenar su IA OpenELM, diseñada para ejecutarse en dispositivos como el iPhone. A diferencia de OpenAI, que desarrolló sus propias herramientas para extraer y utilizar subtítulos de manera ética, las empresas mencionadas se basaron en un conjunto de datos compilado por EleutherAI, un proyecto de código abierto que busca democratizar el desarrollo de IA.
 
A pesar de las críticas, Anthropic y Salesforce han afirmado que usaron estos datos dentro de los límites legales, y que cualquier violación a los términos de servicio de YouTube sería responsabilidad del proveedor del conjunto de datos. Otras grandes empresas tecnológicas, como Microsoft, Meta y Yandex, también han utilizado The Pile para entrenar modelos avanzados de IA, cada uno con aplicaciones específicas como procesamiento de lenguaje natural y recomendación de contenido.

Escrito por: Daniel Martín

⇒Foto: Christian Wiediger

NOTICIAS RELEVANTES

TransMilenio se expandirá por la Autopista Norte hasta BIMA tras aval ambiental

9 de Enero de 2026

El sistema de transporte masivo TransMilenio, que diariamente moviliza a más de cuatro millones de...

Seguir leyendo →

TransMilenio sube su tarifa desde el 14 de enero de 2026: el pasaje queda en $3.550

9 de Enero de 2026

La Alcaldía de Bogotá confirmó que, a partir del miércoles 14 de enero de 2026, el pasaje de...

Seguir leyendo →

Cédula digital será válida para votar en las elecciones de 2026 en Colombia

9 de Enero de 2026

La Registraduría Nacional del Estado Civil confirmó que la cédula de ciudadanía digital será...

Seguir leyendo →
Radio Viva Fenix



VIVO
VIVO
VIVO
VIVO
VIVO
VIVO
VIVO