Radio viva Fenix | Apple y otras compañías utilizaron videos de YouTube para entrenar su inteligencia artificial

Apple y otras compañías utilizaron videos de YouTube para entrenar su inteligencia artificial

17 de Julio de 2024

Apple, Anthropic y otras empresas tecnológicas han sido señaladas por utilizar subtítulos de YouTube sin permiso para entrenar sus modelos de lenguaje.

Apple y otras empresas tecnológicas han sido acusadas de utilizar videos de YouTube para entrenar sus sistemas de inteligencia artificial, específicamente utilizando datos de subtítulos sin autorización. La investigación reveló que Apple, junto con compañías como NVIDIA, Anthropic y Salesforce, emplearon un conjunto de datos que incluye subtítulos de más de 173.000 videos de más de 48.000 canales de YouTube, que abarcan desde contenido de youtubers famosos como MrBeast y PewDiePie hasta medios de comunicación reconocidos como BBC y The New York Times.

El conjunto de datos, conocido como YouTube Subtitles, forma parte de un proyecto más grande llamado The Pile, un corpus de datos de código abierto que incluye una amplia variedad de fuentes para entrenar modelos de IA. Aunque se argumenta que estos subtítulos ofrecen contenido educativo y cultural, la investigación señala que fueron utilizados sin permiso explícito de los creadores de los videos.

Apple empleó estos datos para entrenar su IA OpenELM, diseñada para ejecutarse en dispositivos como el iPhone. A diferencia de OpenAI, que desarrolló sus propias herramientas para extraer y utilizar subtítulos de manera ética, las empresas mencionadas se basaron en un conjunto de datos compilado por EleutherAI, un proyecto de código abierto que busca democratizar el desarrollo de IA.

A pesar de las críticas, Anthropic y Salesforce han afirmado que usaron estos datos dentro de los límites legales, y que cualquier violación a los términos de servicio de YouTube sería responsabilidad del proveedor del conjunto de datos. Otras grandes empresas tecnológicas, como Microsoft, Meta y Yandex, también han utilizado The Pile para entrenar modelos avanzados de IA, cada uno con aplicaciones específicas como procesamiento de lenguaje natural y recomendación de contenido.

Escrito por: Daniel Martín

⇒Foto: Christian Wiediger

NOTICIAS RELEVANTES

Distrito recupera la calle 19 en Los Mártires tras retirar cambuches y 50 toneladas de residuos

25 de Julio de 2026

La Alcaldía de Bogotá adelantó un operativo de recuperación del espacio público en la...

Seguir leyendo →

Prime Video incorpora videojuegos gracias a la integración con Amazon Luna

25 de Julio de 2026

Amazon anunció una importante actualización para Prime Video al integrar Amazon Luna, su...

Seguir leyendo →

La espada de Bolívar regresará a la Quinta de Bolívar tras permanecer casi cuatro años en la Casa de Nariño

25 de Julio de 2026

La espada de Simón Bolívar será trasladada nuevamente a la Casa Museo Quinta de Bolívar, en el...

Seguir leyendo →

VER TODAS LAS NOTICIAS