Apple y otras compañías utilizaron videos de YouTube para entrenar su inteligencia artificial

17 de Julio de 2024

Apple, Anthropic y otras empresas tecnológicas han sido señaladas por utilizar subtítulos de YouTube sin permiso para entrenar sus modelos de lenguaje.

Radio Viva Fenix Apple y otras empresas tecnológicas han sido acusadas de utilizar videos de YouTube para entrenar sus sistemas de inteligencia artificial, específicamente utilizando datos de subtítulos sin autorización. La investigación reveló que Apple, junto con compañías como NVIDIA, Anthropic y Salesforce, emplearon un conjunto de datos que incluye subtítulos de más de 173.000 videos de más de 48.000 canales de YouTube, que abarcan desde contenido de youtubers famosos como MrBeast y PewDiePie hasta medios de comunicación reconocidos como BBC y The New York Times.
 
El conjunto de datos, conocido como YouTube Subtitles, forma parte de un proyecto más grande llamado The Pile, un corpus de datos de código abierto que incluye una amplia variedad de fuentes para entrenar modelos de IA. Aunque se argumenta que estos subtítulos ofrecen contenido educativo y cultural, la investigación señala que fueron utilizados sin permiso explícito de los creadores de los videos. Radio Viva Fenix Apple empleó estos datos para entrenar su IA OpenELM, diseñada para ejecutarse en dispositivos como el iPhone. A diferencia de OpenAI, que desarrolló sus propias herramientas para extraer y utilizar subtítulos de manera ética, las empresas mencionadas se basaron en un conjunto de datos compilado por EleutherAI, un proyecto de código abierto que busca democratizar el desarrollo de IA.
 
A pesar de las críticas, Anthropic y Salesforce han afirmado que usaron estos datos dentro de los límites legales, y que cualquier violación a los términos de servicio de YouTube sería responsabilidad del proveedor del conjunto de datos. Otras grandes empresas tecnológicas, como Microsoft, Meta y Yandex, también han utilizado The Pile para entrenar modelos avanzados de IA, cada uno con aplicaciones específicas como procesamiento de lenguaje natural y recomendación de contenido.

Escrito por: Daniel Martín

⇒Foto: Christian Wiediger

NOTICIAS RELEVANTES

Pruebas de carga en el puente de la calle 153: IDU avanza hacia su pronta habilitación

25 de Abril de 2026

El Instituto de Desarrollo Urbano llevó a cabo este viernes una serie de pruebas de carga en el...

Seguir leyendo →

Copilot evoluciona: la IA de Microsoft ahora ejecuta tareas por sí sola en Word y Excel

25 de Abril de 2026

Microsoft dio un paso clave en la integración de la inteligencia artificial en el trabajo diario...

Seguir leyendo →

Bogotá en alerta por sarampión: confirman nuevo caso y refuerzan vacunación

25 de Abril de 2026

La confirmación de un nuevo caso de sarampión en Bogotá encendió las alarmas en el sector salud...

Seguir leyendo →
Radio Viva Fenix



VIVO
VIVO
VIVO
VIVO
VIVO
VIVO
VIVO