Tecnologia

OpenAI Transcribió más de un Millón de Horas de Vídeos de YouTube para Entrenar GPT-4 Esquivando su Política de uso

Share Button

POR REDACCIÓN

Pero hecha la ley, hecha la trampa: en las últimas horas un reportaje de The New York Times recoge las artimañas de las principales empresas de inteligencia artificial para conseguir en esa valiosa información protegida por derechos de propiedad intelectual dando una vuelta de tuerca a esas condiciones para que caigan en una zona gris donde puedan aprovecharse de ella.

Según NYT, allá por 2021 OpenAI se enfrentó a un serio problema de falta de suministro de datos, así que se les ocurrió una idea tras analizar los recursos disponibles: transcribir videos, podcasts y audiolibros de YouTube.

Por aquel entonces ya había empleado datos de Github de código de programación, bases de datos de movimientos de ajedrez y contenido de tareas escolares de Quizlet.
Así que trazó un plan:

supuestamente desarrolló Whisper, su modelo de IA de transcripción de audio, para así poder transcribir más de un millón de horas de vídeos de YouTube que servirían para entrenar su modelo de lenguaje más avanzado hasta el momento, GPT-4. Según el medio, el presidente de OpenAI Greg Brockman participó personalmente en la recopilación de vídeos para un uso legalmente cuestionable pero legítimo.

Cabe mencionar que YouTube prohíbe el uso de sus vídeos para aplicaciones que sean independientes de la plataforma.

The Verge preguntó al portavoz de Google Matt Bryant sobre esta operación y su respuesta fue que la compañía ‘ha visto informes no confirmados de la actividad de OpenAI’ y que además ‘tanto nuestros archivos robots.txt como nuestros Términos de servicio prohíben la extracción o descarga no autorizada de contenido de YouTube’.

Esta misma semana, su director ejecutivo dijo algo parecido sobre la posibilidad de que OpenAI usara YouTube para entrenar a Sora, el generador de vídeos. Y Matt Bryant es claro: Google toma medidas para evitar un uso no autorizado ‘cuando tenemos una base legal o técnica clara para hacerlo’.