NewYork Times, BBC, Vox folosite să antreneze algoritmii inteligenţei artificiale

Furt pentru antrenamentul A.I. Sute de mii de clipuri New York Times, BBC, Fox News folosite fără permisiune pentru a antrena algoritmii. Editorii anunţă procese

Cu ce se antrenează algoritmii inteligenţei artificiale? Cu videoclipuri de pe Youtube.

Publicitate

O investigaţie The Atlantic arată că giganţi ai tehnologiei precum Microsoft, Meta, Snap, Runway şi ByteDance au folosit peste 15 milioane de videoclipuri de pe YouTube pentru a antrena modele avansate de inteligenţă artificială , multe dintre ele aparţinând unor mari publicaţii de ştiri şi creatori independenţi, fără ca drepturile de autor să fie respectate.

Câte videoclipuri au fost folosite de fapt?

Articolul menţionează pe scurt că peste 30.000 de videoclipuri de la BBC s-au numărat printre datele de antrenament, alături de alte canale YouTube axate pe ştiri.

Folosind baza de date indexată publicată de The Atlantic, în aceleaşi seturi de date au fost găsite sute de mii de videoclipuri preluate de la cele mai mari publicaţii şi creatori de ştiri de pe YouTube, notează Niemenlab.

Materialele care au ajuns în seturi de date folosite direct pentru dezvoltarea modelelor comerciale de generare video.

Fox News: peste 88.000 videoclipuri
ABC News / Good Morning America: ~70.000 videoclipuri
Bloomberg: peste 55.000 videoclipuri
Vox Media (Vox, The Verge, Eater, The Dodo): peste 30.000 videoclipuri
The New York Times: peste 11.600 videoclipuri (dintre care 8.000 au fost folosite la antrenarea modelului Runway Gen-3)
BBC: peste 30.000 videoclipuri

În anul 2024, Vox Media a semnat un parteneriat cu OpenAI pentru o sumă care nu a fost făcută publică. Aceştia au permis companiei să folosească conţinutul său pentru produse precum ChatGPT.

Starke a spus că Vox Media va continua să exploreze parteneriate cu companii de AI care respectă munca lor, dar va „urmări remedii legale pentru a-şi proteja proprietatea intelectuală, atunci când este necesar”.

Runway Gen-3, unul dintre beneficiarii direcţi

Runway - companie evaluată la 3 miliarde de dolari - a folosit masiv videoclipuri ale marilor instituţii de presă în antrenarea modelului său Gen-3, competitor pentru Sora (OpenAI) şi Veo (Google). Printre clipurile preluate se află documentare, interviuri, materiale explicative şi imagini de tip b-roll.

Compania nu a încheiat acorduri de licenţiere cu instituţiile media vizate.

YouTube: folosirea clipurilor de către terţi încalcă termenii platformei

CEO-ul YouTube, Neal Mohan, a declarat anterior că este interzis ca terţi să descarce şi să folosească videoclipurile de pe platformă pentru antrenarea AI.

Google poate folosi o parte dintre materiale pentru modelele proprii (Gemini, Veo), dar alte companii nu au acest drept. Instituţiile media iau în calcul acţiuni legale.

The New York Times, acţiuni în instanţă

The New York Times deja se judecă cu OpenAI şi Microsoft pentru folosirea articolelor sale. Publicaţia a spune că nu a autorizat folosirea videoclipurilor de pe YouTube în seturi de date AI şi că „monitorizează îndeaproape” fenomenul.

De pe canalul oficial YouTube al The New York Times, videoclipurile erau descrise drept „video NYT, op docs, b-roll, discuţii, subiecţi umani.”

Sute de videoclipuri NYT Cooking erau etichetate cu cuvântul-cheie „scrambling eggs” („omletă”). Acest limbaj oferă indicii despre stilurile vizuale, sau chiar despre acţiuni specifice, pe care Gen-3 a fost instruit să le imite.

De la lansarea modelului, studiourile mari de la Hollywood au început să integreze produsele Runway în procesele lor de producţie pentru film, TV şi marketing. Conform unui raport Bloomberg din această vară, Netflix foloseşte deja instrumente Runway în producţia de conţinut, iar Walt Disney Co. testează în mod similar software-ul.

Sursa articolului este aici: niemanlab.org.

Autor: Claudia Baidoc claudia.baidocpaginademedia.ro