De kans is groot dat je al gebruikt hebt gemaakt van generatieve AI - door ChatGPT een gedicht te laten schrijven over de ondraaglijke lichtheid van een donderdagavond, of door met Dall-E beelden te genereren van "Pikachu die paardrijdt in Toscane, ukiyo-e stijl". Generatieve AI-systemen zoals ChatGPT, Dall-E, en vele anderen werken volgens hetzelfde principe. Ze worden getraind op bestaande creatieve werken (bv. afbeeldingen, video’s, tekst, softwarecode, etc.) en combineren die vervolgens om meer werken van dezelfde soort te creëren.
2022 was het jaar waarin generatieve AI brede bekendheid kreeg, niet alleen voor amusement maar ook voor haar potentiële professionele toepassingen. Niettemin is er nog veel rechtsonzekerheid over de input en output van AI en - in het bijzonder – in verhouding tot het auteursrecht. Dit artikel richt zich op twee zogenaamde class actions in de Verenigde Staten tegen twee verschillende soorten generatieve AI-systemen. Deze rechtszaken zijn bijzonder belangrijk omdat ze opheldering kunnen verschaffen over de toepasselijkheid van bestaande wettelijke voorschriften op generatieve AI.
Op 13 januari 2023 werd in San Francisco, CA, een class action ingesteld tegen drie ondernemingen, Stability AI (Stable Diffusion), Midjourney, en DeviantArt, Inc. (DreamUp) namens kunstenaars wier werken werden gebruikt om AI-algoritmen te trainen.
Stable Diffusion maakt gebruik van een wiskundig proces, diffusie genaamd, om gecomprimeerde kopieën van trainingsbeelden op te slaan, die op hun beurt opnieuw worden gecombineerd om nieuwe beelden te genereren. De belangrijkste bewering van de klagers in deze zaak is dat Stable Diffusion ongeoorloofde kopieën bevat van miljoenen (en mogelijk miljarden) auteursrechtelijk beschermde beelden, gemaakt zonder medeweten of toestemming van de kunstenaars.
De klacht duikt diep in de details van hoe de technologie achter Stable Diffusion werkt. Het belicht bovendien hoe Stability AI, LAION ("Large-Scale Artificial Intelligence Open Network") betaalde om LAION-5B samen te stellen, zijnde een dataset van 5,85 miljard afbeeldingen. De datasets van LAION zijn gebaseerd op Common Crawl, een non-profit organisatie die maandelijks miljarden webpagina's schraapt en deze vervolgens openbaar maakt als enorme datasets. Enkele van de meest voorkomende websites die door Common Crawl worden geschraapt voor inhoud zijn Pinterest, Flickr, Tumblr, Wikimedia, DeviantArt en WordPress websites. (https://waxy.org/2022/08/exploring-12-million-of-the-images-used-to-train-stable-diffusions-image-generator/).
De vorderingen in de Stable Diffusion class-action omvatten betichtingen van:
De klacht in de zaak Andersen tegen Stability AI Ltd. (3:23-cv-00201), District Court, N.D. California en verdere informatie zijn te vinden op: stablediffusionlitigation.com
Enkele maanden eerder, op 3 november 2022, werd bij de Amerikaanse federale rechtbank in San Francisco een class-action rechtszaak aangespannen tegen GitHub's Copilot AI-coderingsassistent. GitHub, Microsoft (de eigenaar van GitHub), en OpenAI worden aangeklaagd omdat ze het auteursrecht zouden hebben geschonden door de reproductie van open-source code met behulp van AI.
Copilot is een AI-systeem, getraind op openbaar beschikbare bronnen en naar verluidt op openbare GitHub-repositories, dat coderen gemakkelijker wil maken door een code "prompt" van een programmeur te accepteren en een mogelijke voltooiing van die code als output te genereren. Copilot lijkt echter af en toe letterlijke code te reproduceren uit bestaande code databankes, zelfs waaronder code onder beperkende licenties. De belangrijkste stelling van de klacht is dat GitHub de rechten heeft geschonden van een groot aantal makers die code of andere werken onder open-source licenties op GitHub hebben geplaatst.
De vermeende inbreuk heeft betrekking op een reeks van 11 populaire open source-licenties die allemaal naamsvermelding en vermelding van het auteursrecht vereisen, waaronder de MIT-licentie, GPL en Apache-licentie. Copilot toont de eindgebruiker echter geen enkele vermelding van de oorspronkelijke auteur van de code, noch informatie over de toepasselijke licenties.
De claims in de GitHub Copilot class-action omvatten beschuldigingen van:
De klacht voor de zaak Doe 1 v. GitHub Inc. (3:22-cv-06823), District Court, N.D. California en verdere informatie zijn te vinden op: githubcopilotlitigation.com.
De Stable Diffusion- en GitHub Copilot-zaken rakende kern van veel juridische onzekerheden in verband met de training en het gebruik van generatieve AI. Met name in de VS is een van de belangrijkste vragen die door de rechtbanken moet worden opgehelderd of het gebruik van auteursrechtelijk beschermde inhoud om AI-systemen te trainen en nieuwe output te genereren, kan worden beschouwd als zogenaamde “fair use". Terwijl het GitHub-proces tactischeen fair use-verdediging probeert te omzeilen door zich te richten op andere claims zoals schendingen van DMCA, CCPA, contracten en onwettig concurrentiebeperkend gedrag, focust het Stable Diffusion-proces zichzowel op directe als indirecte auteursrechtinbreuken, waardoor de rechter wordt uitgenodigd om te beslissen over de toepasbaarheid van de fair use-doctrine op generatieve AI-training.
Net als het systeem van uitzonderingen en beperkingen op het auteursrecht in de EU, heeft de doctrine van fair use in de VS tot doel de vrijheid van meningsuiting te bevorderen door in bepaalde omstandigheden het gebruik zonder licentie van auteursrechtelijk beschermde werken toe te staan. Bij de beoordeling of een gebruik eerlijk is, moet rekening worden gehouden met verschillende overwegingen. Wanneer het gaat om generatieve AI zullen echter twee factoren waarschijnlijk het zwaarst wegen in de juridische analyse:
De output van generatieve AI-systemen lijkt vaak uiterlijk niet op de trainingsgegevens, vooral door de enorme hoeveelheden informatie waarop het algoritme wordt getraind, en wordt hoogstwaarschijnlijk als transformatief beschouwd. Niettemin kunnen AI-resultaten die zijn afgeleid van kopieën van de trainingsgegevens mogelijk met hen concurreren op de markt, vooral wanneer zij het resultaat zijn van aanwijzingen "in de stijl van" een bepaalde kunstenaar. Dit zijn ingewikkelde kwesties en het zou interessant zijn om de toekomstige ontwikkeling van deze twee zaken te volgen, ook al vallen ze buiten het Europese rechtsstelsel. De zaken zullen immers zeker een invloed hebben op de beoordelingen van Europese rechters.
Dit leidt natuurlijk tot de vraag hoe deze kwestie in de EU wordt geregeld, en of we een stroom van soortgelijke (class-action) rechtszaken door makers van content in de EU kunnen zien (In dit artikel, waarbij de kwestie van de relatieve moeilijkheid om class-action rechtszaken aan te spannen tussen de VS en de EU-lidstaten buiten beschouwing wordt gelaten)?
In tegenstelling tot de Verenigde Staten voorziet de Europese wetgever in uitzonderingen op basis van het numerus clausus-beginsel. Daarom probeert deze in, Richtlijn (EU) 2019/790 inzake auteursrecht en naburige rechten in de digitale eengemaakte markt (DCDSM) auteursrechtelijke kwesties met betrekking tot AI-inputs, d.w.z. de trainingsdatasets, te regelen met twee tekst- en datamining ("TDM") uitzonderingen in de artikelen 3 en 4. Het ruimere artikel 3 is beperkt tot wetenschappelijk onderzoek door onderzoeks- en culturele instellingen, waardoor artikel 4 de belangrijkste uitzondering is waarop bedrijven zich kunnen beroepen voor hun AI-training. Artikel 4 staat TDM door iedereen toe, maar het biedt rechthebbenden ook de mogelijkheid om de toepasbaarheid ervan contractueel uit te sluiten, ook met technische middelen. Met andere woorden, rechthebbenden in Europa kunnen kiezen voor een "opt-out" met betrekking tot de TDM-uitzondering en eisen dat het gebruik van hun werk voor het trainen van generatieve (en andere soorten) AI-systemen onder een licentie gebeurt.
Deze oplossing ligt onder vuur omdat zij de Europese AI-sector een concurrentienadeel oplevert vanwege de aanzienlijk hogere kosten bij de onderhandeling van licenties voor de grote hoeveelheden informatie die nodig zijn als trainingsgegevens. Als de rechtbanken in de VS de toepasselijkheid van de doctrine inzake fair use op generatieve AI verduidelijken en bevestigen, zouden Amerikaanse bedrijven in de meeste gevallen geen licenties nodig hebben voor hun inputdatasets. In de EU gevestigde bedrijven zouden daarentegen licentieovereenkomsten moeten sluiten met houders van rechten die contractuele beperkingen opleggen aan de TDM-uitzondering, of die werken volledig moeten uitsluiten van trainingsdatasets. Het is af te wachten of en hoe deze verschillen tussen het auteursrecht van de VS en dat van de EU een invloed zullen hebben op de toekomstige AI-ontwikkeling.
Heeft u vragen over de auteursrechtelijke bescherming van AI inputs en outputs? Neem dan contact op met Timelex.