Snad už od uvedení prvního jazykového modelu se řeší autorská práva. Vývojáři včetně OpenAI trénují své modely na obrovském množství dat, která pocházejí ze všech koutů internetu. Díky tomu mohou chatboti jako chatGPT, Gemini nebo Grok nejen srozumitelně komunikovat, ale odpovídají na nejzáludnější otázky uživatelů. Jenže autoři, kteří se takto cítí vykradeni a doslova okradeni se od prvních dnů ozývají. A jsou mezi nimi také velké mediální domy, na jejichž článcích byly modely prokazatelně trénovány.
Firmy provozující chatboty, jako OpenAI či Anthropic, se od počátku brání a hledají různá odůvodnění, proč je jejich práce legální a proč neporušily zákon. Jenže velké mediální domy dokázaly velmi rychle zjistit, že jazykové modely nebyly trénovány pouze na veřejně dostupných textech na internetu, ale že pronikly i do těch za platební bránou. A to je pěkně namíchlo. Vedení The New York Times tak už v prosinci 2023 zažaloval OpenAI a Microsoft za vykrádání placeného obsahu.
Do podobného sporu se dostala i společnost Anthropic, a to s autory knih. Ti tvrdili, že Anthropic zneužil miliony pirátských kopií z nelegálních online knihoven k trénování svých modelů. Společnost provozující model Claude to sice popírala, ale po několika měsících je tu konec právní bitvy. Žalobci navrhují vyrovnání ve výši 1,5 miliardy dolarů.
Mohlo by se tak jednat o precedent, který dá všem příštím sporům jasný rámec. A podle strůjců žaloby dá firmám vyvíjejícím a trénujícím AI modely jasně najevo, že „nestojí nad zákonem a duševní vlastnictví není volně k dispozici.“ Využívání dat napřímo by přitom podle soudu mohlo projít. Ale jejich získání z pirátských kopií už je nezákonné.
Pro firmy jako Antrhopic, Google či OpenAI to tak znamená, že obsah sice do budoucna mohou získávat, ale oficiální cestou, na základě licencí a zřejmě za poplatek. To dává naději všem spisovatelům, novinářům, ale třeba i malířům či fotografům, kteří svá díla zveřejňují na internetu a jsou tak snadným cílem pro získávání dat pro AI modely.