actualiteitsforums - ChatGPT: intellectuele hold-up

24th January 2023, 21:08

bijlinda

Administrator

Geregistreerd op: Nov 2004

Locatie: Hasselt

Posts: 1,830

ChatGPT: intellectuele hold-up

De grootste intellectuele hold-up uit de geschiedenis

De grote techbedrijven zetten ons weer een hak met nieuwe technologieën als ChatGPT, schrijft Patrick Goethals. Auteursrecht en bronvermelding lappen ze doodleuk aan hun laars.

ChatGPT is overal. Elke dag passeren er getuigenissen over wat de tekstgenerator kan en hoe indrukwekkend of afschrikwekkend dat is. Wat we zien, is het begin van een virtuele tekst- en beeldenwereld, waarbij ‘virtueel’ niet langer staat voor de drager van de communicatie (het internet) maar ook voor de bron, namelijk computers die zelf schrijven. Generatieve taaltechnologie is niet zomaar een volgende stap, het is een paradigmashift, met algoritmes die zichzelf kunnen programmeren en de belangrijkste menselijke kennisdragers, namelijk teksten, boeken en afbeeldingen, kunnen klonen.

Het gebrek aan kritische reflectie is frappant, en een exponent van wat we de ingenieursideologie van de laatste halve eeuw kunnen noemen. De centrale en positieve waarde in die ideologie is de fascinatie voor de menselijke creativiteit om van ruwe materialen bruikbare producten te maken.

Helaas leidt die fascinatie tot het doorschuiven van de verantwoordelijkheid voor de gevolgen, en tot een gebrek aan interesse in de intrinsieke waarde van de bronmaterialen, of in de ecologische, sociale en nu ook intellectuele duurzaamheid waarmee ze werden verkregen. Niet het doel, maar het product heiligt de middelen.

Het is die houding die ons over de rand van een klimaatcrisis bracht, en in ChatGPT de vorm krijgt van wat de grootste intellectuele hold-up uit de geschiedenis moet zijn. Die hold-up heeft trouwens ook een geopolitieke dimensie, met een monopolie van Amerikaanse bedrijven die een claim leggen op mondiale en Europese intellectuele eigendom.

De techgiganten hebben wellicht niet liever dan dat het debat gaat over de gevolgen van de technologie of, beter nog, over de voorlopige tekortkomingen. Is de kennis nog niet helemaal up-to-date? Produceert het genderonvriendelijke of racistische praat? Zijn er geen bronverwijzingen? Is het repetitief? De oplossingen zijn technologisch relatief eenvoudig, en zullen verwerkt zitten in de betalende versies die weldra de markt zullen overspoelen. Men ziet het graag gebeuren dat we daarover spreken omdat we zo intussen niet de vraag stellen of het ding wel eerlijk ontwikkeld wordt. De techgiganten hebben intussen ruimschoots bewezen dat ze niet het minste respect hebben voor een eerlijk gebruik van data, sociale werkomstandigheden of ecologische duurzaamheid.

Almaar hermetischer

ChatGPT en het immense taalmodel dat de motor ervan vormt, werden volgens de makers getraind op hallucinant grote tekstbestanden van in totaal meer dan 300 miljard woorden. Het is door de combinaties van die woorden te modelleren dat een talige intelligentie ontwikkeld wordt. Maar de makers blijven bijzonder vaag over waar die woorden vandaan komen. Ze verwijzen naar Wikipedia, sociale media, collecties boeken en internetteksten. De indruk die ze willen geven is dat het veel te veel is om op te sommen, dat onderaannemers instaan voor het respecteren van de intellectuele eigendom, en dat het vooral fantastisch is dat men uit het zootje van de sociale media zo’n geweldig product heeft kunnen maken.

Wie dat gelooft, is naïef. Het systeem boekt resultaten omdat het getraind is op data met een hoge toegevoegde waarde: geëditeerde en gepubliceerde boeken, wetenschapelijke papers en datasets, reële interpersoonlijke communicatie enzovoort. Dat men zo vaag mag blijven over de werkelijke bronnen, is aanstootgevend en staat volledig haaks op de belangrijkste fundamenten van een kennismaatschappij, namelijk eerlijkheid over bronnen en data, fundamenteel respect voor het principe van auteurschap en ‘fair’ gebruik van de data. Niets van dat alles bij de aandeelhouders van OpenAI. Naarmate hun producten beter werden, werden ze ook hermetischer en deelde men minder code of bronnen.

Voor de makers is het een koud kunstje om een lijst te genereren van de bronnen die gevoed werden aan het algoritme. Dat ze dat niet doen, betekent dat ze niet willen dat wij de bronnen zien. Het is onbegrijpelijk dat daar geen reactie op komt. Je zou toch verwachten dat bedrijven en instanties garanties willen dat hun bestanden niet gebruikt worden om zichzelf te klonen? Er is maar één manier om het te weten: volledige transparantie eisen over zowel primaire bronnen als code, repliceren en controleren of de modellen inderdaad op die manier getraind worden.

Incestueus labyrint

Het valt te verwachten dat precies het omgekeerde gebeurt: de manipulatie zal nog erger worden. In volgende versies of afgeleiden zullen ongetwijfeld bronvermeldingen komen, maar die zullen niet noodzakelijk de link leggen met de meest hoogwaardige (en potentieel beschermde) bronnen die binnen het model het meest hebben bijgedragen tot de modellering van een bepaald concept, maar wel met een publiek beschikbaar afkooksel, dat steeds meer automatisch zal gepubliceerd worden door tekst- en websitegeneratoren, en commerciële inkomsten kan genereren. Die cyclus creëert een gigantisch probleem van intellectuele duurzaamheid. Ook voor de generatoren zelf, trouwens: die zullen de komende jaren wanhopig op zoek gaan naar teksten die door mensen werden geschreven, want als ze zich trainen op hun eigen creaties raken ze verstrikt in een incestueus labyrint. Vergis u dus niet: de applicaties die ons zullen helpen om een onderscheid te maken tussen menselijke en gegenereerde tekst zijn ultiem bedoeld voor de generatoren zelf. Vergis u ook niet als u denkt dat bepaalde informatie niet in het systeem zit omdat ze er niet uit komt. In en uit zijn verschillende deuren met verschillende filters.

In het bijzonder moet ook de Europese academische wereld kordaat en snel reageren. De voorbije jaren werd aan universiteiten en wetenschappelijke instellingen fors geïnvesteerd in modern datamanagement, waarbij de focus ligt op openbaarheid van data, analyses en resultaten. De filosofie is dat openbaarheid noodzakelijk is om wetenschappers het werk van andere wetenschappers te laten verifiëren. Bestaan er garanties dat die data niet worden opgeslokt door het algoritme, of dat er op een intellectueel eerlijke manier naar verwezen wordt? Het antwoord is negatief. Zullen onze Europese instellingen en wetgevers wel blijven eisen dat wetenschappers zich op duizend manieren verantwoorden en ironisch genoeg zelfs moeten betalen om hun resultaten in open access te publiceren, terwijl de almachtige Amerikaanse techbedrijven er een gigantische parafraseer-, plagieer- en manipuleermachine mee bouwen?

Die paradigmashift vereist een diepgaande reflectie met kennis van zaken, maar ook een snel en krachtig antwoord vanwege beleidsmakers. Intellectuele duurzaamheid, gebaseerd op menselijk auteurschap en eerlijk gebruik van data, is geen trivialiteit die we in handen moeten leggen van onbetrouwbare techbedrijven.

DS, 24-01-2023 (Patrick Goethals)

Onderwerp Opties	Zoek in onderwerp
Onderwerp afdrukken Deze pagina e-mailen	Zoek in onderwerp: Uitgebreid Zoeken
Weergave Modus	Stem op dit onderwerp:
Verander naar Linear Mode Hybrid Modus Verander naar Threaded Mode	Stem op dit onderwerp::