Vi har brug for en germansk sprogmodel
Vi ser i øjeblikket en udvikling, hvor amerikanske sprogmodeller dominerer teknologiudviklingen. De fleste kender ChatGPT og Bard, der er sprogmodeller i lukkede systemer, som primært er trænet på store sprog som engelsk og drevet af kommercielle interesser i USA. Men de store systemer har også en slagside, som gør, at de er underlagt anden regulering og kultur, der betyder, at vi som europæerne bliver tvunget ind i systemer, der ikke lever op til europæiske værdisæt for human-centered, trustworthy og democratised kunstig intelligens. Sagt med andre ord, så er kunstig intelligens et tog, der kører, og som kommer til at påvirke mindst 80 procent af arbejdsstyrken. Får vi ikke tilgodeset vores sprog, så løber de andre med alle mulighederne.
Vi skal derfor sikre vores sprog og opbygge vores kompetencer for at sikre egne interesser.
Det er også derfor, vi sammen med førende forskere inden for sprogteknologi er gået med i et stort EU-projekt, der hedder TrustLLM, som har til formål at udvikle en germansk sprogmodel. Som GTS-institut (Godkendt Teknologisk Service, red.) er det en rolle, som vi tager meget seriøst. Både for at styrke mangfoldigheden, men også fordi arbejdet giver værdifuld erfaring til vores næste, store opgave: at udvikle en dansk sprogmodel til use cases, der giver mening.
Vi kommer i den grad til at kigge på både den etiske, den forskningstunge og den forretningsmæssige side af AI. Men ud over etikken og de manglende europæiske værdisæt ser vi også en række begrænsninger med de modeller, der er udviklet. Det er typisk lukkede systemer, som er til gavn for de få og ikke de mange. Vi skal derfor udvikle sprogmodeller, der er frit tilgængelige. Med open source gør vi det muligt at demokratisere brugen af modeller, så de er for de mange og ikke de få.
De sprogmodeller, vi har for det danske sprog, fungerer enten ikke særlig godt, eller også er de ikke generative. Derfor er vi tvunget til at bruge de amerikanske modeller. Det ønsker vi i den grad at lave om på, så mange kan få glæde af modellerne og skabe innovation og meningsfulde use cases. Derfor skal man gøre modellerne bedre og fikse de ting, som vi har set, at eksempelvis ChatGPT er skidt til. Det kan være bias, som vi gennem vores forskning skal minimere i træning af modellen.
Vi skal også minimere antal gange, modellerne hallucinerer og finder på facts ud af det blå.
Modellen skal agere som startskud for virksomheder til at lave produkter. Vi kan træne og udgive de her modeller, så de kan downloades lokalt på virksomhedernes egne servere inhouse. De behøver dermed ikke dele data med nogen. Det gør det mere sikkert at bruge modellen, og samtidig kan hver virksomhed tune deres model efter deres behov. Den model vil også gøre det lettere at lave en masse modeller, der er designet til specifikke use cases. Det kunne være en model, som laver journalnotater, der kan drage nytte af den.
Pointen er, at når man demokratiserer modellerne, kan alle hive dem ned og tilpasse dem til det, de har brug for. Det kan der komme en god business-case ud af for mange virksomheder. Det giver også muligheder for den offentlige sektor, da mange jo ikke må bruge ChatGPT i dag. Det er et vigtigt skridt mod at blive uafhængig af andres data og lukkede modeller, hvor vi ikke kender logikken. Som det er i dag, så ligger magten hos de få og ikke de mange, og det er netop den afhængighed, som gør os meget sårbare, hvis de beslutter at nedlægge eller sænke prisen på de modeller. Det skal vi have ændret.
En konkurrencedygtig europæisk sprogmodel vil især også gavne udviklingen i lavressourcelande med de små sprog som Danmark. Det vil reducere omkostningerne til udvikling af en dansk model. Vi arbejder med et setup, hvor man har adgang til et maksimalt datasæt i et storage-system, der kan bruges til træning, og som kan kopieres fleksibelt. Vi får adgang til en stor mængde af underliggende træningsdata i minimum seks germanske sprog som tysk, hollandsk, norsk, svensk, islandsk og dansk.
Næste skridt er at bygge en processeringsinfrastruktur, skaffe de underliggende data, gøre dem tilgængelige og etablere den massive computerkraft, som modellerne kræver.