I dette holdningsstof udtrykker forfatteren sin personlige holdning om emnet.

Vi har brug for en germansk sprogmodel

9. april kl. 10:248
Vi har brug for en germansk sprogmodel.
Illustration: Ingeniøren.
Germansk sprogmodel skal danne grundlag for dansk sprogmodel til use cases, der giver mening, skriver to forskere fra projektet.

Vi ser i øjeblikket en udvikling, hvor amerikanske sprogmodeller dominerer teknologiudviklingen. De fleste kender ChatGPT og Bard, der er sprogmodeller i lukkede systemer, som primært er trænet på store sprog som engelsk og drevet af kommercielle interesser i USA. Men de store systemer har også en slagside, som gør, at de er underlagt anden regulering og kultur, der betyder, at vi som europæerne bliver tvunget ind i systemer, der ikke lever op til europæiske værdisæt for human-centered, trustworthy og democratised kunstig intelligens. Sagt med andre ord, så er kunstig intelligens et tog, der kører, og som kommer til at påvirke mindst 80 procent af arbejdsstyrken. Får vi ikke tilgodeset vores sprog, så løber de andre med alle mulighederne.

Vi skal derfor sikre vores sprog og opbygge vores kompetencer for at sikre egne interesser.

Det er også derfor, vi sammen med førende forskere inden for sprogteknologi er gået med i et stort EU-projekt, der hedder TrustLLM, som har til formål at udvikle en germansk sprogmodel. Som GTS-institut (Godkendt Teknologisk Service, red.) er det en rolle, som vi tager meget seriøst. Både for at styrke mangfoldigheden, men også fordi arbejdet giver værdifuld erfaring til vores næste, store opgave: at udvikle en dansk sprogmodel til use cases, der giver mening.

Vi kommer i den grad til at kigge på både den etiske, den forskningstunge og den forretningsmæssige side af AI. Men ud over etikken og de manglende europæiske værdisæt ser vi også en række begrænsninger med de modeller, der er udviklet. Det er typisk lukkede systemer, som er til gavn for de få og ikke de mange. Vi skal derfor udvikle sprogmodeller, der er frit tilgængelige. Med open source gør vi det muligt at demokratisere brugen af modeller, så de er for de mange og ikke de få.

Artiklen fortsætter efter annoncen

De sprogmodeller, vi har for det danske sprog, fungerer enten ikke særlig godt, eller også er de ikke generative. Derfor er vi tvunget til at bruge de amerikanske modeller. Det ønsker vi i den grad at lave om på, så mange kan få glæde af modellerne og skabe innovation og meningsfulde use cases. Derfor skal man gøre modellerne bedre og fikse de ting, som vi har set, at eksempelvis ChatGPT er skidt til. Det kan være bias, som vi gennem vores forskning skal minimere i træning af modellen.

Vi skal også minimere antal gange, modellerne hallucinerer og finder på facts ud af det blå.

Modellen skal agere som startskud for virksomheder til at lave produkter. Vi kan træne og udgive de her modeller, så de kan downloades lokalt på virksomhedernes egne servere inhouse. De behøver dermed ikke dele data med nogen. Det gør det mere sikkert at bruge modellen, og samtidig kan hver virksomhed tune deres model efter deres behov. Den model vil også gøre det lettere at lave en masse modeller, der er designet til specifikke use cases. Det kunne være en model, som laver journalnotater, der kan drage nytte af den.

Pointen er, at når man demokratiserer modellerne, kan alle hive dem ned og tilpasse dem til det, de har brug for. Det kan der komme en god business-case ud af for mange virksomheder. Det giver også muligheder for den offentlige sektor, da mange jo ikke må bruge ChatGPT i dag. Det er et vigtigt skridt mod at blive uafhængig af andres data og lukkede modeller, hvor vi ikke kender logikken. Som det er i dag, så ligger magten hos de få og ikke de mange, og det er netop den afhængighed, som gør os meget sårbare, hvis de beslutter at nedlægge eller sænke prisen på de modeller. Det skal vi have ændret.

Artiklen fortsætter efter annoncen

En konkurrencedygtig europæisk sprogmodel vil især også gavne udviklingen i lavressourcelande med de små sprog som Danmark. Det vil reducere omkostningerne til udvikling af en dansk model. Vi arbejder med et setup, hvor man har adgang til et maksimalt datasæt i et storage-system, der kan bruges til træning, og som kan kopieres fleksibelt. Vi får adgang til en stor mængde af underliggende træningsdata i minimum seks germanske sprog som tysk, hollandsk, norsk, svensk, islandsk og dansk.

Næste skridt er at bygge en processeringsinfrastruktur, skaffe de underliggende data, gøre dem tilgængelige og etablere den massive computerkraft, som modellerne kræver.

Vil du bidrage til debatten med et synspunkt? Så skriv til vores debatredaktion på debat@ing.dk

8 kommentarer.  Hop til debatten

Tophistorier

Debatten
Vær med til at skabe en god debat ved at følge vores debatregler.

For at deltage i debatten skal du have en profil med adgang til at læse artiklen. eller opret en bruger.
settingsDebatvisning
8
17. april kl. 21:01
Re: Videnskabelig sprogmodel

udelukkende er trænet på peer-reviewed publikationer. 

Tja, for nylig (med mindre det også er fake news) bragte en sådan publikation en besynderlig gang vås om cellebiologi dekoreret med en rotte med en fallos Priapus værdig. Og nogle andre intetsigende illustrationer. Det forunderlige var, at den gik gennem det åbenbart ganske store nåleøje. 

En fallos kan nemt komme igennem nåleøjet (sorry!). 

Link til en omtale: https://scienceintegritydigest.com/2024/02/15/the-rat-with-the-big-balls-and-enormous-penis-how-frontiers-published-a-paper-with-botched-ai-generated-images/

 

7
13. april kl. 15:37
Videnskabelig sprogmodel

Det kunne være super interessant med en rent videnskabelig sprogmodel, der udelukkende er trænet på peer-reviewed publikationer. 

Og så kunne det være godt hvis den kunne lære at vise sine referencer.

6
10. april kl. 17:48
Spændende!

ChatGPT på dansk bliver ofte en form for AmeriDanish med f.eks. hvordan den bruger store og små bogstaver, og mange af de udtryk der bruges. Bliver interessant om noget af det stille og roligt sniger sig ind sproget den vej.

5
10. april kl. 13:50
Re: Lidt spøjst...

Hej Per, forfatteren af indlægget her :)

Engelsk er også med i vores træningsdata, og burde være nævnt her. Det skal dog nævnes, at engelsk er lidt en "outlier" her, da mere end halvdelen af alle engelske ord kommer fra fransk eller latin. Men ja, teknisk set er det stadig et germansk sprog.

4
9. april kl. 21:52
jeg er en sur gammel mand....

...og derfor vil jeg da godt være Rasmus Modsat et øjeblik:

ChatGPT m.fl. har medført en enorm produktion af computer-genererede hjemmesider, der gør der sværere at finde troværdig information i praksis.

De mere legitime produkter er diverse chatbots der yder upålidelig kundeservice efter ønske fra chefer der går mere efter hype end brugbarhed.

Er vi helt sikre på, at en dansk sprogmodel er et fremskridt?

3
9. april kl. 19:14
Re: Lidt spøjst...

Engelsk er også et germansk sprog.

Samme fejl blev også påpeget sidst. Hvis man vil arbejde med sprog, er det muligvis en fordel, hvis man ved lidt om emnet. ;-) "Germansk minus engelsk"?

Derimod lyder det da positivt, at den nye model skal hallucinere mindre. Hvordan det så end skal ske. 

2
9. april kl. 19:00
Lidt spøjst...

Engelsk er også et germansk sprog. Så man burde nok tale om en udvidet germansk sprogmodel.

1
9. april kl. 16:18
Det lyder jo meget godt

Det lyder jo meget godt, MEN ...

Der er en del "tuer på marken", som man lige skal håndtere:

  1. find på et dansk udtryk for "use case" fx "anvendelsesmodel" - vi har allerede et for business case: forretningsmodel.
  2. massive AI-maskinel; det kunne være at gå over til at bruge x86-x64 udstyr, som fx AMD's nye 96-kernede CPU, som løfte modellernes brug af dyre emulerede F16, F32 og F64 til hurtigere maskin-instruktioner.
  3. europæiske/danske værdier, som respekt for menneskerettigheder og reduktion af  BIAS og hallucinationer. Danske værdier kunne også have et BIAS.
  4. Store Sprog Modeller (LLM) er numeriske abstraktioner, som ikke nødvendigvis bliver mere gennemskuelige og lettere at forklare end de lukkede amerikanske.

Off topic:

Jeg lagde i 1983 ud som "sprogrøgter" og lavede bl.a. oversættelse af skærmtekster i det amerikansk-sprogede operativsystem. Selvom man havde meget af teksten i menusystemet i særlige filer, var der en "rest" i assembler-kildetekst-filer, som også skulle oversættes. Det blev gjort og jeg sendte filerne, men nogle dage senere modtog jeg en email, som understregede, at ALLE tekster skulle oversættes - også i denne "FIL".

Jeg gloede længe i filen; indtil jeg fandt en lille tekststump i anførselstegn: "more", stod der - det blev selvfølgelig til: "mere", filen kom afsted igen og jeg hørte aldrig  mere.