Månadens profil: Love Börjeson

KB-labb får nya medel för att skala upp arbetet med språkmodeller och startar ett superdatorprojekt med Språkbanken. Satsningen är ett viktigt steg för att stärka svensk språkteknologisk forskning och Sveriges språkliga och kulturella suveränitet, menar Love Börjeson, enhetschef för FoU och KB-labb på Kungliga biblioteket.

Vad händer på KB-labb?

– När vi startade 2019 var KB-labb ett svar på utvecklingen inom digital humaniora. Ett år tidigare hade Google släppt sina första språkmodeller, och vår ambition var att utveckla modeller som presterar bättre för svenska språket. I början av 2020 kom vår första AI-modell, en KB-BERT. Sedan dess har vi tagit fram flera språkmodeller med hjälp av EU:s superdatorsystem EuroHPC JU. Modellerna är fria att använda och har laddats ned många miljontals gånger av forskare och utvecklare. Ju öppnare de vetenskapliga resultaten är, desto större blir nyttan både för forskningen och samhället i stort. När resurser släpps fria uppstår en okontrollerbar innovativ process som leder till oväntade och värdefulla resultat.

I år har Kungliga biblioteket har får ett ökat anslag med 30 miljoner per år för att stärka kapaciteten för utveckling av språkmodeller. Som ett led i det arbetet startar vi ett samarbete med Språkbanken Text.

Vad innebär samarbetet med Språkbanken?

– Tanken är att höja den vetenskapliga kvaliteten i vårt grundarbete. KB-labb har omfattande dataresurser och erfarenhet av att arbeta med superdatorer. Språkbanken har språkteoretisk tyngd. Så vi kompletterar varandra ganska bra.

Vi har precis dragit igång samarbetet. Just nu bygger vi upp det vi kallar KB_SB_Stack. Man kan likna det vid en enorm byrålåda där varje låda innehåller olika slags data för modellträning - stora mängder oannoterade data från KB:s samlingar och instruktionsdatamängder från Språkbanken Text bland annat. Under andra halvan av 2026 hoppas vi kunna träna nya modeller med hjälp av EU:s superdatorsystem. Samarbetet är tänkt att pågå under 2026 men vi tror och hoppas att det ska bli långsiktigt.

Vilka utmaningar finns?

– Det är svårt att bygga ihop infrastrukturer, och datadelning innebär alltid en enorm teknisk och legal overhead. Samtidigt tror jag att samarbetet på sikt kommer att ge väldigt mycket mer än vad det kostar. Genom att arbeta tillsammans får vi dubbla hävstänger för båda infrastrukturerna. Så jag ser med stor förväntan fram emot vad det kommer att leda till.

Vad händer framöver?

– KB-labb har också fått i uppdrag att se över och praktiskt bidra till hur våra modeller kan användas i offentlig sektor. I en tid präglad av krig och hot mot demokratiska institutioner behöver vi i Sverige i högre grad kunna stå på egna ben. Då blir språklig och kulturell suveränitet en viktig aspekt av samhällets resiliens. De stora språkmodellerna från USA bygger på algoritmer som innehåller politiska och kulturella överväganden vi inte har insyn i. Därför är det viktigt att skapa modeller som speglar vår kultur och vårt språk. Vi behöver också fritt kunna förfoga över de modeller vi använder i Sverige.

KB-labb

KB-labb är en nationell infrastruktur vars uppgift är att möjliggöra storskalig, kvantitativ datadriven forskning på Kungliga bibliotekets digitala samlingar och att ta fram modeller baserad på samlingarna.

Läs mer om KB-labb som forskningsinfrastruktur:

The KBLab Blog Länk till annan webbplats.

KB-labb på Linkedin Länk till annan webbplats.

KB-labb på Hugging Face Länk till annan webbplats.

Publicerad den

Uppdaterad den

Språkbanken Text
Språkteknologi
Maskininlärning
Love Börjesson

Love Börjesson, enhetschef för FoU och KB-labb på Kungliga biblioteket. Foto: Jan Lipka.