Höjdpunkter på NoDaLiDa

Går det att använda språkmodeller för språkinlärning? Och kan AI-modeller bli bra på allt människan är bra på? Det var några frågor som diskuterades under NoDaLiDa 2–5 mars. Sara Stymne, föreståndare för Språkbanken Clarin, var huvudansvarig för konferensen som sponsrades av Språkbanken.

Berätta om konferensen!

– NoDaLiDa är en konferens om nordisk språkteknologi som i år ägde rum i Tallinn, Estland. Språkbanken var en av tre sponsorer för konferensen. Som huvudansvarig för konferensen har jag ansvarat för det vetenskapliga programmet och valt ut papper, workshops och artiklar tillsammans med en kommitté. Resultatet blev väldigt lyckat med över 260 deltagare på plats och 81 presentationer varav flera hölls av medarbetare från Språkbanken. Inte minst var det intressant att träffa kollegor från Norden och Baltikum. Att bygga nätverk är en viktig del av konferensen.

Även Elena Volodina, professor på Språkbanken Text var på plats.

Nämn några höjdpunkter!

– Tre av mina doktorander tog aktiva roller under Nodalida: Maria Irena Szawerna presenterade vårt projekt om pseudonymisering Mormor Karl på huvudkonferensen samt en relaterad studie på workshopen Resourceful. Ricardo Muñoz Sánchez var huvudarrangör av vår årliga workshop NLP4CALL och Arianna Masciolini höll i en shared task om flerspråkig feldetektering, MultiGEC, som hon presenterade under NLP4CALL-workshopen.

Själv var jag medarrangör av både MultiGEC-shared task och workshoppen NLP4CALL där bland annat Andrew Caines från Cambrige University talade om vilka möjligheter och fallgropar som finns i att använda stora språkmodeller för språkinlärningsapplikationer.

Bland andra höjdpunkter skulle jag vilja nämna Arianna Bisazza som talade om att simulera språkutveckling (evolution) med hjälp av stora språkmodeller som tränas på artificiella språk. Går det att se om språken förenklas med tiden med hjälp av modellerna? Hennes föreläsning gav mig flera intressanta idéer som jag skulle vilja följa upp.

Dana Dannells, forskare på Språkbanken Text var också på plats. Dana är för närvarande medlem i exekutivkommittén för Northern European Association for Language Technology (Nealt), som arrangerar NoDaLiDa konferensserien och var även med att organisera workshoppen Resourceful.

Vad tar du med dig från konferensen?

– Idag kan vi inte undvika prata om LLMs i språkteknologiska forskningssammanhang. En intressant och relaterad paneldiskussion under Resourceful-workshoppen handlade om vikten av att bedriva forskning i mindre skala för att förstå hur LLM verkligen lär sig. I synnerhet för minoritetsspråk med mindre eller nästan inga språkteknologiska resurser. Även vikten av öppna data betonades för att det ska vara möjligt att ta andras forskning vidare.

En annan diskussion rörde annoteringar. Många stora modeller fokuserar på kvantitet och behöver inte annoteringar. Då kan man inte se vad som inte fungerar och hur modellen ska utvärderas. Så hur ska framtida annoteringar se ut?

En intressant aspekt är att vi förväntar oss att modeller ska agera som människor, men glömmer att det finns vissa saker som modeller inte kan tränas på, till exempel lukt. Kan modeller verkligen bemästra det människor är skickliga på?

Medverkande från Språkbanken Text: Emilie Francis, Ricardo Muñoz Sánchez, Maria Irena Szawerna och Arianna Masciolini.

Medverkande från Språkbanken Text: Emilie Francis, Ricardo Muñoz Sánchez, Maria Irena Szawerna och Arianna Masciolini.

Publicerad den

Uppdaterad den

Event
Språkteknologi