Höjdpunkter på NoDaLiDa

I maj ägde konferensen NoDaLiDa rum på på Färöarna. Felix Morger, doktorand på Språkbanken Text, deltog på konferensen och var med och organiserade workshopen RESOURCEFUL-2023.

Vad är NoDaLiDa?

NoDaLiDa är en konferens om nordisk språkteknologi som i år ägde rum i Tórshavn på Färöarna. Årets konferens bestod av en huvudkonferens samt workshops om constraint grammar, datorstödd språkinlärning samt hur man kan lösa språkteknologiska uppgifter utan eller med liten tillgång till språkresurser.

Vad handlade ditt föredrag om?

– Arbetet jag presenterade handlade om hur överförbar språkdata på engelska är för att identifiera logiska relationer (natural language inference) mellan satser på svenska och om det finns några specifika lingvistiska kategorier som är mer överförbara än andra. Resultatet visade att överförbarheten från engelska till svenska är stor bland alla kategorier och att en svensk modell som förlitar sig på överföring av information från engelska presterar lika bra på svenska som en modell som endast har tränats och utvärderats på engelska

Språkmodeller fungerar bra på mycket data. Modellen bakom ChatGTP till exempel, har tränats på en ofantligt stor mängd där en stor del kommer från Internet. Den workshop jag deltog i handlade om att använda sig av befintliga språkteknologiska resurser och smarta modeller för att kunna använda sig av mindre data. Hur kan man uppnå samma standard för svenska som för engelska som har mycket mer resurser? I förlängningen är det särskilt intressant för minoritetsspråk.

Flera kollegor från Språkbanken Text bidrog med presentationer. Aleksandrs Berdicevskis till exempel talade om hur personer som interagerar med varandra i sociala medier börjar tala på liknande sätt ju mer de svarar på varandras inlägg. Elena Volodina och Samir Yousuf presenterade DaLAJ-GED, ett dataset för grammatisk felsökning som kan användas för att utveckla verktyg för personer som vill lära sig svenska.

Nämn några höjdpunkter!

– Jag har själv arbetat med projektet SuperLim 2.0, en datasamling som kan användas för att testa och utvärdera svenska språkmodeller. En intressant diskussion var därför frågan om hur man ska utvärdera stora språkmodeller. Vilken typ av lingvistisk kunskap ska de lära sig?

Ett annat intressant föredrag handlade om fenomenet translationese, som innebär att en engelsk text som översätts till svenska bär med sig engelska artefakter, till exempel konstruktioner på engelska. Det är en intressant utmaning i Superlim eftersom många data är översatta från engelska till svenska.

Det var också intressant att höra om två nya datasamlingar, NorBench med norskt material och ScandEval med material på svenska, norska och danska. Jag blev inspirerad av hur automatiserade många av processerna för utvärdering är. Det kommer jag kanske att ta vidare i arbetet med en framtida iteration av SuperLim.

Publicerad den

Uppdaterad den

Språkbanken Sam