Gamla talinspelningar banar väg för framtidens AI-modeller
Hur tränar man nya språkmodeller? Bland annat med hjälp av äldre talinspelningar. Institutet för språk och folkminnen, Isof, tillgängliggör nu inspelningar av dialekter som träningsdata för AI Sweden och KB-labb. Annette Torensjö, chef för Avdelningen för arkiv och forskning på Isof i Uppsala, berättar.
Vad ska inspelningarna användas till?
– AI Sweden och KB-labb ska träna språkmodeller för att få en djupare förståelse för hur den talade svenskan används. För att göra det behövs enormt mycket träningsdata av olika karaktär: äldre svenska, olika typer av dialekter och nusvenska. På Isof bidrar vi med inspelningar av olika dialektala varianter. Vi har totalt 25 000 timmar inspelat material på rullband, grammofonskivor, kassettband och vaxrullar av dialekter från hela Sverige, framförallt från 1935–1970, men även äldre inspelningar. Det är rätt häftigt att vårt material som är inspelat under hundra år nu används för göra ny teknik ännu bättre.
Vad händer nu?
– Språkbanken Sam, en avdelning inom Isof som har uppdraget att främja språkteknologi i Sverige, anställer en digitaliseringsassistent som ska arbeta med det ljudande materialet. Det kan vara svårt att höra vad en äldre person på 40-talet säger, så materialet transkriberas. Alla inspelningar presenteras också i sin kontext så att det blir tydligt vad personen pratar om – mattraditioner, sedvänjor eller högtider till exempel. Och vissa inspelningar kan innehålla känsliga uppgifter och behöver kanske anonymiseras.
Kan fler ta del av inspelningarna?
– Ja. Vårt arkivmaterial är en skatt som vi vill sprida. Det är det som är grejen med våra samlingar, att de ska användas. Det ljudande material som Isof har samlat in och bevarat, gör vi nu tillgängligt. För forskare handlar det om att kunna se hur språket har utvecklats och förändrats genom tiderna. En bredare allmänhet får nu möjligheten att återupptäcka sin egen historia genom att lyssna på dialekter från sin hembygd och förstå hur äldre släktingar pratade. Speciellt viktigt är det för minoritetsspråken.
Det ljudande materialet kommer successivt att läggas ut i arkivtjänsten Folke och tillgängliggöras som öppna data, så att så många som möjligt kan ta del av det.
Publicerad den
Uppdaterad den