Sos “Algoritmos identitàrios” de s’Uls Monte Arvu. Un’iscritu in contu de limba e de IA

Sos “Algoritmos identitàrios” de s’Uls Monte Arvu. Un’iscritu in contu de limba e de IA

Cantu est de importu sa chistione de s’intelligèntzia artifitziale in riferimentu a sas limbas de minoria? Est una pregonta chi s’ant fatu sos operadores de s’Ufìtziu de sa limba sarda de s’Unione de sos Comunes de su Monte Arvu chi, cun un’iscritu issoro in bator partes intituladu “Algoritmos identitàrios”, ponent in sa mesa unas cantas chistiones movende dae su cuntzetu de sa tzitadinàntzia digitale.

«Una limba chi non s’agatat in sas bancas de datos de OpenAI, de Google o de Meta – narant – est una limba chi, pro su sistema-mundu digitale, petzi non b’est». Ma comente est posta custa limba oe? Leghimus chi «cunforma a su chi si narat in su campu de s’elaboratzione de su linguàgiu naturale (Nlp, Natural language processing), su sardu est classificadu comente unu Low-Resource Language (Lrl), est a nàrrere una limba cun pagas resursas a beru». In un’artìculu de sa chida colada faeddende du su chatbot LliMba de s’informàticu Luca Ballore, amus naradu chi ant impreadu pagu prus de 11 millione de token, cando chi ischimus chi pro una limba cun medas prus resurasas bi nde diant chèrrere chèntinas de milliardos.

Narant dae s’Uls chi «si sos datos sunt su petròliu nou, su sardu est in una cunditzione de sicagna estrativa». E chi «mancari tèngiat una traditzione literària seculare, sufrit unu gap de digitalizatzione prus chi non drammàticu». Pro ite? Ca «parte manna de su patrimòniu linguìsticu isulanu, cando no est in sas memòrias orales ebbia, est in archìvios fìsicos chi non sunt inditzizados o in publicatziones locales chi mai ant barigadu su limenàrgiu de sas bases de datos globales». Si podet cumprèndere chi su caminu est galu longu e chi podiat èssere istadu prus curtzu si in custos 20 annos de Limba sarda comuna aeremus sighidu àteras camineras. Lsc chi «in custu cuntestu – annanghent – no est prus petzi unu sèberu polìticu ma una netzessidade ingegnerìstica». «Pro unu carculadore – sighimus a lèghere -, sa variatzione ortogràfica est abbolotu. Si iscriimus sa matessi paràula in deghe modos diferentes cunforma a sa variedade locale, s’algoritmu no l’at a cumprèndere a lestru chi su cuntzetu est su matessi, diluende galu de prus sa base de datos disponìbile chi est giai fartosa de se».

S’iscritu sighit inditende casos de impreu e visiones benidoras, sena nche pònnere a banda sas diferèntzias diatòpicas de su sardu chi, giai a su presente, sunt contivigiadas in progetos comente Common Voice de Mozilla. «Un’istandard pro sa màchina – sintetizant dae s’Uls -, milli isfumaduras pro s’òmine».

Gianfranca Orunesu

Leave a comment

Send a Comment

S'indiritzu email tuo no at a èssere publicadu. Is campos pedidos sunt signados *