Sintesa: unu sintetizadore vocale pro su sardu

Sintesa: unu sintetizadore vocale pro su sardu

– de Frantziscu Cheratzu – 

Copertina1

Su progetu de chirca de base “Caràteres e istruturas fonèticas, fonològicas e prosòdicas de sa limba sarda” (Caratteri e strutture fonetiche, fonologiche e prosodiche della lingua sarda) de s’Universidade de Casteddu est unu traballu innovativu meda pro sa limba sarda e ponet impare, fortzis pro sa prima borta in Sardigna, diversas disciplinas linguìsticas e informàticas.

Su fatòrgiu s’est isvilupadu in duos annos – dae su 2013 a su 2015 – e at impignadu, a tìtulu diferente, una deghina de persones. Su risultadu prus figurosu est chi, pro sa prima borta, unu computer podet faeddare in sardu partende dae s’iscritura, fintzas si est unu protòtipu. Pro dda nàrrere in un’àtera manera, como su sardu tenet unu sintetizadore vocale TTS (Text To Speech, est a nàrrere ‘dae su testu a s’allega’) isperimentale chi amus numenadu sintesa (sintetizadore de sa limba sarda). Si podet bìdere, e intèndere, in su giassu www.sintesa.eu.

Custu no est unu risultadu de pagu contu, ca non sunt meda sas limbas in su mundu chi tenent ainas de custa genia. Segundu Ethnologue (www.ethnologue.com), sas limbas classificadas in su mundu sunt prus de sete mìgia. Sas limbas suportadas cun sintetizadores in sos smartphones sunt pagu prus o mancu una barantina. Ddo’at però una sèrie de sintetizadores isperimentales e contende cussos mentovados in Wiki­pedia (in sa pàgina https://en.wikipedia.org/wiki/Comparison_of_speech_synthesizers) arribamus a chimbantaghimbe limbas (non semus contende sas variantes de sas limbas prus ispartzinadas in su mundu che a s’inglesu, s’ispagnolu, su portoghesu o su frantzesu). Si abarramus largos e ponimus setanta, podimus afirmare tando chi su sardu faghet parte de s’unu pro chentu de sas limbas de su mundu chi tenent unu sintetizadore vocale.

IMG_8320

Amus naradu chi custu est su risultadu prus figurosu, ma ddo’at unu risultadu prus mannu meda chi abarrat “cuadu”: est totu su tra­ballu de chirca chi at permìtidu de fabbricare su programma e chi est ispricadu in sos capìtulos chi sighint. Su computer est una màchina complicada meda, ma est semper unu “eletrodomèsticu” chi depet tènnere istrutziones pro funtzionare. Sas istrutziones cherent codificadas in programmas rispetende règulas pretzisas. E custas règulas cherent istudiadas e iscritas in manera unìvoca. Fintzas a immoe, nemos aiat aguantadu un’istùdiu de sa fonètica sarda in unu modu gasi sistemàticu: pro iscrìere sas règulas chi permitint a una màchina de “chistionare” in una limba, sos fenòmenos fonèticos, fonològicos e prosòdicos de cussa limba cherent abrancados in manera cumpleta si nono s’efetu finale no est atzetàbile.

Naradu cun àteras paràulas, sa descritzione “bastante cumpleta” de sa limba depet èssere a intro de su computer pro ddi permìtere de furriare sos testos in sonos intellegìbiles e atzetàbiles dae una persone chi connoschet su sardu. Est craru chi su traballu no est perfetu, e no est mancu agabbadu, ca sas limbas sunt sistemas complicados, ma sas fundamentas pro andare a in antis sunt istadas postas. Su progetu est fintzas unu sinnale importante de rinnovamentu de sa linguìstica sarda chi istentat galu a atzetare metodologias innovativas.

Est craru chi unu progetu che a custu non naschet dae nudda. Su sardu est una limba istudiada, tenet una literadura e, mescamente, est galu faeddada. Si non ddoe fiat una base de partèntzia su caminu pro arribare a unu TTS sardu fiat istadu totu in pigada. In prus, ddoe depent èssere sas persones capatzes de progetare, fàghere e gestire traballos che a custu. Un’òpera de giudu si podet fàghere si ddoe sunt sas cunditziones preliminares e custas in Sardigna, no in tamen una polìtica linguìstica forsis pagu abbista, ddas tenimus.

IMG_5631
Riccardo Mura

Una de sas cunditziones preliminares prus de importu est chi ddoe siat un’istandard de riferimentu pro sa limba. Si non ddo’at una norma chi ponet règulas firmas nessi pro s’iscritura, sas fainas informàticas si còmplicant a livellos casi impossìbile de manigiare. E si custa norma non fiat esìstida, assora tocaiat a nde fissare una cale si siat pro pòdere traballare e pro preparare su materiale linguìsticu a manera chi sos programmas ddu podiant elaborare. Fainas forsis prus mannas de su progetu matessi. Duncas pro fàghere unu sintetizadore serbit una norma e serbit bastante testos cunforme a sas règulas de sa norma.

Pro su sardu esistint duas normas ufitziales: sa LSC (Limba Sarda Comuna), adotada dae sa Regione Autònoma de Sardigna pro impreos amministrativos in su 2006, e sas Arrègulas (Arrègulas po ortografia, fonètica, morfologia e fueddàriu de sa Norma Campidanesa), aprovada dae sa Provìntzia de Casteddu in su 2010. Sa cantidade de produtzione literària de custas duas normas sunt però diferentes meda, cun unu raportu de nessi unu a chimbe, in favore de sa LSC. A custu si agiunghet su fatu chi sa LSC tenet un’aina chi faghet de a beru sa diferèntzia: unu curretore ortogràficu (su CROS, disponìbile in su situ de sa RAS, http://www.sardegnacultura.it) chi si podet impreare cun elaboradores de testos che a OpenOffice e LibreOffice. A custu puntu su sèberu de impreare sa LSC fiat in pràtica obligadu.

Su progetu de chirca s’est isvilupadu in diferentes fases temporales e de atividades collegadas a pare. Sas atividades non semper fiant una in fatu de s’àtera, ma a bortas caminaiant in parallelu.

Sas fases sunt istadas: 1) formatzione de su grupu de traballu; 2) collida e elaboratzione de su materiale linguìsticu (mescamente testos iscritos in sa norma seberada); 3) collida de sa literadura iscientìfica e de sos istùdios pertinentes; 4) cuncòrdiu de su mètodu de traballu; 5) assentu de s’ambiente informàticu; 6) registratzione de sas duas boghes; 7) elaboratzione de sas registratziones; 8) prenimentu de s’archìviu informàticu; 9) istùdiu de sos fenòmenos linguìsticos; 10) codificatzione de sas règulas; 11) realizatzione de su protòtipu de su sintetizadore (boghe maschile); 12) prima sèrie de provas de su protòtipu; 13) curretzione de sos problemas (fintzas cun registratziones noas); 14) insertadura de sa boghe feminile; 15) segunda sessione de provas e collàudu de su sistema; 16) produtzione de totu sa documentatzione; 17) publicatzione de sos risultados e de su protòtipu SINTESA.

IMG_0440
Màssimu Cireddu

Carchi cosa de prus ddo’at de nàrrere a pitzu de sa fase 2 chi, fintzas si est preliminare a sas fases de chirca efetivas, est istratègica pro sa renèssida de su progetu. In antis de incumintzare cun sas registratziones cheriant individuados sos faeddos e sas frases de registrare. Serbiat una lista de nessi chimbe mìgia paràulas rapresentativas de sa limba sarda, est a nàrrere cussas prus impreadas.

Duncas serbiat una lista de frecuèntzia de sas paràulas elaborada dae unu corpus linguìsticu rapresentativu e bastante mannu (si sas paràulas non sunt iscritas segundu un’istandard – pro cussu s’importàntzia de sa norma – a su computer ddi benit male a carculare sa frecuèntzia). Unu corpus significativu depiat èssere de prus de unu millione de paràulas otènnidas ponende impare òperas literàrias de prosa de sas prus diferentes (sas poesias sunt esclusas pro motivos òvios). Unu romanzu “mèdiu” est fatu, pagu prus o mancu, de chimbanta mìgia paràulas, duncas serbint prus de binti romanzos “mèdios”, iscritos segundu una norma, pro fàghere unu corpus rapresentativu de una limba (pro fàghere cumprèndere bene sa mannària, su romanzu de Miguel de Cervantes, Don Chisciote de sa Màntzia [I tomu], no arribat a dughentamìgia faeddos).

Fintzas sos testos cherent bilantziados. Pro nde nàrrere una non si podent pònnere petzi testos amministrativos ca est craru chi non sunt rapresentativos de sa limba “normale”. Esistint unu muntone de testos in sardu ma, a dolu mannu, sa majoria sunt iscritos segundu sa pensada de s’autore o de su tradutore. Un’àtera chistione de pònnere in cunsideru sunt sos deretos de impreu de custas òperas. S’ùnica domo editora chi tenet bastante òperas iscritas in LSC est sa Condaghes cun su sessanta pro chentu e prus de sos tìtulos chi sunt essidos dae su 2006.

IMG_0394
Aristanis, 29 abrile 2014, presentada de su CROS

Totu sas òperas iscritas in LSC de sa Condaghes sunt istadas postas a cumone, carculada sa lista de frecuèntzia, leadas sas primas ses mìgia paràulas distintas e, a custu puntu, rapresentativas de sa limba. Partende dae custa base sunt istadas “seberadas”, semper dae su corpus, prus de noighentas frases cumpletas chi teniant a intro custa paràulas.

Totus sos faeddos e sas frases depiant èssere lèghidas dae sos infor­ma­dores e registradas. Unu traballu longu, pistighingiosu e delicadu meda pro sa renèssida de su progetu. Totu custas registratziones sunt archiviadas in su database e a dispositzione pro chie ddas cheret ascurtare o impreare (bìdere su giassu de su progetu o su DVD in acàpiu a custu libru).

Totu sa parte informàtica est istada isvilupada in modalidade open source (còdighe lìberu) e sos risultados de su progetu essint cun sa lissèntzia “GNU Lesser General Public License”. Custu cheret nàrrere chi sos risultados sunt a dispositzione de chie ddos cheret impreare, megiorare o sighire a isvilupare.

Sos impreos possìbiles de su TTS sunt de profetu pro sa limba no­stra: in s’iscola, pro agiuare sa letura e sa comunicatzione in generale. Sas potentzialidades de custas genias de chircas sunt de a beru man­nas e rapresentant sas fronteras prus atrativas de s’informàtica e de sa linguìstica ca pertocant s’interatzione òmine-màchina. Difatis su TTS est petzi su primu tretu pro arribare a su ASR (Automatic Speech Recognition), su reconnoschimentu automàticu de s’allega, chi como est incumintzende a intrare in totue (telefoneddos, automòbiles, eletrodomèsticos, etc.). Comente dimustrat custu progetu, non nos mancant sas professionalidades, s’ingèniu, sa volontade o sa limba pro dare unu contributu originale in custu campu.

IMG_4019

Su grupu de traballu, fintzas si faghiat riferimentu a Casteddu, fiat ispartzinadu in totu sa Sardigna e foras puru: Riccardo Mura in Logusantu, Massimo Cireddu in Teulada, Daniela Boeddu in Ilartzi ma a bortas in Vitòria, Roberto Bolognesi in Amsterdam, sos informadores in Iscanu, totus unidos dae Internet. Sas versiones annoadas de su protòtipu fiant postas in unu server privadu e totus podiant operare dae a tesu e sighire sos isvilupos.

In ùrtimu – last but not least –, sa limba chi s’est impreada de prus pro comunicare est istada sa sarda (fintzas dae parte de Riccardo Mura, de limba materna gadduresa, tocat a ddi reconnòschere su mèritu). Custu puru est unu sinnale de ispera pro su tempus benidore.

Francesco Cheratzu

Leave a comment

1 Comment

  1. Setzis personas de remju, setzis una risosrsa de sa natzione, ateru che linguistas acorralados e impotentes.
    Su beru essere patriotas est custu faghere natzionale non sa difesa a poderiu de sa musca caddina de pratza de domo sua.

Send a Comment

S'indiritzu email tuo no at a èssere publicadu. Is campos pedidos sunt signados *