Ok, since this is a question aimed specifically at swedish users only I will write this one in swedish. (It's just a question about some details how a swedish breakdown algorithm should be designed, how all the users would like to use it.)
Hej allihopa
Som ni kan se i den här tråden http://www.lostmarble.com/forum/viewtopic.php?t=2347 så håller jag på att hjälpa Myles med att utforma en svensk fonetisk algoritm för att få papagayo att fungera så väl som möjligt även på svenska.
Jag har en idé som jag vill testa på er andra svenskspråkiga användare.
Men först lite bakgrund om regelbaserad text-till-fonem-omvandling för den som inte känner till det:
Algoritmen som Myles jobbar på är alltså en regelbaserad omvandlare. Exempel på en regel: "bokstavskombinationen 'tj' uttalas (enligt CMU-uttalslistan) som ljudet CH om 'tj' befinner sig i början av ett morfem". (exempel: 'tjära')
Hela algoritmen består av en lång, lång rad av liknande regler.
Men en sån här regelbaserad omvandlare blir aldrig 100-procentig, eftersom ett språk av naturen innehåller många irreguljära avvikelser. Vissa överföringar från text till fonem är helt oberäkneliga. Undantagen är ofta många och träffsäkerheten blir aldrig 100 %.
HÄR ÄR NÅGRA AV DE SVÅRASTE PROBLEMEN JAG STÖTT PÅ NÄR DET GÄLLER DEN SVENSKA TEXT-TILL-FONEM-OMVANDLINGEN
Det första har att göra med vokalerna 'e' och 'ä' som båda uttalsmässigt varierar.
exempel: "väldigt fräscha färger på tapeterna här"
Jag har inte hittat några entydiga regler när uttalet ska vara E och när det ska vara Ä. (algoritmens nuvarande felprocent ca 30%?)
Samma problem har vi med vokalen 'o' som varierar lika oberäkneligt mellan O och Å.
exempel: "gå nu min pojke och sno plånboken ur mormors kommod"
(felprocenten ca 50%)
Ett annat svårt problem är svenskans ordsammansättningar, som är svåra för en regelbaserad algoritm att göra rätsida på.
exempel: 'matjord' (det går inte att hitta en regel som kan avgöra att 'mat' och 'jord' är olika fonem och att 'tj' därför INTE ska uttalas som CH)
HÄR KOMMER NU MIN FRÅGA TILL ER:
Jag tänkte att man kunde använda sig av en liten 'workaround' för att fixa de ovanstående problemen med 'e' 'ä' 'o' och svenskans många ordsammansättningar.
Det är väldigt enkelt, men det kräver lite extra av användaren när man skriver in orden i papagayo.
1.
Man skriver helt enkelt ut UTTALET av de tre vokalerna när man skriver in orden i papagayo.
"väldigt fräscha färger på tapeterna här" skriver man så här
"veldigt frescha färgär på tapetärna här"
och
"gå nu min pojke och sno plånboken ur mormors kommod" skrivs som
"gå nu min påjke å sno plånboken ur mormors kåmmod"
2.
Man särar på ordsammansättningar.
man skriver "matjord" som "mat jord"
"dragkedja" blir "drag kedja"
OM VI UTFORMAR DEN SVENSKA ALGORITMEN SÅ ATT DEN SKA ANVÄNDAS PÅ DET HÄR SÄTTET SÅ STIGER TRÄFFSÄKERHETEN BETYDLIGT.
Alternativet är att gå in för att skriva den korrekta svenska stavningen på alla ord, att ta den oundvikliga felprocenten i omvandlingen, och att i stället efteråt gå in och korrigera alla felaktiga Preston shapes som algoritmen gett.
VAD FÖREDRAR NI?
workaround-sättet eller korrigera efteråt?
Skicka gärna svaren till mej per message.
hälsningar
cap
All swedish users - a question
Moderators: Víctor Paredes, slowtiger
- capricorn33
- Posts: 249
- Joined: Sun Oct 02, 2005 9:49 am
- Location: Finland
- Contact:
All swedish users - a question
capricorn ( - just call me "cap")
children's tv pro, character animator
children's tv pro, character animator
Eftersom skriftspråk och talspråk skiljer sig åt så får man ändå bäst resultat i papagayo om man skriver orden som de uttalas i just den ljudfilen du analyserar just då och inte efter hur de stavas på riktigt.
Att gå in och ändra i ords uttal efter att papagayo brutit ned dem kommer även med "workaround-metoden" att vara nödvändigt i många fall, så den biten tycker inte jag spelar in i resonemanget.
Sedan är ju endast 9 ljudformer hopplöst begränsande så jag tycker inte att det gör så mycket att den svenska algoritmen inte är hundraprocentig, fler fel kommer ju av denna begränsning.
Till syvende og sidst tycker jag att workaround-metoden borde fungera smidigast.
Att gå in och ändra i ords uttal efter att papagayo brutit ned dem kommer även med "workaround-metoden" att vara nödvändigt i många fall, så den biten tycker inte jag spelar in i resonemanget.
Sedan är ju endast 9 ljudformer hopplöst begränsande så jag tycker inte att det gör så mycket att den svenska algoritmen inte är hundraprocentig, fler fel kommer ju av denna begränsning.
Till syvende og sidst tycker jag att workaround-metoden borde fungera smidigast.
- capricorn33
- Posts: 249
- Joined: Sun Oct 02, 2005 9:49 am
- Location: Finland
- Contact:
Jo, naturligtvis är det så. Men avsikten är ju att få ut största möjliga nytta ur papagayo, alla inbyggda begränsningar beaktade, utan att behöva pruta på det enkla och intuitiva användargränssnittet...rylleman wrote:Att gå in och ändra i ords uttal efter att papagayo brutit ned dem kommer även med "workaround-metoden" att vara nödvändigt i många fall, så den biten tycker inte jag spelar in i resonemanget....
Tack för svaret.
Ulrik, tack för ditt svar också.
Finns det andra svenska användare här?
cap
capricorn ( - just call me "cap")
children's tv pro, character animator
children's tv pro, character animator
Jag tycker det verkar krångligt att skriva ner uttalet. Jag tror att det
kommer att bli super ändå. Just nu använder jag sourcefile direkt
på Switchlagret och jag tycker att det faktiskt fungerar ganska ok med
lite modifieringar, så om det är några felprocent hit eller dit kommer inte att spela så stor roll för mig i alla fall. Detta kommer att bli så grymt mycket
bättre ändå!!
Tackar supermycket för att du lägger ner tid på detta!!!
kommer att bli super ändå. Just nu använder jag sourcefile direkt
på Switchlagret och jag tycker att det faktiskt fungerar ganska ok med
lite modifieringar, så om det är några felprocent hit eller dit kommer inte att spela så stor roll för mig i alla fall. Detta kommer att bli så grymt mycket
bättre ändå!!
Tackar supermycket för att du lägger ner tid på detta!!!
oee wrote:Hur går arbetet med att utforma Papagayo för svenska? Finns det något ungefärlig tidsuppskattning när lansering sker.
Jodå, det rör nog på sig. ...men någon tidsuppskattning vet jag inte om jag vågar ge. Jag är bara betatestare och språkhjälp till Myles, som gör det verkliga jobbet här. Och han i sin tur ger sina grejer vidare till LM som sen implenterar till papagayo enligt sina tidtabeller...
Svar: jag har inte en blekblå aning! Men vi jobbar på.
- capricorn33
- Posts: 249
- Joined: Sun Oct 02, 2005 9:49 am
- Location: Finland
- Contact: