Viron emotionaalisen puheen korpus

Mikä on viron emotionaalisen puheen korpus?

Viron emotionaalisen puheen korpus (EEKK) on Eesti Keele Instituutissa Viron valtion rahoittamaan hankkeeseen "Viron kieliteknologinen tuki" kuuluva korpus, joka sisältää luettuja vihaa, iloa ja surua ilmaisevia lauseita sekä neutraaleja lauseita.

Korpus perustuu siihen oletukseen, että emootiot voi luonnollisessa (ei-näytellyssä) puheessa riittävän hyvin tunnistaa äänen perusteella ja että puhesynteesin perustana on oltava luonnollinen puhe. Iida et al. 2003.

Korpuksella on kaksi tavoitetta:

Korpuksen luotettavuus taataan havaintotestein: korpuksen jokaiseen lauseeseen liitetään havaintotestin tulokset, jotka osoittavat emootion tunnistettavuuden.

Tällä hetkellä korpus on kokeiluasteella.

Korpusta voi laajentaa eri tavoin: siihen voi lisätä lukijoita, lauseita, emootioita jne.

Korpukseen integroidaan Praat, ohjelma, joka antaa korpuksen käyttäjälle mahdollisuuden saada äänteiksi segmentoidun puheaallon kuvia (spektri, perussävy jm).

Korpuksesta ks. lähemmin Altrov 2007, 2008; Altrov, Pajupuu 2008, 2010; Altrov, Pajupuu 2012.

Korpuksen tekninen toteutus

Korpus on toteutettu verkkopohjaisena sovellutuksena käyttämällä vapaaohjelmia: Linux, PostgreSQL, Python, Praat, NLTK. Systemin tekninen kuvaus on täällä.

Tämän hetken mahdollisuudet; kyselyt

Korpuksesta voi etsiä vihaa, iloa tai surua ilmaisevia lauseita sekä neutraaleja lauseita.

Lauseet kuvataan tekstinä ja ne voi kuunnella klikkaamalla.

Lauseen yhteydessä ilmoitetaan emootion tunnistettavuusprosentti.

Tunnistettavuusprosentin, mistä alkaen lauseita etsitään, voi määritellä etukäteen.

Kyselyyn voi tehdä rajoituksia niin, että pyydetään vain ne lauseet joissa

Lauseiden äänen ja tekstin voi käyttäjä tallentaa omaan koneeseensa.

Altrov, Rene 2007. Emotsionaalse kõne korpuse loomine eesti keele tekst-kõne sünteesi jaoks. Tekstimaterjali evalvatsioon viha näitel. Magistritöö. Tartu Ülikool.

Altrov, Rene 2008. Eesti emotsionaalse kõne korpus: teoreetilised toetuspunktid. Keel ja Kirjandus, 4, 261 - 271.

Altrov, Rene; Pajupuu, Hille 2008. The Estonian Emotional Speech Corpus: Release 1. In: Proc. of the Third Baltic Conference on Human Language Technologies, František Čermak, Rūta Marcinkevičienė, Erika Rimkutė, Jolanta Zabarskaitė (eds.), 9-15. Vytauto Didžiojo Universitetas; Lietuviu Kalbos Institutas, Vilnius.

Altrov, Rene; Pajupuu, Hille 2010. Estonian Emotional Speech Corpus: Culture and Age in Selecting Corpus Testers. In: Human Language Technologies - The Baltic Perspective - Proc. of the Fourth International Conference Baltic HLT 2010, Inguna Skadiņa, Andrejs Vasiļjevs (eds.), 25-32. Amsterdam: IOS Press.

Altrov, Rene; Pajupuu, Hille 2012. Estonian Emotional Speech Corpus: Theoretical base and implementation. In: 4th International Workshop on Corpora for Research on Emotion Sentiment & Social Signals (ES3), Devillers, L., Schuller, B., Batliner, A., Rosso, P., Douglas-Cowie, E., Cowie, R., Pelachaud, C.(eds.),50-53. Istanbul.

Boersma, Paul; Weenink, David 2009. Praat: doing phonetics by computer (Version 5.1.01) [Computer program]. Retrieved February 26, 2009.

Iida, Akemi; Campbell, Nick; Higuchi, Fumito; Yasumura, Michiaki 2003. A corpus-based speech synthesis system with emotion. Speech Communication, 40, 161–187.