Eesti emotsionaalse kõne korpus
Mis on eesti emotsionaalse kõne korpus?
Eesti emotsionaalse kõne korpus (EEKK) on Eesti Keele Instituudis riikliku programmi "Eesti keele keeletehnoloogiline tugi 2006-2010" raames loodud korpus, mis sisaldab loetud viha-, rõõmu-ja kurbuselauseid ning neutraalseid lauseid.
Korpus toetub seisukohale, et emotsioonid on hääle põhjal piisavalt hästi ära tuntavad loomulikus mittenäideldud kõnes, ja et mittenäideldud kõne on loomuliku kõnesünteesi eeldus, vt Iida et al. 2003.
Korpuse eesmärk on:
- olla usaldusväärne andmekogu kõnes ja kirjas avalduvate emotsioonide uurimiseks;
- olla korpuspõhise emotsionaalse tekst-kõne sünteesi akustiline baas;
- võimaldada päringuid keeletehnoloogiliste rakenduste tarbeks.
Korpuse usaldusväärsus tagatakse tajutestidega: iga korpuse lause on varustatud tajutesti andmetega emotsiooni äratuntavuse kohta.
Korpus on igati laiendatav: lugejatega, lausetega, emotsioonidega jne.
Korpuse kohta pikemalt vt Altrov 2007, 2008; Altrov, Pajupuu 2008, 2010; Altrov, Pajupuu 2012.
Tavakasutaja praegused võimalused, päringud
Korpusest saab otsida viha, rõõmu või kurbuse emotsiooni kandvaid lauseid ja neutraalseid lauseid (vt Aruanded).
Laused kuvatakse tekstina ja need on klikates kuulatavad.
Lause juures kuvatakse emotsiooni tajuprotsent.
Tajuprotsendi saab ette anda, alates millest lauseid otsitakse.
Päringutes saab seada piirangu, et soovitakse ainult neid lauseid, kus
- tekst ei mõjuta lause emotsiooni tajumist
- tekst mõjutab lause emotsiooni tajumist
Lausete heli ja teksti saab endale salvestada (wav, textgrid). Korpuse märgendamisjuhend asub siin.
Korpuse tehniline teostus ja alla laetavad andmed
Süsteemi tehniline kirjeldus on siin.
Korpus on teostatud veebipõhise rakendusena kasutades vabavara: Linux, PostgreSQL, Python, Praat, NLTK. Kõik andmed peale helifailide on salvestatud PostgreSQL andmebaasi. Veebiliides ja kogu andmetöötlus on teostatud kasutades programmeerimiskeelt Python ja veebikeskkonda Pylons. Rakendus on installeeritav nii Windows kui ka Linux keskkonda. Veebiliides on eesti-, inglise-, soome- ja lätikeelne ning lihtsalt kohandatav ka teistele keeltele.
Kõik korpuse metaandmed saab PostgreSQL dump vormingus alla laadida siit.
Korpuse andmeid saab laadida ka EMU kõnetöötluse süsteemi. Hetkel saadaolevad andmebaasid on loetletud EMUle sobivas vormingus siin ja näpunäiteid EMU installeerimiseks leiab siit.
Kirjandus
Altrov, Rene 2007. Emotsionaalse kõne korpuse loomine eesti keele tekst-kõne sünteesi jaoks. Tekstimaterjali evalvatsioon viha näitel. Magistritöö. Tartu Ülikool.
Altrov, Rene; Pajupuu, Hille 2008. The Estonian Emotional Speech Corpus: Release 1. In: Proc. of the Third Baltic Conference on Human Language Technologies, František Čermak, Rūta Marcinkevičienė, Erika Rimkutė, Jolanta Zabarskaitė (eds.), 9-15. Vytauto Didžiojo Universitetas; Lietuviu Kalbos Institutas, Vilnius.
Altrov, Rene; Pajupuu, Hille 2010. Estonian Emotional Speech Corpus: Culture and Age in Selecting Corpus Testers. In: Human Language Technologies - The Baltic Perspective - Proc. of the Fourth International Conference Baltic HLT 2010, Inguna Skadiņa, Andrejs Vasiļjevs (eds.), 25-32. Amsterdam: IOS Press.
Altrov, Rene; Pajupuu, Hille 2012. Estonian Emotional Speech Corpus: Theoretical base and implementation. In: 4th International Workshop on Corpora for Research on Emotion Sentiment & Social Signals (ES3), Devillers, L., Schuller, B., Batliner, A., Rosso, P., Douglas-Cowie, E., Cowie, R., Pelachaud, C.(eds.),50-53. Istanbul.
Boersma, Paul; Weenink, David 2009. Praat: doing phonetics by computer (Version 5.1.01) [Computer program]. Retrieved February 26, 2009.
Iida, Akemi; Campbell, Nick; Higuchi, Fumito; Yasumura, Michiaki 2003. A corpus-based speech synthesis system with emotion. Speech Communication, 40, 161–187.