Корпус эстонской эмоциональной речи

Что собой представляет корпус эстонской эмоциональной речи?

Корпус эстонской эмоциональной речи – это корпус, который содержит зачитанные предложения, выражающие злость, радость и печаль, а также нейтральные предложения. Корпус создан в Институте эстонского языка в рамках государственной программы «Лингвотехнологическая поддержка эстонского языка 2006–2010».

При создании корпуса опирались на принцип, что эмоции достаточно хорошо узнаваемы на основании голоса в естественной, неактерской речи и что неактерская речь является условием естественного синтеза речи, см. Iida et al. 2003.

Цель корпуса:

Надежность корпуса обеспечивается тестами восприятия: каждое предложение корпуса снабжено данными теста восприятия об узнаваемости эмоции.

Корпус можно всячески расширять: читателями, предложениями, эмоциями и т. д.

Подробнее о корпусе см. Altrov 2007, 2008; Altrov, Pajupuu 2008, 2010; Altrov, Pajupuu 2012.

Техническое осуществление корпуса

Корпус осуществлен в виде веб-приложения с использованием бесплатного программного обеспечения: Linux, PostgreSQL, Python, Praat, NLTK. Техническое описание системы располагается здесь.

Все данные, кроме звуковых файлов, записаны в базу данных PostgreSQL. Веб-интерфейс и вся обработка данных осуществлены с использованием языка программирования Python и веб-среды Pylons. Приложение можно инсталлировать в Windows или Linux систему. Веб-интерфейс имеется на эстонском, английском, финском и латышском языках, и его можно легко приспособить и к другим языкам.

Нынешние возможности, запросы обычного пользователя

В корпусе можно вести поиск предложений, включающих эмоции злости, радости или печали, и нейтральных предложений (см. Отчеты).

Предложения выводятся на экран в виде целых фраз, и их можно прослушивать, нажав на них.

Рядом с предложением показывается процент восприятия эмоции.

Процент восприятия, начиная с которого ведется поиск предложений, можно задать заранее.

При запросах можно установить ограничение, что желают найти только такие предложения, где:

Звук и текст предложений можно записать для себя (wav, textgrid). Руководство по снабжению корпуса пометками находится здесь.

Данные корпуса можно загружать в систему обработки речи EMU. Доступные в настоящее время базы данных перечислены в подходящем для EMU формате здесь, а указания по инсталлированию EMU можно найти здесь.

Altrov, Rene 2007. Emotsionaalse kõne korpuse loomine eesti keele tekst-kõne sünteesi jaoks. Tekstimaterjali evalvatsioon viha näitel. Magistritöö. Tartu Ülikool.

Altrov, Rene 2008. Eesti emotsionaalse kõne korpus: teoreetilised toetuspunktid. Keel ja Kirjandus, 4, 261 - 271.

Altrov, Rene; Pajupuu, Hille 2008. The Estonian Emotional Speech Corpus: Release 1. In: Proc. of the Third Baltic Conference on Human Language Technologies, František Čermak, Rūta Marcinkevičienė, Erika Rimkutė, Jolanta Zabarskaitė (eds.), 9-15. Vytauto Didžiojo Universitetas; Lietuviu Kalbos Institutas, Vilnius.

Altrov, Rene; Pajupuu, Hille 2010. Estonian Emotional Speech Corpus: Culture and Age in Selecting Corpus Testers. In: Human Language Technologies - The Baltic Perspective - Proc. of the Fourth International Conference Baltic HLT 2010, Inguna Skadiņa, Andrejs Vasiļjevs (eds.), 25-32. Amsterdam: IOS Press.

Altrov, Rene; Pajupuu, Hille 2012. Estonian Emotional Speech Corpus: Theoretical base and implementation. In: 4th International Workshop on Corpora for Research on Emotion Sentiment & Social Signals (ES3), Devillers, L., Schuller, B., Batliner, A., Rosso, P., Douglas-Cowie, E., Cowie, R., Pelachaud, C.(eds.),50-53. Istanbul.

Boersma, Paul; Weenink, David 2009. Praat: doing phonetics by computer (Version 5.1.01) [Computer program]. Retrieved February 26, 2009.

Iida, Akemi; Campbell, Nick; Higuchi, Fumito; Yasumura, Michiaki 2003. A corpus-based speech synthesis system with emotion. Speech Communication, 40, 161–187.