Spis treści



Zaproszenie na obronę pracy doktorskiej


DZIEKAN i RADA WYDZIAŁU ELEKTROTECHNIKI, AUTOMATYKI, INFORMATYKI i INŻYNIERII BIOMEDYCZNEJ AKADEMII GÓRNICZO-HUTNICZEJ im. ST. STASZICA W KRAKOWIE
zapraszają na
publiczną dyskusję nad rozprawą doktorską

mgr inż. Leszka Gajeckiego
MODELOWANIE JĘZYKA NATURALNEGO (POLSKIEGO) DLA POTRZEB BUDOWY SYSTEMU ROZPOZNAWANIA MOWY KLASY LVCSR
Dyskusja odbędzie się 6 listopada 2013 roku o godz. 13:30 w Sali Posiedzeń
Rady Wydziału EAIiIB, al. Mickiewicza 30, pawilon B-1, sala 4
PROMOTOR: Prof. zw. dr hab. inż. Ryszard Tadeusiewicz, Akademia Górniczo-Hutnicza w Krakowie
RECENZENCI: Dr hab. inż. prof. UAM Grażyna Demenko, Uniwersytet Adama Mickiewicza w Poznaniu
Prof. zw. dr hab. inż. Adam Kowalewski, Akademia Górniczo-Hutnicza w Krakowie
Z rozprawą doktorską i opiniami recenzentów można się zapoznać
w Czytelni Biblioteki Głównej AGH, al. Mickiewicza 30



Streszczenie

Modelowanie języka naturalnego (polskiego) dla potrzeb budowy systemu rozpoznawania mowy klasy LVCSR

mgr inż. Leszek Gajecki

Promotor: Prof. zw. dr hab. inż. Ryszard Tadeusiewicz
Dyscyplina: Informatyka


Przedmiotem rozprawy jest modelowanie języka naturalnego (polskiego) dla potrzeb budowy systemu rozpoznawania mowy ciągłej z zastosowaniem dużego słownika LVCSR.

Aby osiągnąć ten cel wykazano tezy:
1. Jest możliwe wykonanie modelu językowego dla języka polskiego z użyciem sieci neuronowych - sieci samoorganizującej się mapy Kohonena.
2. Model języka naturalnego oparty na automatycznej ekstrakcji reguł pozwala uzyskać poprawę jakości rozpoznawania mowy polskiej w systemie klasy LVCSR w stosunku do szeroko stosowanego modelu bigramowego.


Model n-gramowy typowo stosowany w badaniach w niektórych językach (np. angielskim) jest rozwiązaniem wygodnym i wydajnym, jednakże sztywno uwzględnia kolejność wyrazów. Język polski potrzebuje takiej klasy modeli językowych, które uwzględniają swobodny (w pewnym zakresie) szyk zdania.

Tezy wykazano poprzez analizę uwarunkowań pracy modeli językowych, analizę znanych modeli statystycznych, gramatyk formalnych, wskazanie najważniejszych elementów gramatyk języka polskiego. Następnie zaproponowano model gramatyki powierzchniowej oparty o proste reguły językowe. Obszerną część pracy poświęcono autorskim modelom opartym o sieci neuronowe, które spełniają uwarunkowania szyku swobodnego.

Dodatkowo reguły językowe w modelach bazujących na sieciach neuronowych są utworzone poprzez automatyczną ich ekstrakcję z korpusu językowego, co pozwoli w przyszłości na budowę modelu automatycznie doskonalącemu się w trakcie użytkowania.

Pracę zakończono testami na zbiorze referencyjnym.

Pełna wersja autoreferatu

dr_autoreferat.pdf



Ważniejsze publikacje autora rozprawy

  1. Leszek Gajecki,Ryszard Tadeusiewicz,„Modeling of Polish Language for Large Vocabulary Computer Speech Recognition” w „Speech and Language Technology.” Volume 11. Ed. Grażyna Demenko, Krzysztof Jassem, Polish Phonetic Association, Poznań 2008
  2. Leszek Gajecki,Ryszard Tadeusiewicz „Complex SOM network for Language Modelling in LVCSR” - proceedings of 4th Language and Technology Conference -Poznań 2009
  3. Leszek Gajecki, Ryszard Tadeusiewicz „Architectures of Neural Networks applied for LVCSR Language Modelling” in R. Tadeusiewicz, A.Ligęza, W.Mitkowski, M. Szymkat “CMS’09 -7th Conference Computer Methods and Systems” , ONT Kraków 2009
  4. Leszek Gajecki, Ryszard Tadeusiewicz „Language modeling and Large Vocabulary Continuous Speech Recognition”, Journal of Applied Computer Science, vol.2 /2009, Łódź 2009
  5. Leszek Gajecki, Ryszard Tadeusiewicz, “Modelowanie języka polskiego z wykorzystaniem gramatyki struktur frazowych.” (“Modelling of polish language using HPSG grammar” in Polish), pp. 59 – 68 in: Aleksander Pohl, Martyna Goc, Tomasz Konik, Marta Siedlecka (eds.), Rocznik Kognitywistyczny – vol III/2009, Wydawnictwo Uniwersytetu Jagiellońskiego, Kraków 2010
  6. Leszek Gajecki, Ryszard Tadeusiewicz, SOM network for LVCSR Speech Recognition, Speech and Language Technology vol. 12, Polskie Towarzystwo Fonetyczne , Poznań 2009/2010, str 183-190
  7. Leszek Gajecki, Ryszard Tadeusiewicz, Language modeling using SOM network, Procedings 5th Langauge & Technology Conference, Fundacja UAM, Poznań 2011, str 216-220
  8. Leszek Gajecki, Ryszard Tadeusiewicz, PLLM-Language modeling using SOM network, Procedings 5th Langauge & Technology Conference, Fundacja UAM, Poznań 2011, str 5823.