ČeskyEnglish

Popis předmětu - B4M36NLP

Přehled studia | Přehled oborů | Všechny skupiny předmětů | Všechny předměty | Seznam rolí | Vysvětlivky               Návod
B4M36NLP Úvod do zpracování přirozeného jazyka Rozsah výuky:2+2c
Garanti:Železný F. Role:V Zakončení:Z,ZK
Vyučující:Bojar O., Hajič J., Pacina P., Zeman D., Žabokrtský Z.
Zodpovědná katedra:13136 Kreditů:6 Semestr:Z

Anotace:

V předmětu se studenti seznámí se standardními, základními, převážně statistickými, metodami v oblasti zpracování přirozeného jazyka (NLP). Studenti si po teoretické i implementační stránce osvojí potřebné techniky a seznámí se jak se základními komponentami jako jsou korpusy a jazykové modely, tak s komplexními koncovými aplikacemi NLP, například strojovým překladem.

Cíle studia:

Cílem je uvést studenty do problematiky zpracování přirozeného jazyka, běžně zahrnuté v computer science programech světových universit. Předmět bude vyučován odborníky z Ústavu formální a aplikované lingvistiky Matematicko-fyzikální fakulty Univerzity Karlovy v Praze. Absolvování předmětu rovněž rozšíří stávající vhled studenta do oblasti umělé inteligence a strojového učení.

Obsah:

Obsah předmětu tvoří čtyři na sebe navazující segmenty:
a) úvod, pravděpodobnostní modely, data pro NLP
b) morfologická a syntaktická analýza
c) strojový překlad
d) vyhledávání informací.
Cvičení a přednášky jsou v daném týdnu tematicky těsně propojeny.

Osnovy přednášek:

1. Motivace pro NLP. Základní pojmy pravděpodobnostního modelování a teorie informace.
2. Jazykové modely a jejich vyhlazování.
3. Skryté markovovské modely.
4. Zdroje lingvistických dat, experiment v NLP.
5. Morfologické značkování.
6. Syntaktická analýza.
7. Přehled přístupů ke strojovému překladu.
8. Statistický strojový překlad.
9. Lingvistické rysy ve strojovém překladu.
10. Vyhledávání informací.
11. Váhy termů.
12. Klasifikace a shluková analýza dokumentů.
13. Vektorové modely (word embeddings)
14. Závěrečný písemný test

Osnovy cvičení:

1. Zpracování textu na příkazové řádce bash, základní nástroje.
2. Kódování znaků národních abeced, jednoduchý korpus a jeho tokenizace.
3. Výpočet jazykového modelu.
4. Evaluační míry v NLP.
5. Seznámení s Českým národním korpusem.
6. Seznámení se syntakticky značkovanými korpusy.
7. Práce s paralelním korpusem.
8. Práce s překladovým systémem Moses.
9. Moses, pokračování.
10. Konstrukce indexu.
11. Výpočet váhy termů.
12. Klasifikace dokumentů.
13. Vektorové modely.
14. Závěrečný písemný test

Literatura:

Elektronické studijní materiály dodané k jednotlivým přednáškám. Doporučená literatura nad rámec základních požadavků: Manning C. D., Schuetze, H.: Foundations of Statistical Natural Language Processing.MIT Press, Cambridge, 1999 Koehn, P.: Statistical Machine Translation. Cambridge University Press New York, 2010. Manning, C., Raghavan, P., Schuetze, H.:Introduction to Information Retrieval. Cambridge University Press, 2008.

Požadavky:

Nejsou vyžadovány žádné speciální znalosti překračující obecný informatický základ. Výhodou je orientace studenta v pravděpodobnostních metodách a strojovém učení, nicméně všechny potřebné základní pojmy budou zopakovány na úvodních přednáškách. Z hlediska cvičení je nezbytností dobrá znalost alespoň jednoho programovacího jazyka použitelného v unixovém prostředí.

Poznámka:

Předmět je zamýšlen především pro studenty 1.ročníku magisterského studia (kteří budou případně upřednostněni při zápisu). Předmět bude vyučován odborníky z MFF UFAL: Prof. RNDr. Jan Hajič, Dr. http://ufal.mff.cuni.cz/jan-hajic Doc. Ing. Zdeněk Žabokrtský, Ph.D. http://ufal.mff.cuni.cz/zdenek-zabokrtsky RNDr. Pavel Pecina, Ph.D. http://ufal.mff.cuni.cz/~pecina RNDr. Ondřej Bojar, Ph.D. http://ufal.mff.cuni.cz/ondrej-bojar RNDr. Daniel Zeman, Ph.D. http://ufal.mff.cuni.cz/daniel-zeman , pro případné zájemce je po dohodě možné též navštěvovat NLP předmety přímo na MFF : http://ufal.mff.cuni.cz/courses

Webová stránka:

http://ufal.mff.cuni.cz/~zabokrtsky/tmp/fel/index.html

Klíčová slova:

zpracování přirozeného jazyka, natural language processing, NLP

Předmět je zahrnut do těchto studijních plánů:

Plán Obor Role Dop. semestr
MPOI5NEW Softwarové inženýrství V
MPOI5 Softwarové inženýrství V
MPOI4NEW Počítačová grafika a interakce V
MPOI4 Počítačová grafika a interakce V
MPOI3 Počítačové vidění a digitální obraz V
MPOI2 Počítačové inženýrství V
MPOI1 Umělá inteligence V


Stránka vytvořena 23.8.2017 07:47:15, semestry: L/2016-7, Z,L/2017-8, Z/2018-9, připomínky k informační náplni zasílejte správci studijních plánů Návrh a realizace: I. Halaška (K336), J. Novák (K336)
Za obsah odpovídá: doc. Ing. Ivan Jelínek, CSc.