Subject description - B4M36NLP

Summary of Study | Summary of Branches | All Subject Groups | All Subjects | List of Roles | Explanatory Notes               Instructions
B4M36NLP Introduction to Natural Language Processing Extent of teaching:2P+2C
Guarantors:Železný F. Roles:V Language of
teaching:
CS
Teachers:Bojar O., Hajič J., Pecina P., Zeman D., Žabokrtský Z. Completion:Z,ZK
Responsible Department:13136 Credits:6 Semester:Z

Anotation:

V předmětu se studenti seznámí se standardními, základními, převážně statistickými, metodami v oblasti zpracování přirozeného jazyka (NLP). Studenti si po teoretické i implementační stránce osvojí potřebné techniky a seznámí se jak se základními komponentami jako jsou korpusy a jazykové modely, tak s komplexními koncovými aplikacemi NLP, například strojovým překladem.

Study targets:

Cílem je uvést studenty do problematiky zpracování přirozeného jazyka, běžně zahrnuté v computer science programech světových universit. Předmět bude vyučován odborníky z Ústavu formální a aplikované lingvistiky Matematicko-fyzikální fakulty Univerzity Karlovy v Praze. Absolvování předmětu rovněž rozšíří stávající vhled studenta do oblasti umělé inteligence a strojového učení.

Content:

Obsah předmětu tvoří čtyři na sebe navazující segmenty:
a) úvod, pravděpodobnostní modely, data pro NLP
b) morfologická a syntaktická analýza
c) strojový překlad
d) vyhledávání informací.
Cvičení a přednášky jsou v daném týdnu tematicky těsně propojeny.

Course outlines:

1. Motivace pro NLP. Základní pojmy pravděpodobnostního modelování a teorie informace.
2. Jazykové modely a jejich vyhlazování.
3. Skryté markovovské modely.
4. Zdroje lingvistických dat, experiment v NLP.
5. Morfologické značkování.
6. Syntaktická analýza.
7. Přehled přístupů ke strojovému překladu.
8. Statistický strojový překlad.
9. Lingvistické rysy ve strojovém překladu.
10. Vyhledávání informací.
11. Váhy termů.
12. Klasifikace a shluková analýza dokumentů.
13. Vektorové modely (word embeddings)
14. Závěrečný písemný test

Exercises outline:

1. Zpracování textu na příkazové řádce bash, základní nástroje.
2. Kódování znaků národních abeced, jednoduchý korpus a jeho tokenizace.
3. Výpočet jazykového modelu.
4. Evaluační míry v NLP.
5. Seznámení s Českým národním korpusem.
6. Seznámení se syntakticky značkovanými korpusy.
7. Práce s paralelním korpusem.
8. Práce s překladovým systémem Moses.
9. Moses, pokračování.
10. Konstrukce indexu.
11. Výpočet váhy termů.
12. Klasifikace dokumentů.
13. Vektorové modely.
14. Závěrečný písemný test

Literature:

Elektronické studijní materiály dodané k jednotlivým přednáškám. Doporučená literatura nad rámec základních požadavků: Manning C. D., Schuetze, H.: Foundations of Statistical Natural Language Processing.MIT Press, Cambridge, 1999 Koehn, P.: Statistical Machine Translation. Cambridge University Press New York, 2010. Manning, C., Raghavan, P., Schuetze, H.:Introduction to Information Retrieval. Cambridge University Press, 2008.

Requirements:

Nejsou vyžadovány žádné speciální znalosti překračující obecný informatický základ. Výhodou je orientace studenta v pravděpodobnostních metodách a strojovém učení, nicméně všechny potřebné základní pojmy budou zopakovány na úvodních přednáškách. Z hlediska cvičení je nezbytností dobrá znalost alespoň jednoho programovacího jazyka použitelného v unixovém prostředí.

Webpage:

http://ufal.mff.cuni.cz/~zabokrtsky/tmp/fel/index.html

Keywords:

zpracování přirozeného jazyka, natural language processing, NLP

Subject is included into these academic programs:

Program Branch Role Recommended semester
MPOI1 Artificial Intelligence V
MPOI5NEW Software Engineering V
MPOI4NEW Computer Graphics and Interaction V
MPOI5 Software Engineering V
MPOI4 Computer Graphics and Interaction V
MPOI3 Computer Vision and Image Processing V
MPOI2 Computer Engineering V


Page updated 28.1.2020 09:53:23, semester: Z,L/2020-1, L/2018-9, Z,L/2019-20, Send comments about the content to the Administrators of the Academic Programs Proposal and Realization: I. Halaška (K336), J. Novák (K336)