Detail kurzu

Natural Language Processing

EDU Trainings s.r.o.

Popis kurzu

Kurz je zaměřen na analýzu a zpracování textů. Předpokládá se znalost principů strojového učení, ale ty nejdůležitější koncepty budou stručně zopakovány. Specifikem zpracování textů je způsob předzpracování dat a jejich vektorizace. Tomu bude věnována první část. Vše bude prakticky vyzkoušeno na úloze, jejíž cílem je klasifikace textových dokumentů. Dále se účastníci dozvědí, co jsou to jazykové modely a jak je použít pro detekci jazyka dokumentu nebo generování textů.

Obsah kurzu

Úvod do zpracování přirozeného jazyka
Vybrané kapitoly z komputační ligvistiky (korpusy, tokenizace, morfologická, syntaktická a sémantická analýza, entropie, mutual information, perplexita)
Vektorizace textových dokumentů (bag of words, one-hot encoding, TF-IDF)
Word embedding (word2vec)
Praktická úloha na klasifikaci textů
Word embedding (vytvoření word2vec modelů a experimenty s vektorovými reprezentacemi slov)
Úvod do jazykových modelů (n-gramové modely, vyhlazování, modely založené na neuronových sítích)
Praktická úloha na jazykové modelování (implementace jazykových modelů a jejich využití pro detekci jazyka textu)
Úprava algoritmu pro generování textů
Certifikát Na dotaz.
Hodnocení




Organizátor