Popis předmětu - A4M33BDT

Přehled studia | Přehled oborů | Všechny skupiny předmětů | Všechny předměty | Seznam rolí | Vysvětlivky               Návod
A4M33BDT Technologie pro velká data Rozsah výuky:1P+1C
Garanti:  Role:V Jazyk výuky:CS
Vyučující:  Zakončení:KZ
Zodpovědná katedra:13136 Kreditů:3 Semestr:L

Anotace:

Předmět se zaměřuje na architekturu a aplikace systémů pro správu velkých dat. Studenti si osvojí celistvý pohled na ekosystém technologií od výběru hardware infrastruktury, procesu extrakce, transformace a načítání dat přes jejich uložení, správu a analýzu až po pokročilé metody datové vědy a strojového učení pro zpracování dat a následné aplikace výsledků v byznysu.

Cíle studia:

Cílem tohoto předmětu je seznámit studenty s novými trendy a technologiemi pro uchovávání, správu a zpracování velmi rozsáhlých dat (big data).

Osnovy přednášek:

1. Úvod, organizace, motivace, přehled, aplikace
2. Architektura clusteru - Hadoop (hw, distribuce, hdfs, yarn)
3. Storage (formáty ukládání a komprese dat, HIVE, Impala)
4. Map+reduce - paradigma a implementace (fáze výpočtu, schémata algoritmů)
5. Spark a zpracování streamovaných dat (RDD, DataFrames, zdroje, streaming)
6. Big Data Science (page rank, kolaborativní filtrování, SNA)
7. Datové Architektury (typické architektury Big Data řešení, dwh, data lake)

Osnovy cvičení:

1. První kroky na clusteru (připojení, certifikáty, tunely, administrace, tasky, logy)
2. Hive (vytváření a rušení tabulek, interní a externí mapování, dotazy)
3. Map Reduce (java úlohy na základní map reduce programování)
4. Spark (map reduce ve sparku, práce s RDD a DF)
5. Spark (větší úloha a příprava na zápočtový test)
6. Rezerva (Spark ML a GraphiX)

Literatura:

Hadoop: The Definitive Guide, 4th Edition, by Tom White

Požadavky:

Cvičení budou probíhat standardním způsobem předpokládáme, že studenti si přinesou vlastní počítače pro editování skriptů. Vlastní výpočty plánujeme v počítačovém klastru se vzdáleným přístupem. Pro praktická cvičení budou studenti používat předistalovanou databázi textů. Náplní cvičení bude praktické uplatnění přednášených technologií na konkrétních příkladech. V průběhu semestru jsou plánovány dva krátké testy z dosud probrané látky.

Webová stránka:

https://sites.google.com/a/via.felk.cvut.cz/bigdata/

Klíčová slova:

Big Data, Hadoop, Machine learning

Předmět je zahrnut do těchto studijních plánů:

Plán Obor Role Dop. semestr
MPOI1 Umělá inteligence V
MPOI5NEW Softwarové inženýrství V
MPOI4NEW Počítačová grafika a interakce V
MPOI5 Softwarové inženýrství V
MPOI4 Počítačová grafika a interakce V
MPOI3 Počítačové vidění a digitální obraz V
MPOI2 Počítačové inženýrství V


Stránka vytvořena 16.10.2019 17:51:37, semestry: Z,L/2020-1, L/2018-9, Z,L/2019-20, připomínky k informační náplni zasílejte správci studijních plánů Návrh a realizace: I. Halaška (K336), J. Novák (K336)
Za obsah odpovídá: doc. Ing. Ivan Jelínek, CSc.