Szkolenia Cloudera

Cel szkolenia dlearning

Czterodniowy kurs Cloudera Data Analyst Training: Using Pig, Hive, and Impala with Hadoop skupia się na zagadnieniach i technologiach przydatnych w pracy każdego analityka tj. Apache Pig, Hive i Cloudera Impala, które umożliwią uczestnikom wykorzystanie tradycyjnych podejść i metod analitycznych praktywanych dotychczas na wykorzystanie ich w technologii BigDATA. W trakcie kursu Cloudera Data Analyst prezentowane są profesjonalne narzędzia pozwalające na uzyskanie dostępu, zmianę, transformacje i analizę skomplikowanych struktur danych umieszczonych na klastrze Hadoop, przy użyciu języków skryptówych zawierających podobieństwa do SQL.

Apache Hive pozwala rzucić nowe spojrzenie na skomplikowane duże struktury danych, co przekłada się na możliwość wykonania na nich niezbędnej analityki. Narzędzie idealne dla analityków, administratorów oraz wszystkich innych tych, którzy nie posiadają wiedzy i doświadczenia nt języka programowania Java. Apache Pig dodaje możliwość użycia prostego i łatwo przyswajalnego języka skryptowego do klastra hurtownii danych Hadoop. Cloudera Impala z kolei to narzędzie ułatwiające analitykę na danych w hurtownii w czasie rzeczywistym, zbliżonym do tego jaki spotyka się w relacyjnych bazach danych, przy wykorzystaniu natywnego języka SQL.

W trakcie szkolenia prowadzony jest wykład przeplatany dyskusją, burzą mózgów, wykonywaniem ćwiczeń praktycznych, uczestnicy poruszać będą m.in. takie tematy w ramach technologii około Hadoop jak:

  • Funkcjonalności narzędzi Pig, Hive oraz Impala, pozwalające na zbieranie danych, zapisywanie wyników i analitykę
  • Podstawowa wiedza nt Apache Hadoop i jego narzędzi oraz procesu ETL (extract, transform, load)
  • Jak Pig, Hive, i Impala pozwolą podnieść wydajność dla typowych i codziennych zadań analitycznych
  • Łączenie różnych zestawów danych, aby uzyskać cenne i wartościowe wartości biznesowe i wyciągać wnioski
  • Wykonywanie złożonych zapytań na zbiorach danych

Plan szkolenia Rozwiń listę

  1. Wprowadzenie
  2. Podstawy nt Hadoop
    • Dlaczego Hadoop?
    • Przegląd technologii
    • HDFS to miejsce gdzie trzymamy nasze dane
    • Rozproszone procesowanie danych z wykorzystaniem: YARN, MapReduce i Spark
    • Procesowanie i analiza danych: Pig, Hive i Impala
    • Ładowanie danych z wykorzystaniem narzędzia: Sqoop
    • Inne narzędzia Hadoop
    • Opiś środowiska szkoleniowego, na którym będziemy pracować w trakcie kursu
  3. Wprowadzenie do Pig
    • Czym jest Pig?
    • Funkcjonalności narzędzia Pig
    • Przypadki użycia narzędzia Pig
    • Praca z narzędziem Pig
  4. Podstawowa analiza danych z wykorzystaniem narzędzia Pig
    • Składnia języka Pig Latin
    • Ładowanie danych
    • Proste typy danych
    • Definicje pól
    • Reprezentacja danych wynikowych
    • Podgląd schematu
    • Filtrowanie i sortowanie danych
    • Powszechnie wykorzystywane funkcje
  5. Procesowanie skomplikowanych/złożonych danych z wykorzystaniem narzędzia Pig
    • Formaty przechowywania danych
    • Złożone/zagnieżdżone typy danych
    • Grupowanie danych
    • Przegląd wbudowanych funkcji możliwych do użycia w przypadku złożonych typów danych
    • Iterowanie i dostęp do zgrupowanych danych
  6. Operacje na wielu zbiorach danych z wykorzystaniem narzędzia Pig
    • Techniki łączenia zbiorów danych
    • Łączenie danych z wykorzystaniem narzędzia Pig
    • Inne typy łączenia danych (cross, union)
    • Podział zbioru danych na mniejsze porcje
  7. Rozwiązywanie problemów i optymalizacja w Pig
    • Rozwiązywanie problemów
    • Podejście do logów
    • Wykorzystanie interfejsów przeglądarkowych w narzędziach technologii Hadoop
    • Próbkowanie danych, usuwanie błędów
    • Podejście do wydajności
    • Plan zapytań i jego przydatność
    • Dobre praktyki, wskazówki i podpowiedźi w osiąganiu lepszej wydajności przy wykonywaniu zadań z Pig
  8. Wprowadzenie do Hive oraz Impala
    • Czym jest Hive?
    • Czym jest Impala?
    • Jak wygląda schemat, struktura oraz przechowywanie danych
    • Porównanie Hive do tradycyjnych relacyjnych baz danych Databases
    • Przypadki użycia Hive
  9. Wykonywanie zapytań w Hive i Impala
    • Bazy danych i tabele
    • Podstawy języka pisania zapytań w Hive i Impala
    • Typy danych
    • Różnica języka SQL pomiędzy Hive i Impala
    • Wykorzystanie interfejsu przeglądarkowego Hue do wykonywania zapytań
    • Przypadki użycia Impala Shell
  10. Zarządzanie danymi
    • Przechowywanie danych
    • Tworzenie baz danych i tabel
    • Ładowanie danych
    • Zmiana schematu baz danych i tabel
    • Uproszenie zapytań z wykorzystaniem widoków
    • Zapisywanie wyników zapytań
  11. Przechowywanie danych i wydajność
    • Partycjonowanie tabel
    • Wybór formatu plikowego
    • Zarządzanie meta danymi
    • Kontrola dostępu do danych
  12. Analizy z wykorzystaniem narzędzi Hive i Impala
    • Łączenie zbiorów danych
    • Popularne wbudowane funkcje
    • Agregacja i użycie okienkowości
  13. Praca z narzędziem Impala
    • Jak Imapala uruchamia zadane zapytania
    • Rozszerzenie narzędzia o tzw. User-Defined Functions (UDF)
    • Co zrobić aby było wydajniej?
  14. Analiza tekstu i złożonych typów danych z wykorzystaniem narzędzia Hive
    • Złożone wartości w Hive
    • Użycie wyrażeń regularnych w Hive
    • Analiza nastroju oraz rekomendacje z użyciem N-Gram
    • Podsumowanie
  15. Optymalizacja Hive
    • Podejście do zrozumienia wydajności zapytania
    • Kontrola planu zapytania
    • Bucketing
    • Zakładanie indeksów
  16. Rozszerzenie Hive
    • SerDes
    • Transformacja danych z wykorzystaniem skryptów (python, perl, …)
    • User-Defined Functions (UDF)
    • Parametryzacja zapytań
  17. Wybór najlepszego narzędzia dla danego zadania
    • Porównanie MapReduce, Pig, Hive, Impala i relacyjnych baz danych
    • Które narzędzie wybrać?
  18. Podsumowanie
Pobierz konspekt szkolenia w formacie PDF

Dodatkowe informacje

Wymagania
  • Szkolenie dedykowane jest dla analityków, secjalistów BI, deweloperów, architektów systemowych i administratorów baz danych.
  • Znajomość języka SQL oraz podstawy Linux-a, to umiejętności które bedą przydatne do uczestnictwa w kursie.
  • Ponadto wiedza nt przynajmniej jednego z wymienionych języków skryptowych: Bash scripting, Perl, Python, Ruby, byłaby bardzo pomocna na zajęciach ale nie jest wymagana.
  • Wiedza w zakresie technologii Apache Hadoop nie jest wymagana.
Poziom trudności
Czas trwania 4 dni
Certyfikat

Uczestnicy szkolenia otrzymają certyfikat ukończenia kursu z patronatem i autoryzacją Cloudera.

Prowadzący

Certyfikowany instruktor Cloudera.

Wszystkie szkolenia Cloudera

Szkolenia powiązane tematycznieRozwiń listę

Analiza Big Data


Formularz kontaktowy

Prosimy o wypełnienie poniższego formularza, jeśli chcą Państwo uzyskać więcej informacji o powyższym szkoleniu.






* pola oznaczone (*) są wymagane

Informacje o przetwarzaniu danych przez Compendium – Centrum Edukacyjne Spółka z o.o.

CENA 2180 EUR NETTO Czy wiesz, że możesz uzyskać do 100% dofinansowania na ten kurs?   Sprawdź jak »

zamknij

Kody rabatowe

Kod rabatowy, może dotyczyć (szkolenia, producenta, terminu). Jeżeli posiadasz kod rabatowy, to wpisz go w odpowiednie pole.
(kolor zielony oznacza wpisanie prawidłowego kodu | kolor czerwony oznacza, że wpisany kod jest nieprawidłowy)

FORMA SZKOLENIA ?

zamknij

Szkolenie stacjonarne

Szkolenia stacjonarne w Compendium CE odbywają się najczęściej w naszych lokalizacjach w Krakowie i Warszawie, ale także w miejscu ustalonym przez klienta. Grupa uczestnicząca w szkoleniu spotyka się w danym miejscu o określonym czasie i wraz z trenerem aktywnie uczestniczy w laboratoriach.

Szkolenie dlearning

W szkoleniach Compendium Distance Learning możesz uczestniczyć z dowolnego miejsca na świecie. Kursanci, dzięki zaawansowanej technologii, którą dostarcza Compendium CE, stale widzą i słyszą trenera, mogą mu zadawać pytania poprzez chat i mikrofon, a także uczestniczą w ćwiczeniach i laboratoriach, które rozwiązują wraz z prowadzącym. Po więcej informacji zajrzyj na stronę dlearning.eu

MATERIAŁY SZKOLENIOWE ?

zamknij

Materiały elektroniczne

Materiały elektroniczne: są to materiały szkoleniowe w wersji elektronicznej, które w zależności od dostawcy udostępniane są za pomocą dedykowanych aplikacji: Skillpipe, eVantage itd. lub w postaci dokumentów PDF.

Materiały ctab

Materiały ctab: cena zawiera tablet ctab oraz materiały szkoleniowe w formie elektronicznej bądź tradycyjne materiały szkoleniowe i materiały dodatkowe dostarczone w wersji elektronicznej w zależności od ustaleń z producentem (w postaci dokumentów PDF lub EPUB). Tak dostarczone materiały są przystosowane pod kątem wyświetlania ich na tablecie ctab. Po więcej informacji zajrzyj na stronę ctab.

 

WYBIERZ TERMIN SZKOLENIA

Zarezerwuj termin szkolenia
Terminy szkolenia dla angielskiej wersji językowej

Najbliższe szkolenia Cloudera

Harmonogram szkoleń Cloudera