Szkolenia Cloudera

Cel szkolenia dlearning

Developer Training For Spark and Hadoop to 4-dniowe praktyczne szkolenie przedstawia uczestnikom kluczowe założenia teoretyczne i rozwija umiejętności przechwytywania i procesowania danych na platformie Hadoop, używając najaktualniejszych narzędzi i technik. Poprzez wykorzystanie ekosystemu aplikacji Hadoop, takich jak: Spark, Hive, Flume, Sqoop i Impala, szkolenie to doskonale przygotowuje do mierzenia się z praktycznymi wyzwaniami, z jakimi borykają się programiści Hadoop. Uczestnicy uczą się, jak poprawnie wybrać odpowiednie narzędzia w konkretnych sytuacjach oraz nabywają praktycznego doświadczenia w ich używaniu.

Poprzez prowadzone przez instruktora dyskusje i interaktywne ćwiczenia praktyczne, uczestnicy poznają technologię Apache Spark oraz uczą się, jak ją integrować z całym ekosystemem aplikacji Hadoop. Wiedza ta dostarcza im odpowiedzi na pytania:

  • Jak dane są dystrybuowane, zapisywane i procesowanie na klastrze Hadoop?
  • Jak używać Sqoop i Flume do przyjmowania danych na klaster?
  • Jak przetwarzać dystrybuowane dane przy pomocy Apache Spark?
  • Jak modelować strukturyzowane dane jako tabele w Impala i Hive?
  • Jak wybrać najbardziej odpowiedni format zapisu danych dla różnych przypadków użycia?
  • Jakie są dobre praktyki zapisu danych?

Plan szkolenia Rozwiń listę

  1. Wprowadzenie do Hadoop i ekosystemu aplikacji Hadoop
    • Problemy z tradycyjnymi systemami dużej skali
    • Hadoop!
    • Ekosystem Hadoop
  2. Architektura Hadoop i HDFS
    • Rozproszone przetwarzanie na klastrze
    • Przechowywanie danych: Architektura HDFS
    • Przechowywanie danych: Użycie HDFS
    • Zarządzanie zasobami: Architektura YARN
    • Zarządzanie zasobami: Praca z YARN
  3. Import relacyjnych danych używając Apache Sqoop
    • Wprowadzenie do Sqoop
    • Podstawowe importy i eksporty
    • Ograniczanie wyników
    • Optymalizacja wydajności w Sqoop’s
    • Sqoop 2
  4. Wprowadzenie do Impala i Hive
    • Wprowadzenie do Impala i Hive
    • Kto używa Impala i Hive?
    • Porównanie Hive z tradycyjnymi bazami danych
    • Przypadki użycia Hive
  5. Modelowanie i zarządzanie danymi w Impala i Hive
    • Wstęp do zapisu danych
    • Tworzenie baz danych i tabel
    • Umieszczanie danych w tabelach
    • HCatalog
    • Cache'owanie metadanych w Impala
  6. Formaty plików
    • Wybór formatu plików
    • Wsparcie narzędzi Hadoop dla różnych formatów plików
    • Schematy Avro
    • Używanie Avro z Hive i Sqoop
    • Ewolucja schematów Avro
    • Kompresja
  7. Partycjonowanie danych
    • Wstęp do partycjonowania
    • Partycjonowanie w Impala i Hive
  8. Zbieranie danych używając Apache Flume
    • Co to jest Apache Flume?
    • Podstawowa architektura Flume
    • Flume Sources
    • Flume Sinks
    • Flume Channels
    • Konfiguracja Flume
  9. Podstawy Spark
    • Co to jest Apache Spark?
    • Wykorzystanie Spark Shell
    • RDDs (Resilient Distributed Datasets)
    • Programowanie funkcyjne w Spark
  10. Używanie RDDs w Spark
    • Bardziej szczegółowo o RDDs
    • Klucz-wartość Pair RDDs
    • MapReduce
    • Inne operacje na Pair RDD
  11. Tworzenie i wdrażanie aplikacji Spark
    • Aplikacje Spark VS Spark Shell
    • Tworzenie SparkContext
    • Budowanie aplikacji Spark (Scala i Java)
    • Uruchamianie aplikacji Spark
    • Web UI aplikacji Spark
    • Konfigurowanie ustawień Spark
    • Logowanie
  12. Programowanie współbieżne w Spark
    • Przypomnienie: Spark uruchamiany na klastrze
    • Partycje w RDD
    • Partycjonowanie RDD opartych na plikach
    • HDFS i Data Locality
    • Wykonywanie równoległych operacji
    • Stages i Tasks
  13. Cache'owanie i trwały zapis danych w Spark
    • RDD Lineage
    • Wstęp do cache'owania
    • Rozproszony trwały zapis danych
  14. Powszechne wzorce w procesowaniu danych przy użyciu Spark
    • Popularne przypadki użycia Spark
    • Iteracyjne algorytmy w Spark
    • Przetwarzanie i analiza grafów
    • Uczenie maszynowe
    • Przykład: k-średnie
  15. Przegląd: Spark SQL
    • Spark SQL i SQL Context
    • Tworzenie DataFrames
    • Transformacje i wykonywanie zapytań na DataFrames
    • Zapis DataFrames
    • Porównanie Spark SQL z Impala
  16. Podsumowanie
Pobierz konspekt szkolenia w formacie PDF

Dodatkowe informacje

Wymagania

Kurs ten adresowany jest do programistów i inżynierów oprogramowania, którzy mają doświadczenie programistyczne. Przykłady w Apache Spark i ćwiczeniach praktycznych są przedstawiane w Scala i Python, stąd też umiejętność programowania w jednym z tych języków jest wymagana. Plan kursu zakłada również podstawową znajomość linii poleceń w Linux. Pomocna będzie też podstawowa wiedza z zakresu SQL. Natomiast uprzednia wiedza z zakresu Hadoop nie jest wymagana.

Poziom trudności
Czas trwania 4 dni
Certyfikat

Uczestnicy otrzymają certyfikaty uczestnictwa w szkoleniu sygnowane przez Cloudera.

Ponadto szkolenie to jest doskonałym sposobem rozpoczęcia przygotowań do certyfikatu CCP: Data Engineer. Jakkolwiek późniejsza nauka zagadnień poruszonych podczas szkolenie jest wymagana przed podejściem do tego egzaminu.

Prowadzący

Certyfikowany instruktor Cloudera.

Informacje dodatkowe

Po zakończeniu kursu rekomendujemy, aby uczestnicy rozważyli uczestnictwo w szkoleniu: Cloudera’s Developer Training for Spark and Hadoop II: Advanced Techniques, które opiera się na podstawach omawianych w niniejszym szkoleniu.

Pozostałe szkolenia Cloudera | Developer

Wszystkie szkolenia Cloudera

Szkolenia powiązane tematycznieRozwiń listę

Big Data


Formularz kontaktowy

Prosimy o wypełnienie poniższego formularza, jeśli chcą Państwo uzyskać więcej informacji o powyższym szkoleniu.






* pola oznaczone (*) są wymagane

Informacje o przetwarzaniu danych przez Compendium – Centrum Edukacyjne Spółka z o.o.

CENA 2180 EUR NETTO Czy wiesz, że możesz uzyskać do 100% dofinansowania na ten kurs?   Sprawdź jak »

zamknij

Kody rabatowe

Kod rabatowy, może dotyczyć (szkolenia, producenta, terminu). Jeżeli posiadasz kod rabatowy, to wpisz go w odpowiednie pole.
(kolor zielony oznacza wpisanie prawidłowego kodu | kolor czerwony oznacza, że wpisany kod jest nieprawidłowy)

FORMA SZKOLENIA ?

zamknij

Szkolenie stacjonarne

Szkolenia stacjonarne w Compendium CE odbywają się najczęściej w naszych lokalizacjach w Krakowie i Warszawie, ale także w miejscu ustalonym przez klienta. Grupa uczestnicząca w szkoleniu spotyka się w danym miejscu o określonym czasie i wraz z trenerem aktywnie uczestniczy w laboratoriach.

Szkolenie dlearning

W szkoleniach Compendium Distance Learning możesz uczestniczyć z dowolnego miejsca na świecie. Kursanci, dzięki zaawansowanej technologii, którą dostarcza Compendium CE, stale widzą i słyszą trenera, mogą mu zadawać pytania poprzez chat i mikrofon, a także uczestniczą w ćwiczeniach i laboratoriach, które rozwiązują wraz z prowadzącym. Po więcej informacji zajrzyj na stronę dlearning.eu

MATERIAŁY SZKOLENIOWE ?

zamknij

Materiały elektroniczne

Materiały elektroniczne: są to materiały szkoleniowe w wersji elektronicznej, które w zależności od dostawcy udostępniane są za pomocą dedykowanych aplikacji: Skillpipe, eVantage itd. lub w postaci dokumentów PDF.

Materiały ctab

Materiały ctab: cena zawiera tablet ctab oraz materiały szkoleniowe w formie elektronicznej bądź tradycyjne materiały szkoleniowe i materiały dodatkowe dostarczone w wersji elektronicznej w zależności od ustaleń z producentem (w postaci dokumentów PDF lub EPUB). Tak dostarczone materiały są przystosowane pod kątem wyświetlania ich na tablecie ctab. Po więcej informacji zajrzyj na stronę ctab.

 

WYBIERZ TERMIN SZKOLENIA

Zarezerwuj termin szkolenia
Terminy szkolenia dla angielskiej wersji językowej

Najbliższe szkolenia Cloudera

Harmonogram szkoleń Cloudera