ODKAZ: https://www.skoleni-kurzy.eu/kurz-83390



Kurz: Apache Spark for Data Engineers - Advanced Optimizations


DataScript s.r.o.


Apache Spark je distribuovaný výpočetní engine, který poskytuje unifikovaný framework pro zpracování velkých objemů dat, interaktivní analýzu, machine learning, analýzu grafu a streaming. V průběhu posledních několika let se stává standardem pro zpracování těchto workloadů a to nejen v prostředí velkých dat. Jedním z důvodů proč roste popularita Sparku je také jeho programové API, neboli tzv. DataFramy, které nabízejí univerzální datovou abstrakci, již je možné použít ve všech výše zmíněných obl ...


Cena kurzu:
     ...   15.000 Kč / Kurz  

     ... včetně DPH: 18.150 Kč / Kurz

Objednat - pro přihlášení na kurz/školení klikněte na zvolený termín školení a místo konání



Přihláška na školení/kurz a termín:
  • Pro objednání kurzu klikněte na zvolený termín školení a místo konání odkaz
  • Popis, lektoři a program kurzu je níže na stránce odkaz
  • Komentáře a dotazy na školení/kurz # Komentáře ke kurzu odkaz
  • V případě jakéhokoliv otázky můžete poslat Dotaz ke kurzu odkaz
  • Nevyhovuje vám tento kurz? Zkuste se podívat na podobné kurzy odkaz

Apache Spark for Data Engineers - Advanced Optimizations
Přihláška na termín kurzu
Místo konání Přihláška na kurz a termín Akreditace
Poznámka k termínu školení
Apache Spark for Data Engineers - Advanced Optimizations

Praha 7
Přihláška


Chci informaci ke kurzu k tomuto termínu: Nezávazná přihláška
-
16. 5. 2024* Počet dní: 1* Cena: 15.000 CZK Cena (bez DPH) ...


^
-- ... pro objednání kurzu klikněte na zvolený termín školení a/nebo je možno poslat:



Popis kurzu
Apache Spark for Data Engineers - Advanced Optimizations


Kurz je určen pro ...

Cílová skupina: Datový inženýři, scientisti a další uživatelé Sparku, kteří již mají se Sparkem nějakou zkušenost a chtějí se naučit optimalizovat Sparkové joby pro dosažení maximálního výkonu.


Lektoři kurzu

: David Vrba Ph.D. David pracuje v Emplifi (dříve Socialbakers) jako datový inženýr. Na denní bázi se zabývá optimalizací Spakových aplikací a vyvíjí Sparkové joby, které zpracovávají data na různých škálách od jednotek GBs až po desítky TBs. Vedle toho se zabývá výukou Sparkových trainingů a jeho školeními již prošla celá řada týmů zejména datový analytici, scientisti a inženýři. David je také Sparkovým kontributorem, přispěl do zdrojového kódu a pravidelně mluví na konferencích a meetupech jako je Spark + AI Summit, MLPrague nebo Spark + AI Prague meetup.


[Kurz] Program kurzu (obsah přednášky/semináře/rekvalifikace/studia) ...

Cíle kurzu :

  • Rozumět a orientovat se ve fyzických plánech Spark SQL
  • Přepsat query za účelem dosažení efektivnějšího plánu
  • Používat některá konfigurační nastavení
  • Připravit Sparkem data pro efektivní analytiku ve Sparku
  • Diagnostikovat botlneck Sparkoveho jobu

* :
  • Rozumět a orientovat se ve fyzických plánech Spark SQL
  • Přepsat query za účelem dosažení efektivnějšího plánu
  • Používat některá konfigurační nastavení
  • Připravit Sparkem data pro efektivní analytiku ve Sparku
  • Diagnostikovat botlneck Sparkoveho jobu

Garant kurzu : David Vrba Ph.D. David pracuje v Emplifi (dříve Socialbakers) jako datový inženýr. Na denní bázi se zabývá optimalizací Spakových aplikací a vyvíjí Sparkové joby, které zpracovávají data na různých škálách od jednotek GBs až po desítky TBs. Vedle toho se zabývá výukou Sparkových trainingů a jeho školeními již prošla celá řada týmů zejména datový analytici, scientisti a inženýři. David je také Sparkovým kontributorem, přispěl do zdrojového kódu a pravidelně mluví na konferencích a meetupech jako je Spark + AI Summit, MLPrague nebo Spark + AI Prague meetup.
Osnova : Spark SQL internals (Query Execution)
  • Logical planning (Catalog, Analyzer, Cache Management, Optimizer)
    • Catalyst API
    • Extending the optimizer
    • Limiting the optimizer

  • Physical planning
    • Query planner, strategies
    • Spark plan
    • Executed plan
    • Understanding operators in the physical plan

  • Cost based optimizer
  • How cost-based optimizations work
  • Statistics collection
  • Statistics usage

Query optimization
  • Shuffle elimination
    • Bucketing
    • Data repartition (when and how)

  • Optimizing joins
    • Shuffle-free join
    • One-side shuffle-free join
    • Broadcast join vs sort-merge join

  • Data reuse
  • Caching
  • Checkpointing
  • Exchange reuse

Optimization tips
  • Choose the appropriate number of shuffle partitions
  • Nondeterministic expressions
  • Configuration settings
Data layout
  • Different file formats
    • Parquet vs Json

  • Partitioning and bucketing
    • How bucketing works
    • How to ensure the proper number of files

  • Tables management
    • Working with the Catalog API

  • Delta-io
  • Open-source storage layer with ACID transactions


Předpoklady na účastníka:
  • Tento kurz je navazujícím kurzem ke školení Apache Spark - od jednoduchých transformací po vysoce výkonné joby , ve kterém člověk mimo jiné získá dobrou znalost DataFramového API a základní přehled o interních procesech ve Sparku.
  • Pro absolvování tohoto kurzu je tedy dobré mít předchozí zkušenosti se Sparkem (např. na úrovni výše zmíněného kurzu ), znát DataFramové API a chápat základní principy distribuovaného počítání.


[Kurz] Cíl školení / poznámka ke kurzu...

Cíle kurzu :
  • Rozumět a orientovat se ve fyzických plánech Spark SQL
  • Přepsat query za účelem dosažení efektivnějšího plánu
  • Používat některá konfigurační nastavení
  • Připravit Sparkem data pro efektivní analytiku ve Sparku
  • Diagnostikovat botlneck Sparkoveho jobu



ODKAZ: https://www.skoleni-kurzy.eu/kurz-83390


Podobné kurzy #Apache Spark for Data Engineers - Advanced Optimizations >>


Další kurzy a školení: Apache Spark for Data Engineers - Advanced Optimizations
Odkaz na podobný kurz a/nebo kurz od jiné firmy a v jiné ceně:

Podobný kurz Popis kurzu Další kurzy a školení
Apache Spark 3.0 for Data Scientists - Advanced Analytics
Kurz
Jiný kurz v jiné ceně : Apache Spark je distribuovaný výpočetní engine, který poskytuje unifikovaný framework pro zpracování velkých objemů dat, interaktivní analýzu, machine learning, analýzu grafu a streaming. V průběhu posledních několika let se stává standardem pro zpracování těchto workloadů Další podobné školení nebo kurzy
Apache Spark - od jednoduchých transformací po vysoce výkonné joby
Kurz
Jiný kurz v jiné ceně : IT konference Kurzy a certifikace Open Source Big data Recenze - Apache Spark - od jednoduchých transformací po vysoce výkonné joby Zpět Igor Kováč 5. 12. Další podobné školení nebo kurzy
Security Engineering on AWS
Kurz
Jiný kurz v jiné ceně : IT konference Kurzy a certifikace Amazon Web Services Security Recenze - Security Engineering on AWS Zpět Peter Húbek 3. 11. Další podobné školení nebo kurzy
Oracle - Optimalizace a ladění aplikacíOracle - optimization and debugging applications
Kurz
Jiný kurz v jiné ceně : Cílem kurzu je seznámit účastníky se základními aspekty ovlivňujícími výkonové paramety Oracle, naučit se optimalizovat a kontrolovat existující aplikace pro zlepšení výkonu. Účastníci se naučí interpretovat výsledky exekučních plánů, optimalizovat jednotlivé SQL dotazy a Další podobné školení nebo kurzy
Apache CassandraApache Cassandra
Kurz
Jiný kurz v jiné ceně : Účastníci kurzu se seznámí se správou distribuované databáze Apache Casssandra. Kurz bude vedený z pohledu DevOps, kdy budou vysvětleny základní principy práce s touto databází, návrh datového modelu aplikace a její následná optimalizace. Další podobné školení nebo kurzy
Apache Kafka
Kurz
Jiný kurz v jiné ceně : IT konference Kurzy a certifikace Open Source Messaging Recenze - Apache Kafka Zpět Daniel Veselka 12. 10. Další podobné školení nebo kurzy
IBM Cognos Analytics: Author Reports Advanced (V11.1.x)IBM Cognos Analytics - Author Reports Advanced (v11.1.x)
Kurz
Jiný kurz v jiné ceně : This course teaches experienced authors advanced report building techniques to enhance, customize, manage, and distribute reports. Additionally, the student will lea> how to create highly interactive and engaging reports that can be run offline by creating Active Reports. Další podobné školení nebo kurzy
Aruba Switching ADVANCED (TD-ASA)Aruba Switching ADVANCED (TD-ASA)
Kurz
Jiný kurz v jiné ceně : Aruba Switching ADVANCED je pokročilé technické školení, jehož absolvováním získáte znalosti potřebné pro návrh a implementaci pokročilých technologií drátových sítích na Aruba CX platformě. Školení je zaměřeno na síťovou bezpečnost a především na praktické ukázky v rámci la Další podobné školení nebo kurzy
VMware vSphere: Advanced Administration Workshop [V8]VMware vSphere: Advanced Administration Workshop [V8]
Kurz
Jiný kurz v jiné ceně : Tento pětidenní kurz poskytuje praktické školení, které studenty vybaví řadou dovedností: od provádění běžných administrativních úloh VMware vSphere® 8 až po složité operace a konfigurace vSphere. Prostřednictvím laboratorních aktivit se studenti ponoří do reálných situací, Další podobné školení nebo kurzy

Podobný    = Podobný kurz nebo školení
^




Poslední aktualizace: 2024-04-25 00:41:46

DataScript s.r.o.
skoleni-kurzy.eu