Apache Spark Hands-On Training

Apache Spark Hands-On Training


Een praktisch overzicht van Spark, volgens sommigen het Zwitsers zakmes voor bliksemsnelle big data analyse

21 May 2015 (14-21u)
Locatie: Golden Tulip Brussels Airport (Diegem)
Gepresenteerd in het Nederlands door Geert Van Landeghem
Prijs: 640 EUR (excl. 21% BTW)
Registreer NU »

This event is history, please check out the List of Upcoming Seminars, or send us an email

Check out our related in-house workshops:

 Leerdoelen

Waarom deze workshop over Apache Spark ?

Big Data is de hype van het moment in de ICT en marketing wereld. Apache Hadoop werd sinds zijn ontstaan in 2007 beschouwd als de facto standaard voor het opslaan en verwerken van big data volumes in batch.

Maar elke nieuwe technologie kent ook zijn beperkingen, zo ook Hadoop: het is batch-oriented en het MapReduce framework is te beperkend om elk type van data analyse te implementeren binnen dezelfde technologie stack.

Gezien het toenemende volume en snelheid waarmee data gegenereerd wordt, stijgt de behoefte naar snellere data verwerking en analyse om een stap vooruit te blijven en de verwachtingen van eindgebruikers in te lossen.

Apache Spark komt tegemoet aan deze verwachtingen als een "open source data analytics cluster computing framework". Spark werd ontwikkeld in 2009 aan het AMPLab (Algorithms, Machines, and People Lab) van de University of California in Berkeley, en geschonken aan de open source wereld in 2010. Het is sneller dan Hadoop, in sommige gevallen tot 100x sneller, en voorziet een framework dat meerdere types van data analyse ondersteunt binnen dezelfde technologie stack: snelle interactieve queries, streaming analyse, graph analyse en machine learning. Tijdens deze workshop bespreken we de theorie en praktijk van diverse data analyse toepassingen.

Voor wie is deze workshop bestemd ?

Deze workshop is vooral bedoeld voor developers en data analysten die meer willen weten over Apache Spark. Deze cursus laat hen toe om hands-on de basics van Spark aan te leren. U krijgt een introductie tot alle Spark componenten vanuit het perspectief van de "data developer". Een basiservaring programmeren is nodig om deze cursus te kunnen volgen.

De oefeningen worden uitgevoerd op een eigen laptop met behulp van de Scala programmeertaal en variëren van eenvoudig tot moeilijk.

Deze cursus is ook beschikbaar via I.T. Works als in-house opleiding voor minimum 5 personen van uw bedrijf.

 Volledig Programma

13.30u - 14.00u
Registratie en Ontvangst van de deelnemers met Koffie/Thee en Croissants, en mogelijkheid tot netwerking
14.00u
Wat is Apache Spark ?

Waar komt Spark vandaan en waarom is het zo snel uitgegroeid tot het meest populaire cluster computing framework in een mum van tijd? Wat zijn de voordelen ten opzichte van Hadoop?

 
Just Enough Scala

Spark werd ontwikkeld in Scala, een high-level programmeertaal die object-oriented en functioneel programmeren combineert. Het definiëren van variabelen, functies en het gebruik van collecties in Scala worden toegelicht.

15.30u
Koffie/Thee Pauze met Versnaperingen
 
Spark API

De Spark API wordt bekeken vanuit het perspectief van de "Data Developer": van het prototypen in de Spark Shell tot hoe Spark applicaties te compileren en te packagen om deze te submitten naar de cluster toe, en hoe de applicatie uitgevoerd wordt in de cluster.

Volgende onderwerpen komen daarbij aan bod:

18.00u
Dinerbuffet met een ruime keuze van koude en warme gerechten
18.45u
Advanced Spark

Naast de Spark core module bekijken we een aantal modules die werden toegevoegd aan de Spark stack:

20.45u
Vragen, samenvatting en besluit
21.00u
Einde van deze workshop

 Sprekers


Geert Van Landeghem (DataCrunchers)
DataCrunchers

Geert Van Landeghem is een Big Data consultant met meer dan 20 jaar ervaring. Hij raakte geinteresseerd in Big Data in 2010 en implementeerde een eerste Big Data project in 2011. Meerdere big data projecten later werkt hij momenteel als Head BI team en Big Data architect voor een online gokbedrijf waar Spark gebruikt wordt. Hij is gedreven om nieuwe big data technologieën te verkennen en te vertalen in nieuwe oplossingen naar business toe. Hij is tevens co-organiser van de bigdata.be meetup groep.

Geert heeft ervaring als instructor voor IBM en met eigen ontwikkelde cursussen bij datacrunchers.eu.

In november 2014 behaalde hij het "Developer Certification for Apache Spark" van Databricks en O'Reilly.

Questions about this ? Interested but you can't attend ? Send us an email !

-->