Big Data Technologie voor IoT, Data Lakes, Data Science en BI
Een leveranciersonafhankelijk technologie-overzicht van big data: hoe werken Hadoop, Spark, NoSQL, NewSQL, ... en wat kun je ermee ?
30 March 2017 (14-21u)Location:
Parker Hotel (Diegem)
Gepresenteerd
in het Nederlands
door
Rick van der Lans
Prijs:
720 EUR (excl. 21% BTW)
Registreer NU »
AGENDA »
SPREKERS »
This event is history,
please check out the List of Upcoming Seminars
Check out our related open workshops:
Check out our related in-house workshops:
Volledig Programma:
13.30u - 14.00u
Registratie en ontvangst van de deelnemers met koffie/thee en croissants
14.00u
Begin van dit Seminar
Big Data: State-of-the-art
- Wat bedoelen we precies met big data ?
- Gaat het over big data of over big analytics ?
- High-level overzicht van de verschillende categorieën technologie voor data-opslag
- Typische toepassingsgebieden van big data
Wat heeft Big Data en Hadoop te bieden aan bedrijven in retail, utilities, banking, insurance, ..., en de overheid ?
Hadoop, Spark en NoSQL Verstaanbaar Uitgelegd
- De Hadoop stack: HDFS, MapReduce, Spark, Hive, HBase, YARN, ZooKeeper, Pig, HCatalog, enzovoorts
- Karakteristieken en gevolgen van HDFS en file-formaten
- Alternatieve implementaties onder andere van MapR, Amazon (Hadoop as a service) en ScaleOut (Hadoop in-memory)
- De rol van Cloudera, HortonWorks en MapR
- Classificatie van NoSQL producten: key-value stores, document stores, column-family stores, en graph data stores
- Het belang van schaalbaarheid en performantie
- Zijn NoSQL producten werkelijk databaseservers?
- Marktoverzicht, inclusief Apache HBase, Cassandra, CouchDB, Cloudera, DataStax, MongoDB, Neo4j en Riak
15.45u - 16.00u
Koffie/thee Break
NewSQL en Analytische SQL Databaseservers voor Big Data Systemen
- Classificatie van analytical SQL databaseservers
- Kunnen zij concurreren met NoSQL producten ?
- Hoe belangrijk is in-database analytics ?
- Is het in-memory laden van databases altijd mogelijk en altijd een oplossing ?
- Marktoverzicht, inclusief Actian Matrix en Vector, EMC/Greenplum, Exasol, HP/Vertica, IBM PureData System for Analytics (powered by Netezza), InfoBright, Kognitio WX2, Microsoft PDW, Oracle Exalytics, SAP HANA en Sybase IQ, Teradata Appliances en Teradata Aster Database
- NewSQL databaservers voor high-performance transactionele systemen
- Simpelere transactie-mechanismen om scale-out te realiseren
- Het voorkomen van multi-table joins die niet geparallelliseerd kunnen worden
- Marktoverzicht inclusief Akiban, CitusDB, Clustrix, MariaDB, NuoDB, Pivotal GemFire en VoltDB
Use Case 1: Uitbreiden van Datawarehouses met Big Data Technologie
- Hadoop gebruiken in datawarehousing omgevingen
- Hadoop als staging area, datawarehouse, data mart en archief voor "koude data"
- Datawarehouses beschikbaar maken voor rapportage en analytics via SQL-on-Hadoop engines
- Overzicht van SQL-on-Hadoop engines: Apache Hive, Apache Drill, Apache Phoenix, Cloudera Impala, HP Vertica, JethroData, Pivotal HDB (Apache Hawq), Spark SQL en Splice Machine
- Datavirtualisatie voor het integreren van data uit Hadoop, NoSQL en SQL systemen, met producten van AtScale, Capsenta, Cisco/Composite, Data Virtuality, Denodo, Informatica, Red Hat en StoneBond
Use Case 2: Bouwen van Data Lakes met Big Data Technologie
- Wat is een data lake ?
- Welke technologieën bestaan er voor het bouwen van data lakes ?
- Is een fysiek data lake bouwen realistisch bij big data toepassingen ?
- Een virtueel data lake "bouwen" met datavirtualisatie servers
- Vergeet de technische en business metadata niet
Use Case 3: Data Science met Big Data Technologie
- Wat is data science en waarom is dit verschillend van analytics?
- Wat hebben MapReduce en Spark data scientists te bieden
- Kunnen we standaard BI tools zoals QlikView en Tableau gebruiken met Spark ?
- Kunnen we Hadoop gebruiken als sandbox voor advanced analytics ?
- Wat betekenen graph databases zoals AllegroGraph, InfiniteGraph en Neo4J voor data science ?
17.45u - 18.45u
Dinner & Networking
Use Case 4: Internet-of-Things (IoT) met Big Data Technologie
- IoT gaat over het snel streamen en analyseren van data
- Typische IoT databronnen: smartphones, smartwatches, RFID sensoren, machines, algemene sensoren, camera's, pacemakers, enz
- De uitdaging van real-time interactie met binnenkomende IoT data
- Het verschil tussen big data en fast big data
- Technologieëen voor het streamen van IoT data: Apache Kafka, Apache ActiveMQ, Amazon Kinesis, Kestrel, RabbitMQ, and ZeroMQ
- Verschillen tussen deze nieuwe technologie en traditionele message queuing producten
- Marktoverzicht van big data streaming tools: Apache Storm en Flink, IBM InfoSphere Streams, Informatica for Streaming Analytics, Software AG Apama, and Spark Streaming
- Hoe IoT data integreren met uw Enterprise Data Warehouse (EDW)
Use Case 5: High-end Transactionele Systemen met Big Data Technologie
- NoSQL producten gebruiken voor real-time verwerking van grote hoeveelheden transacties
- Manipuleren van ongestructureerde en gestructureerde data
- Flexibele datastructuren in NoSQL
- Waarom schema-on-read meer flexibel is dan schema-on-write
- Data-replicatie van NoSQL naar SQL
- Vergelijking tussen NoSQL en NewSQL
Samenvatting en afsluiting
- Wanneer Hadoop gebruiken ?
- Wanneer welke SQL/NoSQL database technologie ?
- Wat brengt de toekomst ?
21.00u
Einde van dit Seminar
SPREKERS » REGISTER »