CalendarioIl programma completo dei prossimi seminari InformazioniSede, prenotazione albergo, ecc.. IscrizioniLe informazioni per iscriversi ai seminari Per gli Speakers...Le informazioni per collaborare con noi Per i Vendors...Come farsi vedere dai nostri clienti

DATA
AND ANALYTICS
SUMMIT 2018


21-22 Giugno, 2018


Roma

 

Apache Spark e Machine Learning Workshop - Technology Transfer

Apache Spark e Machine Learning Workshop

di Andy Petrella

Dal 11 giugno 18 al 13 giugno 18
Costo: 1.700,00 Euro + IVA


Residenza di Ripetta
Via di Ripetta 231
00186 Roma (RM)

maggiori informazioni...

Segnala ad un amico
Scarica la brochure

Descrizione

Oggi i Big Data rappresentano la soluzione alle sfide derivate dai massicci datasets disponibili. Le tecnologie iniziali sono state dirompenti se comparate all’ambiente legacy ma oggi cominciano a soffrire l’età, specialmente la loro usabilità sta rallentando la loro introduzione nel mercato globale. Inoltre si è capito che la Data Science è un aspetto fondamentale per un buon data manegement e il suo processing.

Tuttavia questo porta più problemi sul tavolo, spostando le esigenze da ETL a processing ricorrenti o stream. Apache Spark si sta imponendo con il suo modello dirompente che permette a tutte le tipologie di business di lavorare facilmente con le tecnologie distribuite e il processing dei loro Big o Fast Data.

Questo corso spiega tutti i concetti che stanno dietro il progetto Apache Spark. Sebbene il modello sia più semplice di altre tecnologie, è fondamentale avere una conoscenza approfondita delle idee e delle caratteristiche di Apache Spark che permetteranno a qualsiasi business di liberare la potenza della propria infrastruttura e/o dei dati.

Questo corso usa esempi concreti e riproducibili che girano interattivamente su Spark Notebook. Soffermandosi non solo su Spark Core ma anche su streaming e machine layers che sono parte del progetto globale. E’ un fatto che Spark è un pezzo importante della moderna architettura ma non è il solo a coprire l’intera pipeline e questo è il motivo per cui il seminario si soffermerà sull’ecosistema Spark, includendo la sua integrazione con Apache project Kafka, Cassandra e Mesos.

Cosa Imparerete

  • Tools e paradigmi di computing distribuito
  • I concetti fondamentali di Apache Spark
  • I componenti SQL di Apache Spark (incluso DataFrame, Dataset e Tungsten)
  • Distributed Machine Learning in Spark usando MLlib e H2O
  • Come usare Spark Notebook per uno sviluppo veloce, interattivo e reattivo di Spark
  • Come costruire una completa Distributed Data Science Pipeline

Argomenti Trattati

  • Introduzione allo storage distribuito
  • Concetti di computing distribuito, Map Reduce
  • Spiegazioni dettagliate di Spark Core
  • Sviluppare applicazioni Spark usando DataFrame e Dataset APIs
  • Gestire dati veloci usando Spark Streaming
  • Salvare le views processate in Apache Cassandra
  • Principi di Machine Learning usando MLlib
  • Estendere le capabilities di Machine Learning usando H2O