Professionisti IT che vogliono approfondire i concetti di big data e machine learning
Big Data & Machine Learning
destinatari
prerequisiti
obiettivi
argomenti
Modalità
Virtual classroom
Durata
Modalità
Virtual classroom
Durata
Destinatari
prerequisiti
Nozioni di programmazione, nozioni di SQL, nozioni base di Linux.
Obiettivi
Al termine del corso i destinatari acquisiranno conoscenza della piattaforma Hadoop e del framework Spark. Acquisiranno un approccio strutturato, strumenti e tecniche di data analysis in base ai dati ed alle informazioni disponibili in progetti di Big Data e Machine Learning
Argomenti Trattati
INTRODUZIONE BIG DATA ED ECOSISTEMA HADOOP
- Problematiche nei sistemi di grandi dati: dal Data Warehouse ai Big Data
- Panoramica sull’ecosistema Hadoop
- Introduzione all’Hadoop Distributed File System
- Apache Hive
- Resource Management: Architettura YARN e utilizzi
- Cenni di NoSQL
APACHE SPARK
- Introduzione
- Utilizzo Spark Shell
- RDDs (Resilient Distributed Datasets)
- Programmazione funzionale in Spark
SPARK SQL
- Data Transformation
- Normalization
- Cleaning
SPARK ML – DATAMINING E MACHINE LEARNING CON PYSPARK
- Datamining e metodologia Crisp
- La preparazione dei dati
- Algoritmi supervisionati
- Algoritmi non supervisionati
STRUMENTI E TOOL UTILIZZATI
- Linguaggio Python
- Libreria PySpark per il Machine Learning
- Jupyter Notebook
- RapidMiner Studio – KNIME
- Casi d’uso ed utilizzo ed applicazioni pratiche