Il corso di Analisi dei Dati ha l’obiettivo di fornire ai discenti le motivazioni, conoscenze di base e metodologie per la gestione e l’analisi di grandi quantità di dati. Specificatamente, il corso descrive le più importanti tecniche di analisi dei dati, trattando argomenti di Basi di Dati, di Data Mining, e di sicurezza nelle reti sociali, fornendo una panoramica teorico-pratica sulle principali applicazioni dell’analisi di dati nelle attività di intelligence, sicurezza ed analisi del rischio.
* Comprensione dei principali modelli, metodi e algoritmi di Knowledge Discovery e Data Mining, con particolare enfasi in ambiti di intelligence, sicurezza ed analisi del rischio * Abilità di applicare i risultati teorici studiati per lo sviluppo di applicazioni di analisi avanzata dei dati.
Introduzione al processo di Knowledge Discovery - approcci all'analisi dei dati: dall'inferenza all'induzione - motivazioni e ambiti applicativi - Data Mining - differenze e integrazioni con Basi di Dati, Statistica e altre discipline - progettazione di un processo di knowledge discovery - esempi Similarità e dissimilarità tra i dati Data Mining: Supervised Learning - il problema della predizione e classificazione - classificatori lineari, regressione lineare - alberi di decisione - classificatori bayesiani - classificatori instance-based - principi di reti neurali - criteri di valutazione dei risultati di classificazione Data Mining: Unsupervised Learning - il problema del clustering - clustering partizionale: algoritmi k-means, k-medoids, k-modes e algoritmi correlati - clustering gerarchico agglomerativo e divisivo - clustering density-based: DBSCAN, OPTICS e algoritmi correlati - criteri di valutazione dei risultati di clustering Data Mining: Association Mining - concetti su frequent pattern mining (dati transazionali) - regole associative e misure di qualità - Algoritmo Apriori - Algoritmo FP-Growth
Lezioni frontali ed esercitazioni in aula. Qualora, nel rispetto di eventuali indicazioni fornite dall'Ateneo e dal Dipartimento, il corso dovesse essere erogato a distanza o in formula mista, le lezioni si terranno in modalità sincrona in streaming nei tempi fissati dall’orario ufficiale.
L'esame consiste nella presentazione e discussione di un elaborato individuale/gruppo e in una prova orale. L'elaborato, da concordare con il docente, presenta un progetto nell'ambito del quale vengono definite nuove tecniche o sperimentate tecniche esistenti di data analysis.
Materiale didattico messo a disposizione dal docente, link a contenuti sul web
Paolo Trunfio
Introduzione al processo di Knowledge Discovery - approcci all'analisi dei dati: dall'inferenza all'induzione - motivazioni e ambiti applicativi - Data Mining - differenze e integrazioni con Basi di Dati, Statistica e altre discipline - progettazione di un processo di knowledge discovery - esempi ORE LEZIONE: 6, ORE DI STUDIO INDIVIDUALE: 8 Similarità e dissimilarità tra i dati ORE LEZIONE: 6, ORE DI STUDIO INDIVIDUALE: 8 Data Mining: Supervised Learning - il problema della predizione e classificazione - classificatori lineari, regressione lineare - alberi di decisione - classificatori bayesiani - classificatori instance-based - principi di reti neurali - criteri di valutazione dei risultati di classificazione ORE LEZIONE: 8, ORE DI STUDIO INDIVIDUALE: 14 Data Mining: Unsupervised Learning - il problema del clustering - clustering partizionale: algoritmi k-means, k-medoids, k-modes e algoritmi correlati - clustering gerarchico agglomerativo e divisivo - clustering density-based: DBSCAN, OPTICS e algoritmi correlati - criteri di valutazione dei risultati di clustering ORE LEZIONE: 12, ORE DI STUDIO INDIVIDUALE: 20 Data Mining: Association Mining - concetti su frequent pattern mining (dati transazionali) - regole associative e misure di qualità - Algoritmo Apriori - Algoritmo FP-Growth ORE LEZIONE: 10, ORE DI STUDIO INDIVIDUALE: 14
The course has the aim of providing students with the motivations, the base knowledge and the methodologies for managing and analysing large amount of data. In particular, the course addresses the most important techniques regarding data analysis: databases techniques, data mining algorithms and methods for analysing social networks. It provides students with a concrete overview over the main applications of data analysis in the contexts of security and intelligence.
Basic knowledge of computer science concepts
* Understanding of the main models, methods and algorithms of Knowledge Discovery and Data Mining, with particular emphasis on the main applications of data analysis in the contexts of security and intelligence. * Ability to apply the theoretical results studied for the development of advanced data analysis applications.
Introduction to the Knowledge Discovery process - approaches to data analysis: from inference to induction - motivations and application areas - Data Mining - differences and additions to databases, statistics and other disciplines - design of a knowledge discovery process - examples Similarity and dissimilarity between data Data Mining: Supervised Learning - the problem of prediction and classification - linear classifiers, linear regression - decision trees - Bayesian classifiers - instance-based classifiers - principles of neural networks - evaluation criteria for classification results Data Mining: Unsupervised Learning - the problem of clustering - partitioning clustering: k-means algorithms, k-medoids, k-modes and related algorithms - agglomerative and divisive hierarchical clustering - density-based clustering: DBSCAN, OPTICS and related algorithms - criteria for evaluating clustering results Data Mining: Association Mining - concepts about frequent pattern mining (transactional data) - association rules and quality measures - Apriori algorithm - FP-Growth algorithm
Frontal lesson and classroom exercises In case the University and the Department will request to deliver the course remotely or in a hybrid way, classes will be delivered synchronously in streaming following the official schedule
The exam consists of the presentation and discussion of an individual / group paper and an oral test. The paper, to be agreed with the teacher, presents a project in which new data analysis techniques are defined or existing techniques are tested.
Slides offered by the teacher, link to web contents
Paolo Trunfio
Introduction to the Knowledge Discovery process - approaches to data analysis: from inference to induction - motivations and application areas - Data Mining - differences and additions to databases, statistics and other disciplines - design of a knowledge discovery process - examples HOURS LESSON: 6, HOURS OF INDIVIDUAL STUDY: 8 Similarity and dissimilarity between data HOURS LESSON: 6, HOURS OF INDIVIDUAL STUDY: 8 Data Mining: Supervised Learning - the problem of prediction and classification - linear classifiers, linear regression - decision trees - Bayesian classifiers - instance-based classifiers - principles of neural networks - evaluation criteria for classification results HOURS LESSON: 8, HOURS OF INDIVIDUAL STUDY: 14 Data Mining: Unsupervised Learning - the problem of clustering - partitioning clustering: k-means algorithms, k-medoids, k-modes and related algorithms - agglomerative and divisive hierarchical clustering - density-based clustering: DBSCAN, OPTICS and related algorithms - criteria for evaluating clustering results HOURS LESSON: 12, HOURS OF INDIVIDUAL STUDY: 20 Data Mining: Association Mining - concepts about frequent pattern mining (transactional data) - association rules and quality measures - Apriori algorithm - FP-Growth algorithm HOURS LESSON: 10, HOURS OF INDIVIDUAL STUDY: 14