Il corso introduce ai principali modelli, metodi e algoritmi in ambito di Knowledge Discovery e Data Mining, in dati relazionali, testuali, semistrutturati.
* Comprensione dei principali modelli, metodi e algoritmi di Knowledge Discovery e Data Mining, con particolare enfasi in ambiti di Text Mining e ambiti correlati (inclusi Semistructured Data Mining, Network Data Mining). * Abilità di applicare i risultati teorici studiati per lo sviluppo di applicazioni di analisi avanzata dei dati.
Introduzione al processo di Knowledge Discovery - approcci all'analisi dei dati: dall'inferenza all'induzione - motivazioni e ambiti applicativi - Data Mining - differenze e integrazioni con Basi di Dati, Statistica e altre discipline - progettazione di un processo di knowledge discovery - esempi Similarità e dissimilarità tra i dati Data Mining: Supervised Learning - il problema della predizione e classificazione - classificatori lineari, regressione lineare - alberi di decisione - classificatori bayesiani - classificatori instance-based - principi di reti neurali - criteri di valutazione dei risultati di classificazione Data Mining: Unsupervised Learning - il problema del clustering - clustering partizionale: algoritmi k-means, k-medoids, k-modes e algoritmi correlati - clustering gerarchico agglomerativo e divisivo - clustering density-based: DBSCAN, OPTICS e algoritmi correlati - criteri di valutazione dei risultati di clustering Data Mining: Association Mining - concetti su frequent pattern mining (dati transazionali) - regole associative e misure di qualità - Algoritmo Apriori - Algoritmo FP-Growth Text Mining - caratteristiche e differenze rispetto al Data Mining - modelli di rappresentazione del testo e tecniche di trattamento del testo: elementi di Information Retrieval e Natural Language Processing - il problema della curse of dimensionality in Text Mining - pre-elaborazione del testo: * analisi lessicale e tokenizzazione * rimozione di stopword * stemming e lemmatization * POS tagging, aspetti semantici e ontologie lessicali - misurare la similarità e dissimilarità tra documenti - riduzione della dimensionalità: feature selection/extraction - indicizzazione del testo - funzioni di feature weighting (tf, tfidf, etc.) - Classificazione, Clustering e Frequent Pattern Mining in dati testuali - Analisi semantica: problemi di word sense disambiguation, WordNet, Opinion Mining Data Mining in Information Networks - Misure di caratterizzazione strutturale locale e globale in una rete - Misure di centralità - Misure di prestigio - Hubs and authorities - PageRank - Topic-sensitive ranking in Social Networks: TwitterRank - Ranking in Trust Networks: TrustRank - Semantic Information Networks - Principi di community detection e analogie con data clustering Data Mining in Tree data - XML, JSON e altri (meta)linguaggi per la codifica di dati a albero - parsing - modelli di rappresentazione: contenuto e struttura - approcci e misure di similarità - semantic relatedness in tree data - tree data clustering Tool per il KDD e Data/Text Mining: Weka, R, WordNet e altri
Lezioni frontali ed esercitazioni in aula. Qualora, nel rispetto di eventuali indicazioni fornite dall'Ateneo e dal Dipartimento, il corso dovesse essere erogato a distanza o in formula mista, le lezioni si terranno in modalità sincrona in streaming nei tempi fissati dall’orario ufficiale.
L'esame consiste nella presentazione e discussione di un elaborato individuale/gruppo e in una prova orale. L'elaborato, da concordare con il docente, presenta un progetto nell'ambito del quale vengono definite nuove tecniche o sperimentate tecniche esistenti per la scoperta di conoscenza in ambiti testuali o semistrutturati.
M. Zaki, W. Meira (2014). Data Mining and Analysis. Cambridge University Press A. Rajaraman, J. D. Ullman (2011). Mining of Massive Datasets. Cambridge University Press J. Han, M. Kamber, J. Pei (2011). Data Mining: Concepts and Techniques. TBS R. Baeza-Yates, B. Ribeiro-Neto (1999). Modern Information Retrieval. Addison-Wesley Pub T. Mitchell (1990). Machine Learning. PN
Andrea Tagarelli
Introduzione al processo di Knowledge Discovery - approcci all'analisi dei dati: dall'inferenza all'induzione - motivazioni e ambiti applicativi - Data Mining - differenze e integrazioni con Basi di Dati, Statistica e altre discipline - progettazione di un processo di knowledge discovery - esempi ORE LEZIONE: 3, ORE DI STUDIO INDIVIDUALE: 6 Similarità e dissimilarità tra i dati ORE LEZIONE: 2, ORE DI STUDIO INDIVIDUALE: 5 Data Mining: Supervised Learning - il problema della predizione e classificazione - classificatori lineari, regressione lineare - alberi di decisione - classificatori bayesiani - classificatori instance-based - principi di reti neurali - criteri di valutazione dei risultati di classificazione ORE LEZIONE: 6, ORE DI STUDIO INDIVIDUALE: 14 Data Mining: Unsupervised Learning - il problema del clustering - clustering partizionale: algoritmi k-means, k-medoids, k-modes e algoritmi correlati - clustering gerarchico agglomerativo e divisivo - clustering density-based: DBSCAN, OPTICS e algoritmi correlati - criteri di valutazione dei risultati di clustering ORE LEZIONE: 10, ORE DI STUDIO INDIVIDUALE: 20 Data Mining: Association Mining - concetti su frequent pattern mining (dati transazionali) - regole associative e misure di qualità - Algoritmo Apriori - Algoritmo FP-Growth ORE LEZIONE: 4, ORE DI STUDIO INDIVIDUALE: 8 Text Mining - caratteristiche e differenze rispetto al Data Mining - modelli di rappresentazione del testo e tecniche di trattamento del testo: elementi di Information Retrieval e Natural Language Processing - il problema della curse of dimensionality in Text Mining - pre-elaborazione del testo: * analisi lessicale e tokenizzazione * rimozione di stopword * stemming e lemmatization * POS tagging, aspetti semantici e ontologie lessicali - misurare la similarità e dissimilarità tra documenti - riduzione della dimensionalità: feature selection/extraction - indicizzazione del testo - funzioni di feature weighting (tf, tfidf, etc.) - Classificazione, Clustering e Frequent Pattern Mining in dati testuali - Analisi semantica: problemi di word sense disambiguation, WordNet, Opinion Mining ORE LEZIONE: 24, ORE DI STUDIO INDIVIDUALE: 50 Data Mining in Information Networks - Misure di caratterizzazione strutturale locale e globale in una rete - Misure di centralità - Misure di prestigio - Hubs and authorities - PageRank - Topic-sensitive ranking in Social Networks: TwitterRank - Ranking in Trust Networks: TrustRank - Semantic Information Networks - Principi di community detection e analogie con data clustering ORE LEZIONE: 6, ORE DI STUDIO INDIVIDUALE: 14 Data Mining in Tree data - XML, JSON e altri (meta)linguaggi per la codifica di dati a albero - parsing - modelli di rappresentazione: contenuto e struttura - approcci e misure di similarità - semantic relatedness in tree data - tree data clustering ORE LEZIONE: 4, ORE DI STUDIO INDIVIDUALE: 8 Tool per il KDD e Data/Text Mining: Weka, R, WordNet e altri ORE LEZIONE: 4, ORE DI STUDIO INDIVIDUALE: 12 PREPARAZIONE ESAME (include ELABORAZIONE PROGETTO): 20
This course provides an introduction to the process of knowledge discovery and data mining in relational, textual and semi-structured data.
Fundamentals of databases and statistics
* Understanding of the main models, methods and algorithms of Knowledge Discovery and Data Mining, with particular emphasis on Text Mining and related fields (including Semistructured Data Mining, Network Data Mining). * Ability to apply the theoretical results studied for the development of advanced data analysis applications.
Introduction to the Knowledge Discovery process - approaches to data analysis: from inference to induction - motivations and application areas - Data Mining - differences and additions to databases, statistics and other disciplines - design of a knowledge discovery process - examples Similarity and dissimilarity between data Data Mining: Supervised Learning - the problem of prediction and classification - linear classifiers, linear regression - decision trees - Bayesian classifiers - instance-based classifiers - principles of neural networks - evaluation criteria for classification results Data Mining: Unsupervised Learning - the problem of clustering - partitioning clustering: k-means algorithms, k-medoids, k-modes and related algorithms - agglomerative and divisive hierarchical clustering - density-based clustering: DBSCAN, OPTICS and related algorithms - criteria for evaluating clustering results Data Mining: Association Mining - concepts about frequent pattern mining (transactional data) - association rules and quality measures - Apriori algorithm - FP-Growth algorithm Text Mining - characteristics and differences compared to Data Mining - text representation models and text processing techniques: elements of Information Retrieval and Natural Language Processing - the problem of the curse of dimensionality in Text Mining - pre-processing of the text: * lexical analysis and tokenization * stopword removal * stemming and lemmatization * POS tagging, semantic aspects and lexical ontologies - measure the similarity and dissimilarity between documents - reduction of dimensionality: feature selection / extraction - indexing of the text - feature weighting functions (tf, tfidf, etc.) - Classification, Clustering and Frequent Pattern Mining in textual data - Semantic analysis: word sense disambiguation problems, WordNet, Opinion Mining Data Mining in Information Networks - Local and global structural characterization measures in a network - Centrality measures - Prestigious measures - Hubs and authorities - PageRank - Topic-sensitive ranking in Social Networks: TwitterRank - Ranking in Trust Networks: TrustRank - Semantic Information Networks - Principles of community detection and analogies with data clustering Data Mining in Tree data - XML, JSON and other (meta) languages for encoding tree data - parsing - representation models: content and structure - similarity approaches and measures - semantic relatedness in tree data - tree data clustering Tools for KDD and Data / Text Mining: Weka, R, WordNet and others
Frontal lesson and classroom exercises In case the University and the Department will request to deliver the course remotely or in a hybrid way, classes will be delivered synchronously in streaming following the official schedule
The exam consists of the presentation and discussion of an individual / group paper and an oral test. The paper, to be agreed with the teacher, presents a project in which new techniques are defined or existing techniques are tested for the discovery of knowledge in textual or semi-structured areas.
M. Zaki, W. Meira (2014). Data Mining and Analysis. Cambridge University Press A. Rajaraman, J. D. Ullman (2011). Mining of Massive Datasets. Cambridge University Press J. Han, M. Kamber, J. Pei (2011). Data Mining: Concepts and Techniques. TBS R. Baeza-Yates, B. Ribeiro-Neto (1999). Modern Information Retrieval. Addison-Wesley Pub T. Mitchell (1990). Machine Learning. PN
Andrea Tagarelli
Introduction to the Knowledge Discovery process - approaches to data analysis: from inference to induction - motivations and application areas - Data Mining - differences and additions to databases, statistics and other disciplines - design of a knowledge discovery process - examples HOURS LESSON: 3, HOURS OF INDIVIDUAL STUDY: 6 Similarity and dissimilarity between data HOURS LESSON: 2, HOURS OF INDIVIDUAL STUDY: 5 Data Mining: Supervised Learning - the problem of prediction and classification - linear classifiers, linear regression - decision trees - Bayesian classifiers - instance-based classifiers - principles of neural networks - evaluation criteria for classification results HOURS LESSON: 6, HOURS OF INDIVIDUAL STUDY: 14 Data Mining: Unsupervised Learning - the problem of clustering - partitioning clustering: k-means algorithms, k-medoids, k-modes and related algorithms - agglomerative and divisive hierarchical clustering - density-based clustering: DBSCAN, OPTICS and related algorithms - criteria for evaluating clustering results HOURS LESSON: 10, HOURS OF INDIVIDUAL STUDY: 20 Data Mining: Association Mining - concepts about frequent pattern mining (transactional data) - association rules and quality measures - Apriori algorithm - FP-Growth algorithm HOURS LESSON: 4, HOURS OF INDIVIDUAL STUDY: 8 Text Mining - characteristics and differences compared to Data Mining - text representation models and text processing techniques: elements of Information Retrieval and Natural Language Processing - the problem of the curse of dimensionality in Text Mining - pre-processing of the text: * lexical analysis and tokenization * stopword removal * stemming and lemmatization * POS tagging, semantic aspects and lexical ontologies - measure the similarity and dissimilarity between documents - reduction of dimensionality: feature selection / extraction - indexing of the text - feature weighting functions (tf, tfidf, etc.) - Classification, Clustering and Frequent Pattern Mining in textual data - Semantic analysis: word sense disambiguation problems, WordNet, Opinion Mining HOURS LESSON: 24, HOURS OF INDIVIDUAL STUDY: 50 Data Mining in Information Networks - Local and global structural characterization measures in a network - Centrality measures - Prestigious measures - Hubs and authorities - PageRank - Topic-sensitive ranking in Social Networks: TwitterRank - Ranking in Trust Networks: TrustRank - Semantic Information Networks - Principles of community detection and analogies with data clustering HOURS LESSON: 6, HOURS OF INDIVIDUAL STUDY: 14 Data Mining in Tree data - XML, JSON and other (meta) languages for encoding tree data - parsing - representation models: content and structure - similarity approaches and measures - semantic relatedness in tree data - tree data clustering HOURS LESSON: 4, HOURS OF INDIVIDUAL STUDY: 8 Tools for KDD and Data / Text Mining: Weka, R, WordNet and others HOURS LESSON: 4, HOURS OF INDIVIDUAL STUDY: 12 EXAM PREPARATION (includes PROJECT PROCESSING): 20