15-826: Multimedia Databases and Data Mining

Slides:

Advertisements

Similar presentations

CMU SCS : Multimedia Databases and Data Mining Lecture #17: Text - part IV (LSI) C. Faloutsos.

Advertisements

CMU SCS : Multimedia Databases and Data Mining Lecture #19: SVD - part II (case studies) C. Faloutsos.

Chapter 5: Introduction to Information Retrieval

Multimedia Database Systems

CMU SCS : Multimedia Databases and Data Mining Lecture #7: Spatial Access Methods - Metric trees C. Faloutsos.

CMU SCS : Multimedia Databases and Data Mining Lecture#5: Multi-key and Spatial Access Methods - II C. Faloutsos.

Temple University – CIS Dept. CIS616– Principles of Data Management V. Megalooikonomou Text Databases (some slides are based on notes by C. Faloutsos)

15-826: Multimedia Databases and Data Mining

CMU SCS : Multimedia Databases and Data Mining Lecture #16: Text - part III: Vector space model and clustering C. Faloutsos.

Information Retrieval Models

Search and Retrieval: More on Term Weighting and Document Ranking Prof. Marti Hearst SIMS 202, Lecture 22.

Query Operations: Automatic Local Analysis. Introduction Difficulty of formulating user queries –Insufficient knowledge of the collection –Insufficient.

Text Databases. Outline Spatial Databases Temporal Databases Spatio-temporal Databases Data Mining Multimedia Databases Text databases Image and video.

Database Management Systems, R. Ramakrishnan1 Computing Relevance, Similarity: The Vector Space Model Chapter 27, Part B Based on Larson and Hearst’s slides.

Clustering… in General In vector space, clusters are vectors found within  of a cluster vector, with different techniques for determining the cluster.

Multimedia and Text Indexing. Multimedia Data Management The need to query and analyze vast amounts of multimedia data (i.e., images, sound tracks, video.

Chapter 5: Query Operations Baeza-Yates, 1999 Modern Information Retrieval.

Modern Information Retrieval Chapter 2 Modeling. Can keywords be used to represent a document or a query? keywords as query and matching as query processing.

Introduction to Information Retrieval Introduction to Information Retrieval Hinrich Schütze and Christina Lioma Lecture 16: Flat Clustering 1.

Modeling Modern Information Retrieval

1 CS 430 / INFO 430 Information Retrieval Lecture 3 Vector Methods 1.

Information retrieval Finding relevant data using irrelevant keys Example: database of photographic images sorted by number, date. DBMS: Well structured.

10-603/15-826A: Multimedia Databases and Data Mining SVD - part I (definitions) C. Faloutsos.

Ranking by Odds Ratio A Probability Model Approach let be a Boolean random variable: document d is relevant to query q otherwise Consider document d as.

Modern Information Retrieval Chapter 2 Modeling. Can keywords be used to represent a document or a query? keywords as query and matching as query processing.

Multimedia Databases Text II. Outline Spatial Databases Temporal Databases Spatio-temporal Databases Multimedia Databases Text databases Image and video.

Multimedia Databases LSI and SVD. Text - Detailed outline text problem full text scanning inversion signature files clustering information filtering and.

1 CS 430 / INFO 430 Information Retrieval Lecture 3 Searching Full Text 3.

10-603/15-826A: Multimedia Databases and Data Mining Text - part II C. Faloutsos.

CMU SCS : Multimedia Databases and Data Mining Lecture #30: Conclusions C. Faloutsos.

Chapter 5: Information Retrieval and Web Search

1 Vector Space Model Rong Jin. 2 Basic Issues in A Retrieval Model How to represent text objects What similarity function should be used? How to refine.

5 June 2006Polettini Nicola1 Term Weighting in Information Retrieval Polettini Nicola Monday, June 5, 2006 Web Information Retrieval.

04/30/13 Last class: summary, goggles, ices Discrete Structures (CS 173) Derek Hoiem, University of Illinois 1 Image: wordpress.com/2011/11/22/lig.

Modern Information Retrieval: A Brief Overview By Amit Singhal Ranjan Dash.

1 CS 430: Information Discovery Lecture 9 Term Weighting and Ranking.

Query Operations J. H. Wang Mar. 26, The Retrieval Process User Interface Text Operations Query Operations Indexing Searching Ranking Index Text.

Xiaoying Gao Computer Science Victoria University of Wellington Intelligent Agents COMP 423.

Clustering Supervised vs. Unsupervised Learning Examples of clustering in Web IR Characteristics of clustering Clustering algorithms Cluster Labeling 1.

Chapter 6: Information Retrieval and Web Search

1 Computing Relevance, Similarity: The Vector Space Model.

1 Automatic Classification of Bookmarked Web Pages Chris Staff Second Talk February 2007.

Introduction to Digital Libraries hussein suleman uct cs honours 2003.

University of Malta CSA3080: Lecture 6 © Chris Staff 1 of 20 CSA3080: Adaptive Hypertext Systems I Dr. Christopher Staff Department.

LANGUAGE MODELS FOR RELEVANCE FEEDBACK Lee Won Hee.

Vector Space Models.

E.G.M. PetrakisText Clustering1 Clustering  “Clustering is the unsupervised classification of patterns (observations, data items or feature vectors) into.

CIS750 – Seminar in Advanced Topics in Computer Science Advanced topics in databases – Multimedia Databases V. Megalooikonomou Text Databases (some slides.

CMU SCS : Multimedia Databases and Data Mining Lecture #18: SVD - part I (definitions) C. Faloutsos.

1 CS 430 / INFO 430 Information Retrieval Lecture 3 Searching Full Text 3.

1 CS 430: Information Discovery Lecture 5 Ranking.

Xiaoying Gao Computer Science Victoria University of Wellington COMP307 NLP 4 Information Retrieval.

1 Text Categorization  Assigning documents to a fixed set of categories  Applications:  Web pages  Recommending pages  Yahoo-like classification hierarchies.

IR 6 Scoring, term weighting and the vector space model.

Automated Information Retrieval

An Efficient Algorithm for Incremental Update of Concept space

15-826: Multimedia Databases and Data Mining

Sampath Jayarathna Cal Poly Pomona

Information Retrieval and Web Search

IST 516 Fall 2011 Dongwon Lee, Ph.D.

15-826: Multimedia Databases and Data Mining

15-826: Multimedia Databases and Data Mining

15-826: Multimedia Databases and Data Mining

Information Organization: Clustering

15-826: Multimedia Databases and Data Mining

15-826: Multimedia Databases and Data Mining

Chapter 5: Information Retrieval and Web Search

Text Categorization Berlin Chen 2003 Reference:

15-826: Multimedia Databases and Data Mining

Information Retrieval and Web Design

Presentation transcript:

15-826: Multimedia Databases and Data Mining C. Faloutsos 15-826 NOT in the midterm exam 15-826: Multimedia Databases and Data Mining Lecture #16: Text - part III: Vector space model and clustering C. Faloutsos

Copyright: C. Faloutsos (2017) NOT in the midterm exam Must-Read Material MM Textbook, Chapter 6 15-826 Copyright: C. Faloutsos (2017)

Copyright: C. Faloutsos (2017) Outline Goal: ‘Find similar / interesting things’ Intro to DB Indexing - similarity search Data Mining 15-826 Copyright: C. Faloutsos (2017)

Indexing - Detailed outline C. Faloutsos 15-826 Indexing - Detailed outline primary key indexing secondary key / multi-key indexing spatial access methods fractals text multimedia ... 15-826 Copyright: C. Faloutsos (2017)

Text - Detailed outline problem full text scanning inversion signature files clustering information filtering and LSI 15-826 Copyright: C. Faloutsos (2017)

Vector Space Model and Clustering keyword queries (vs Boolean) each document: -> vector (HOW?) each query: -> vector search for ‘similar’ vectors 15-826 Copyright: C. Faloutsos (2017)

Vector Space Model and Clustering main idea: document aaron data zoo ‘indexing’ ...data... V (= vocabulary size) 15-826 Copyright: C. Faloutsos (2017)

Vector Space Model and Clustering Then, group nearby vectors together Q1: cluster search? Q2: cluster generation? Two significant contributions ranked output relevance feedback 15-826 Copyright: C. Faloutsos (2017)

Vector Space Model and Clustering cluster search: visit the (k) closest superclusters; continue recursively MD TRs CS TRs 15-826 Copyright: C. Faloutsos (2017)

Vector Space Model and Clustering ranked output: easy! MD TRs CS TRs 15-826 Copyright: C. Faloutsos (2017)

Vector Space Model and Clustering relevance feedback (brilliant idea) [Roccio’73] MD TRs CS TRs 15-826 Copyright: C. Faloutsos (2017)

Vector Space Model and Clustering relevance feedback (brilliant idea) [Roccio’73] How? MD TRs CS TRs 15-826 Copyright: C. Faloutsos (2017)

Vector Space Model and Clustering How? A: by adding the ‘good’ vectors and subtracting the ‘bad’ ones MD TRs CS TRs 15-826 Copyright: C. Faloutsos (2017)

Copyright: C. Faloutsos (2017) Outline - detailed main idea cluster search cluster generation evaluation 15-826 Copyright: C. Faloutsos (2017)

Copyright: C. Faloutsos (2017) Cluster generation Problem: given N points in V dimensions, group them 15-826 Copyright: C. Faloutsos (2017)

Copyright: C. Faloutsos (2017) Cluster generation Problem: given N points in V dimensions, group them 15-826 Copyright: C. Faloutsos (2017)

Copyright: C. Faloutsos (2017) Cluster generation We need Q1: document-to-document similarity Q2: document-to-cluster similarity 15-826 Copyright: C. Faloutsos (2017)

Copyright: C. Faloutsos (2017) Cluster generation Q1: document-to-document similarity (recall: ‘bag of words’ representation) D1: {‘data’, ‘retrieval’, ‘system’} D2: {‘lung’, ‘pulmonary’, ‘system’} distance/similarity functions? 15-826 Copyright: C. Faloutsos (2017)

Copyright: C. Faloutsos (2017) Cluster generation A1: # of words in common A2: ........ normalized by the vocabulary sizes A3: .... etc About the same performance - prevailing one: cosine similarity 15-826 Copyright: C. Faloutsos (2017)

Cluster generation cosine similarity: similarity(D1, D2) = cos(θ) = sum(v1,i * v2,i) / len(v1)/ len(v2) D1 D2 θ 15-826 Copyright: C. Faloutsos (2017)

Copyright: C. Faloutsos (2017) Cluster generation cosine similarity - observations: related to the Euclidean distance weights vi,j : according to tf/idf D1 d D2 r = 1 θ 15-826 Copyright: C. Faloutsos (2017)

Copyright: C. Faloutsos (2017) DETAILS Cluster generation cosine similarity - observations: related to the Euclidean distance weights vi,j : according to tf/idf D1 d =2*sin(q/2) d D2 d2 =2*(1-cos(q)) r = 1 θ 15-826 Copyright: C. Faloutsos (2017)

Copyright: C. Faloutsos (2017) Cluster generation tf (‘term frequency’) high, if the term appears very often in this document. idf (‘inverse document frequency’) penalizes ‘common’ words, that appear in almost every document 15-826 Copyright: C. Faloutsos (2017)

Copyright: C. Faloutsos (2017) Cluster generation We need Q1: document-to-document similarity Q2: document-to-cluster similarity ? 15-826 Copyright: C. Faloutsos (2017)

Copyright: C. Faloutsos (2017) Cluster generation A1: min distance (‘single-link’) A2: max distance (‘all-link’) A3: avg distance A4: distance to centroid ? 15-826 Copyright: C. Faloutsos (2017)

Copyright: C. Faloutsos (2017) Cluster generation A1: min distance (‘single-link’) leads to elongated clusters A2: max distance (‘all-link’) many, small, tight clusters A3: avg distance in between the above A4: distance to centroid fast to compute 15-826 Copyright: C. Faloutsos (2017)

Copyright: C. Faloutsos (2017) Cluster generation We have document-to-document similarity document-to-cluster similarity Q: How to group documents into ‘natural’ clusters 15-826 Copyright: C. Faloutsos (2017)

Copyright: C. Faloutsos (2017) Cluster generation A: *many-many* algorithms - in two groups [VanRijsbergen]: theoretically sound (O(N^2)) independent of the insertion order iterative (O(N), O(N log(N)) 15-826 Copyright: C. Faloutsos (2017)

Cluster generation - ‘sound’ methods Approach#1: dendrograms - create a hierarchy (bottom up or top-down) - choose a cut-off (how?) and cut 0.8 0.3 0.1 cat tiger horse cow 15-826 Copyright: C. Faloutsos (2017)

Cluster generation - ‘sound’ methods Approach#2: min. some statistical criterion (eg., sum of squares from cluster centers) like ‘k-means’ but how to decide ‘k’? 15-826 Copyright: C. Faloutsos (2017)

Cluster generation - ‘sound’ methods Approach#3: Graph theoretic [Zahn]: build MST; delete edges longer than 3* std of the local average 15-826 Copyright: C. Faloutsos (2017)

Cluster generation - ‘sound’ methods Result: why ‘3’? variations Complexity? 15-826 Copyright: C. Faloutsos (2017)

Cluster generation - ‘iterative’ methods general outline: Choose ‘seeds’ (how?) assign each vector to its closest seed (possibly adjusting cluster centroid) possibly, re-assign some vectors to improve clusters Fast and practical, but ‘unpredictable’ 15-826 Copyright: C. Faloutsos (2017)

Cluster generation - ‘iterative’ methods general outline: Choose ‘seeds’ (how?) assign each vector to its closest seed (possibly adjusting cluster centroid) possibly, re-assign some vectors to improve clusters Fast and practical, but ‘unpredictable’ 15-826 Copyright: C. Faloutsos (2017)

Copyright: C. Faloutsos (2017) Cluster generation one way to estimate # of clusters k: the ‘cover coefficient’ [Can+] ~ SVD 15-826 Copyright: C. Faloutsos (2017)

Copyright: C. Faloutsos (2017) Outline - detailed main idea cluster search cluster generation evaluation 15-826 Copyright: C. Faloutsos (2017)

Copyright: C. Faloutsos (2017) Evaluation Q: how to measure ‘goodness’ of one distance function vs another? A: ground truth (by humans) and ‘precision’ and ‘recall’ 15-826 Copyright: C. Faloutsos (2017)

Copyright: C. Faloutsos (2017) Evaluation precision = (retrieved & relevant) / retrieved 100% precision -> no false alarms recall = (retrieved & relevant)/ relevant 100% recall -> no false dismissals 15-826 Copyright: C. Faloutsos (2017)

Copyright: C. Faloutsos (2017) Evaluation No false alarms ideal 1 precision 1 recall No false dismissals 15-826 Copyright: C. Faloutsos (2017)

Copyright: C. Faloutsos (2017) Evaluation compressing such a curve into a single number: 11-point average precision etc 15-826 Copyright: C. Faloutsos (2017)

Conclusions – main ideas ‘bag of words’ idea + keyword queries Cosine similarity Ranked output Relevance feedback 15-826 Copyright: C. Faloutsos (2017)

Copyright: C. Faloutsos (2017) References Modern Information Retrieval R. Baeza-Yates, Acm Press, Berthier Ribeiro-Neto, February 1999 Can, F. and E. A. Ozkarahan (Dec. 1990). "Concepts and Effectiveness of the Cover-Coefficient-Based Clustering Methodology for Text Databases." ACM TODS 15(4): 483-517. Noreault, T., M. McGill, et al. (1983). A Performance Evaluation of Similarity Measures, Document Term Weighting Schemes and Representation in a Boolean Environment. Information Retrieval Research, Butterworths. 15-826 Copyright: C. Faloutsos (2017)

Copyright: C. Faloutsos (2017) References Rocchio, J. J. (1971). Relevance Feedback in Information Retrieval. The SMART Retrieval System - Experiments in Automatic Document Processing. G. Salton. Englewood Cliffs, New Jersey, Prentice-Hall Inc. Salton, G. (1971). The SMART Retrieval System - Experiments in Automatic Document Processing. Englewood Cliffs, New Jersey, Prentice-Hall Inc. 15-826 Copyright: C. Faloutsos (2017)

Copyright: C. Faloutsos (2017) 15-826 References Salton, G. and M. J. McGill (1983). Introduction to Modern Information Retrieval, McGraw-Hill. Van-Rijsbergen, C. J. (1979). Information Retrieval. London, England, Butterworths. Zahn, C. T. (Jan. 1971). "Graph-Theoretical Methods for Detecting and Describing Gestalt Clusters." IEEE Trans. on Computers C-20(1): 68-86. 15-826 Copyright: C. Faloutsos (2017)