2007 Trilinos User Group Meeting - 11/7/2007 Leveraging Trilinos for Data Mining & Data Analysis Danny Dunlavy (1415) Tim Shead (1424) Pat Crossno (1424)

Slides:

Advertisements

Similar presentations

Data Mining and the Web Susan Dumais Microsoft Research KDD97 Panel - Aug 17, 1997.

Advertisements

Timothy M. Shead Sandia National Laboratories

Indexing. Efficient Retrieval Documents x terms matrix t 1 t 2... t j... t m nf d 1 w 11 w w 1j... w 1m 1/|d 1 | d 2 w 21 w w 2j... w 2m 1/|d.

Effective Keyword Based Selection of Relational Databases Bei Yu, Guoliang Li, Karen Sollins, Anthony K.H Tung.

June 22-23, 2005 Technology Infusion Team Committee1 High Performance Parallel Lucene search (for an OAI federation) K. Maly, and M. Zubair Department.

Comparison of information retrieval techniques: Latent semantic indexing (LSI) and Concept indexing (CI) Jasminka Dobša Faculty of organization and informatics,

Developing a Characterization of Business Intelligence Workloads for Sizing New Database Systems Ted J. Wasserman (IBM Corp. / Queen’s University) Pat.

What is missing? Reasons that ideal effectiveness hard to achieve: 1. Users’ inability to describe queries precisely. 2. Document representation loses.

Latent Semantic Indexing via a Semi-discrete Matrix Decomposition.

Massive Graph Visualization: LDRD Final Report Sandia National Laboratories Sand Printed October 2007.

A Scalable Semantic Indexing Framework for Peer-to-Peer Information Retrieval University of Illinois at Urbana-Champain Zhichen XuYan Chen Northwestern.

1 Latent Semantic Indexing Jieping Ye Department of Computer Science & Engineering Arizona State University

Supervised by Prof. LYU, Rung Tsong Michael Department of Computer Science & Engineering The Chinese University of Hong Kong Prepared by: Chan Pik Wah,

Vector Space Information Retrieval Using Concept Projection Presented by Zhiguo Li

Indexing by Latent Semantic Analysis Written by Deerwester, Dumais, Furnas, Landauer, and Harshman (1990) Reviewed by Cinthia Levy.

1 Algorithms for Large Data Sets Ziv Bar-Yossef Lecture 4 March 30, 2005

Information Retrieval in Text Part III Reference: Michael W. Berry and Murray Browne. Understanding Search Engines: Mathematical Modeling and Text Retrieval.

Singular Value Decomposition in Text Mining Ram Akella University of California Berkeley Silicon Valley Center/SC Lecture 4b February 9, 2011.

TFIDF-space  An obvious way to combine TF-IDF: the coordinate of document in axis is given by  General form of consists of three parts: Local weight.

Minimum Spanning Trees Displaying Semantic Similarity Włodzisław Duch & Paweł Matykiewicz Department of Informatics, UMK Toruń School of Computer Engineering,

Lecture 21 SVD and Latent Semantic Indexing and Dimensional Reduction

LSDS-IR’08, October 30, Peer-to-Peer Similarity Search over Widely Distributed Document Collections Christos Doulkeridis 1, Kjetil Nørvåg 2, Michalis.

SLIDE 1IS 240 – Spring 2007 Prof. Ray Larson University of California, Berkeley School of Information Tuesday and Thursday 10:30 am - 12:00.

1 Algorithms for Large Data Sets Ziv Bar-Yossef Lecture 6 May 7, 2006

Ranking by Odds Ratio A Probability Model Approach let be a Boolean random variable: document d is relevant to query q otherwise Consider document d as.

Kathryn Linehan Advisor: Dr. Dianne O’Leary

1 BrainWave Biosolutions Limited Accelerating Life Science Research through Technology.

Multimedia Databases LSI and SVD. Text - Detailed outline text problem full text scanning inversion signature files clustering information filtering and.

Other IR Models Non-Overlapping Lists Proximal Nodes Structured Models Retrieval: Adhoc Filtering Browsing U s e r T a s k Classic Models boolean vector.

Chapter 5: Information Retrieval and Web Search

Utilising software to enhance your research Eamonn Hynes 5 th November, 2012.

Database System Concepts and Architecture Lecture # 3 22 June 2012 National University of Computer and Emerging Sciences.

1 Vector Space Model Rong Jin. 2 Basic Issues in A Retrieval Model How to represent text objects What similarity function should be used? How to refine.

Latent Semantic Indexing Debapriyo Majumdar Information Retrieval – Spring 2015 Indian Statistical Institute Kolkata.

Coupling Informatics Algorithm Development and Visual Analysis Danny Dunlavy, Pat Crossno, Tim Shead Sandia National Laboratories SIAM Annual Meeting July.

SAND C 1/20 ParaText™ Leveraging Scalable Scientific Computing Capabilities for Large-Scale Text Analysis and Visualization Daniel M. Dunlavy,

1 Information Retrieval through Various Approximate Matrix Decompositions Kathryn Linehan Advisor: Dr. Dianne O’Leary.

DBXplorer: A System for Keyword- Based Search over Relational Databases Sanjay Agrawal Surajit Chaudhuri Gautam Das Presented by Bhushan Pachpande.

A Metadata Based Approach For Supporting Subsetting Queries Over Parallel HDF5 Datasets Vignesh Santhanagopalan Graduate Student Department Of CSE.

EMIS 8381 – Spring Netflix and Your Next Movie Night Nonlinear Programming Ron Andrews EMIS 8381.

Indices Tomasz Bartoszewski. Inverted Index Search Construction Compression.

After step 2, processors know who owns the data in their assumed partitions— now the assumed partition defines the rendezvous points Scalable Conceptual.

ICPP 2012 Indexing and Parallel Query Processing Support for Visualizing Climate Datasets Yu Su*, Gagan Agrawal*, Jonathan Woodring † *The Ohio State University.

Pseudo-supervised Clustering for Text Documents Marco Maggini, Leonardo Rigutini, Marco Turchi Dipartimento di Ingegneria dell’Informazione Università.

Chapter 6: Information Retrieval and Web Search

Latent Semantic Indexing: A probabilistic Analysis Christos Papadimitriou Prabhakar Raghavan, Hisao Tamaki, Santosh Vempala.

Text Categorization Moshe Koppel Lecture 12:Latent Semantic Indexing Adapted from slides by Prabhaker Raghavan, Chris Manning and TK Prasad.

THE ABSTRACT OBJECT RELATIONSHIP BROWSER (absORB) COS 333 Project Demo Thursday, May 7th, 2009 Laura Bai ’10 Natasha Indik ’10 Ryan Bayer ’09 Tsheko Mutungu.

SINGULAR VALUE DECOMPOSITION (SVD)

GUIDED BY DR. A. J. AGRAWAL Search Engine By Chetan R. Rathod.

Gene Clustering by Latent Semantic Indexing of MEDLINE Abstracts Ramin Homayouni, Kevin Heinrich, Lai Wei, and Michael W. Berry University of Tennessee.

1 CSC 594 Topics in AI – Text Mining and Analytics Fall 2015/16 6. Dimensionality Reduction.

LATENT SEMANTIC INDEXING BY SINGULAR VALUE DECOMPOSITION

Scalable Hybrid Keyword Search on Distributed Database Jungkee Kim Florida State University Community Grids Laboratory, Indiana University Workshop on.

V. Clustering 인공지능 연구실 이승희 Text: Text mining Page:82-93.

Web Search and Text Mining Lecture 5. Outline Review of VSM More on LSI through SVD Term relatedness Probabilistic LSI.

Data Structures and Algorithms in Parallel Computing Lecture 7.

Concept-based P2P Search How to find more relevant documents Ingmar Weber Max-Planck-Institute for Computer Science Joint work with Holger Bast Torino,

10.0 Latent Semantic Analysis for Linguistic Processing References : 1. “Exploiting Latent Semantic Information in Statistical Language Modeling”, Proceedings.

Automatic Labeling of Multinomial Topic Models

ITCS 6265 Information Retrieval & Web Mining Lecture 16 Latent semantic indexing Thanks to Thomas Hofmann for some slides.

Instance Discovery and Schema Matching With Applications to Biological Deep Web Data Integration Tantan Liu, Fan Wang, Gagan Agrawal {liut, wangfa,

Search Engine and Optimization 1. Agenda Indexing Algorithms Latent Semantic Indexing 2.

Kyriaki Dimitriadou, Brandeis University

Document Clustering Based on Non-negative Matrix Factorization

Database Performance Tuning and Query Optimization

Parallelism in High-Performance Computing Applications

Design open relay based DNS blacklist system

Chapter 11 Database Performance Tuning and Query Optimization

Latent Semantic Analysis

Presentation transcript:

2007 Trilinos User Group Meeting - 11/7/2007 Leveraging Trilinos for Data Mining & Data Analysis Danny Dunlavy (1415) Tim Shead (1424) Pat Crossno (1424) SAND C

2007 Trilinos User Group Meeting - 11/7/2007 Outline Motivation Current requirements Titan / ThreatView TM LSALIB Epetra / Anasazi / RBGen Future Requirements Conclusions

2007 Trilinos User Group Meeting - 11/7/2007 Motivation Unstructured text Database Data analyst Processing and analysisVisualization Terabytes Few and overworked Scalable: New & OngoingScalable: Titan

2007 Trilinos User Group Meeting - 11/7/2007 LDRD Project Scalable Solutions for Processing and Searching Very Large Document Collections –Address big data problem for text analysis/visualization –Develop parallel informatics visualization capability Leverage Existing Sandia Expertise –Visualization: ThreatView TM, VTK, ParaView –Text: LSALIB, QCS –HPC: Parallel VTK, Trilinos Challenges –Single serial component creates bottleneck –Understanding of scalability for text applications is key –Data intensive –Both local and global understanding of data relationships important

2007 Trilinos User Group Meeting - 11/7/2007 Current Requirements Cross-platform builds –Windows, MacOS, Unix –Serial/parallel architectures –CMake configuration Distributed data structures/algorithms –Sparse data: no physics, no geometry –Parallel matrix decompositions (SVD to start) –Work with existing parallel execution pipeline Access to third party development

2007 Trilinos User Group Meeting - 11/7/2007 Titan Goal is to extend scientific and distributed visualization capabilities to include informatics visualization C++ Code Base Example Components –Data Structures: table, graph, tree –Boost Graph Library adapters –Database hooks: MySQL, Postgres, SQLite, ODBC, Oracle –Parallel components/algorithms Graph data structures, database queries, graph algorithms (MTGL), landscape generation, selection and picking Scientific VisualizationDistributed Visualization B. Wylie (PI), 1424

2007 Trilinos User Group Meeting - 11/7/2007 Titan ThreatView 0.1ParaView 3.0 Prism 3.0 GeoTest 0.1 Python Script

2007 Trilinos User Group Meeting - 11/7/2007 ThreatView TM Data Sources –Delimited text files CSV, XML, ISI, RIS –SQL Databases MySQL, PostgreSQL, SQLite, Oracle –Object-oriented databases AHOTE Data Views –Traditional "ball-and-stick" graph view –Clustered landscape view –Table view –Record view –Attribute view –Statistics view Interface –Wizards for data ingestion –Drag-and-drop direct data manipulation –Coordinated selection among views T. Shead, B. Wylie, E. Stanton

2007 Trilinos User Group Meeting - 11/7/2007 Capabilities ThreatView TM = Parallel data visualization

2007 Trilinos User Group Meeting - 11/7/2007 LSALIB Latent Semantic Analysis (LSA) [Dumais et al., 1988] –Theory and method for extracting and representing contextual usage of words by statistical computations applied to a large corpus of text Vector Space Model of Data –Terms: {t 1, …, t m }  R m –Documents: {d 1, …, d n }  R n –Term  Document Matrix: A –a ij : measure of importance of term i in document j Implementation –Low rank approximation of term-document matrix via truncated singular value decomposition (SVD)  D. Dunlavy, T. Kolda

2007 Trilinos User Group Meeting - 11/7/2007 LSALIB: Matrix Weighting individual documents (columns) over all documents (rows) individual documents

2007 Trilinos User Group Meeting - 11/7/2007 SVD: Truncated: Query scores (query as new “doc”): LSA Ranking: Document similarities: Term Similarities: LSALIB: Matrix Operations (want sparse output)

2007 Trilinos User Group Meeting - 11/7/2007 d 1 : Hurricane. A hurricane is a catastrophe. d 2 : An example of a catastrophe is a hurricane. d 3 : An earthquake is bad. d 4 : Earthquake. An earthquake is a catastrophe. d 1 : Hurricane. A hurricane is a catastrophe. d 2 : An example of a catastrophe is a hurricane. d 3 : An earthquake is bad. d 4 : Earthquake. An earthquake is a catastrophe. 1011catastrophe 2100earthquake 0012hurricane d4d4 d3d3 d2d2 d1d1 0catastrophe 0earthquake 1hurricane q A catastrophe earthquake hurricane d4d4 d3d3 d2d2 d1d1 A2A qTAqTA.11–.78 qTA2qTA catastrophe.89100earthquake hurricane d4d4 d3d3 d2d2 d1d1 A Remove stopwords normalization only rank-2 approximation captures link to doc 4 LSALIB: Example

2007 Trilinos User Group Meeting - 11/7/2007 LSALIB Implements latent semantic analysis –Conceptual searching rank(k)  : more exact matches rank(k)  : more conceptual matches Can compute larger rank and use smaller rank Computations with thresholds –Matrix creation –SVD wrapper –Similarities Minimum similarity score Minimum number of similarities

2007 Trilinos User Group Meeting - 11/7/2007 Capabilities ThreatView TM = Parallel data visualization ThreatView TM + LSALIB = Parallel (text) data visualization with serial conceptual retrieval/similarities

2007 Trilinos User Group Meeting - 11/7/2007 Epetra Distributed matrix data structure Flexible data mapping Local development process Autotool configuration Fortran sources & system libs (Windows) CMake + Intel Fortran + header tweaks = native Windows Epetra builds! (see Tim Shead’s talk at TUG tomorrow 8:30 am)

2007 Trilinos User Group Meeting - 11/7/2007 Epetra Data (Documents) P0 P1 P2 Pk Data Distribution P0 P1 P2 Pk k processors Matrix Creation (parsing, indexing, weighting) Epetra Sparse Term-Doc Matrix P0 P1 P2 Pk Parallel SVD (Anasazi) Epetra SVD Multivectors P0 P1 P2 Pk Epetra Sparse Similarity Matrix Parallel Similarities (LSALIB+) P0 P1 P2 Pk vtkGraph Graph Creation (LSALIB+)

2007 Trilinos User Group Meeting - 11/7/2007  Epetra Data issues / questions –Row (term) partitioning What is the cost of partitioning/balancing? – Only after the matrix creation phase? –Column (doc) partitioning Different term-document matrices on each proc –Have to merge terms sets More efficient all-to-all operations (similarities)? Computation issues / questions –Overall cost (matrix, weighting, SVD, sims)? –Adding more data (documents)?

2007 Trilinos User Group Meeting - 11/7/2007 Anasazi/RBGen Parallel (truncated) SVD –Eigenvalue decomposition of Multiple methods –Block Krylov-Schur, Block Davidson, LOBPCG Different storage, computational requirements RBGen –General reduced-order models Other methods for dimensionality reduction (text) –SDD, CUR, CMD –Incremental SVD methods Solution for updating (i.e., adding documents)?

2007 Trilinos User Group Meeting - 11/7/2007 Capabilities ThreatView TM = Parallel data visualization ThreatView TM + LSALIB = Parallel (text) data visualization with serial conceptual retrieval/similarities ThreatView TM + LSALIB + Epetra/Anasazi/RBGen = Parallel (text) data visualization with parallel conceptual retrieval/similarities

2007 Trilinos User Group Meeting - 11/7/2007 Future Requirements Matrix Decompositions –Semidiscrete decomposition (SDD) Entries are -1, 0, +1 (less storage): TPetra? –CUR Columns chosen from distribution Preserves sparsity How does this impact data management and efficient computation? –Flexibility to use other decompositions RBGen

2007 Trilinos User Group Meeting - 11/7/2007 Future Requirements Statistics –Data analysis Distributions, tests, regressions, statistical quantities –Retrieval Probabilistic: unigram, pLSA, LDA Relevance feedback (text and visualizations) –Matrix weighting vs. post-processing –Machine learning Prediction of user needs Algorithm choice Applications –Categorization, clustering, summarization

2007 Trilinos User Group Meeting - 11/7/2007 Future Requirements Data partitioning and balancing –Dynamic balancing Epetra parallel data redistribution? Zoltan? –Data management Hash tables for term management? Hybrid partitioning (across rows/terms and columns/documents) useful? –Data locality needs Classification groups by class label (metadata) Clustering groups by attributes (data)

2007 Trilinos User Group Meeting - 11/7/2007 Conclusions Trilinos is useful for informatics applications –Epetra, Anasazi/RBGen (so far) Trilinos can build natively on Windows –CMake Informatics needs may help drive new general capabilities in Trilinos Trilinos developers are available and helpful –Mike Heroux, Jim Willenbring, Heidi Thornquist, Chris Baker

2007 Trilinos User Group Meeting - 11/7/2007 Thank You Leveraging Trilinos for Data Mining & Analysis Questions Danny Dunlavy