Audio classification Discriminating speech, music and environmental audio Rajas A. Sambhare ECE 539.

Slides:

Advertisements

Similar presentations

Face Recognition: A Convolutional Neural Network Approach

Advertisements

Entropy and Dynamism Criteria for Voice Quality Classification Applications Authors: Peter D. Kukharchik, Igor E. Kheidorov, Hanna M. Lukashevich, Denis.

The evaluation and optimisation of multiresolution FFT Parameters For use in automatic music transcription algorithms.

Content-based retrieval of audio Francois Thibault MUMT 614B McGill University.

MUSICAL SCALE IDENTIFICATION USING NEURAL NETWORKS -Lyndon Quadros.

Feature Vector Selection and Use With Hidden Markov Models to Identify Frequency-Modulated Bioacoustic Signals Amidst Noise T. Scott Brandes IEEE Transactions.

Machine Learning Neural Networks

Non-linear classification problem using NN Fainan May 2006 Pattern Classification and Machine Learning Course Three layers Feedforward Neural Network (FFNN)

Content-Based Classification, Search & Retrieval of Audio Erling Wold, Thom Blum, Douglas Keislar, James Wheaton Presented By: Adelle C. Knight.

Toward Semantic Indexing and Retrieval Using Hierarchical Audio Models Wei-Ta Chu, Wen-Huang Cheng, Jane Yung-Jen Hsu and Ja-LingWu Multimedia Systems,

Lecture 14 – Neural Networks

Classifying Motion Picture Audio Eirik Gustavsen

CONTENT BASED FACE RECOGNITION Ankur Jain 01D05007 Pranshu Sharma Prashant Baronia 01D05005 Swapnil Zarekar 01D05001 Under the guidance of Prof.

S. Mandayam/ ANN/ECE Dept./Rowan University Artificial Neural Networks ECE /ECE Fall 2010 Shreekanth Mandayam ECE Department Rowan University.

S. Mandayam/ ANN/ECE Dept./Rowan University Artificial Neural Networks / Spring 2002 Shreekanth Mandayam Robi Polikar ECE Department.

Optimal Adaptation for Statistical Classifiers Xiao Li.

Classification of Music According to Genres Using Neural Networks, Genetic Algorithms and Fuzzy Systems.

Pattern Recognition Applications Alexandros Potamianos Dept of ECE, Tech. Univ. of Crete Fall

Aula 4 Radial Basis Function Networks

September 28, 2010Neural Networks Lecture 7: Perceptron Modifications 1 Adaline Schematic Adjust weights i1i1i1i1 i2i2i2i2 inininin …  w 0 + w 1 i 1 +

Face Recognition Using Neural Networks Presented By: Hadis Mohseni Leila Taghavi Atefeh Mirsafian.

CSSE463: Image Recognition Day 21 Upcoming schedule: Upcoming schedule: Exam covers material through SVMs Exam covers material through SVMs.

8th Annual CSIS Research Conference 1 Client Server Browsing of Sound Resources: Classification and Browsing E. Brazil Interaction Design Centre University.

„Bandwidth Extension of Speech Signals“ 2nd Workshop on Wideband Speech Quality in Terminals and Networks: Assessment and Prediction 22nd and 23rd June.

Explorations in Neural Networks Tianhui Cai Period 3.

Chapter 9 Neural Network.

Appendix B: An Example of Back-propagation algorithm

Matlab Matlab Sigmoid Sigmoid Perceptron Perceptron Linear Linear Training Training Small, Round Blue-Cell Tumor Classification Example Small, Round Blue-Cell.

Jacob Zurasky ECE5526 – Spring 2011

Supervisor: Dr. Eddie Jones Co-supervisor: Dr Martin Glavin Electronic Engineering Department Final Year Project 2008/09 Development of a Speaker Recognition/Verification.

MUMT611: Music Information Acquisition, Preservation, and Retrieval Presentation on Timbre Similarity Alexandre Savard March 2006.

Korean Phoneme Discrimination Ben Lickly Motivation Certain Korean phonemes are very difficult for English speakers to distinguish, such as ㅅ and ㅆ.

Feature Vector Selection and Use With Hidden Markov Models to Identify Frequency-Modulated Bioacoustic Signals Amidst Noise T. Scott Brandes IEEE Transactions.

Multi-Layer Perceptron

Non-Bayes classifiers. Linear discriminants, neural networks.

Using Feed Forward NN for EEG Signal Classification Amin Fazel April 2006 Department of Computer Science and Electrical Engineering University of Missouri.

Look who’s talking? Project 3.1 Yannick Thimister Han van Venrooij Bob Verlinden Project DKE Maastricht University.

11 1 Backpropagation Multilayer Perceptron R – S 1 – S 2 – S 3 Network.

Learning Long-Term Temporal Feature in LVCSR Using Neural Networks Barry Chen, Qifeng Zhu, Nelson Morgan International Computer Science Institute (ICSI),

CSSE463: Image Recognition Day 14 Lab due Weds, 3:25. Lab due Weds, 3:25. My solutions assume that you don't threshold the shapes.ppt image. My solutions.

Singer Similarity Doug Van Nort MUMT 611. Goal Determine Singer / Vocalist based on extracted features of audio signal Classify audio files based on singer.

PHYSICS CLASS ACTIVITY. CLASS ACTIVITY: TUNING FORK FREQUENCY.

Each neuron has a threshold value Each neuron has weighted inputs from other neurons The input signals form a weighted sum If the activation level exceeds.

Data Mining: Concepts and Techniques1 Prediction Prediction vs. classification Classification predicts categorical class label Prediction predicts continuous-valued.

Automatic Classification of Audio Data by Carlos H. L. Costa, Jaime D. Valle, Ro L. Koerich IEEE International Conference on Systems, Man, and Cybernetics.

Audio-Based Multimedia Event Detection Using Deep Recurrent Neural Networks Yun Wang, Leonardo Neves, Florian Metze 3/23/2016.

CSSE463: Image Recognition Day 14

Presentation on Artificial Neural Network Based Pathological Voice Classification Using MFCC Features Presenter: Subash Chandra Pakhrin 072MSI616 MSC in.

Schizophrenia Classification Using

Brian Whitman Paris Smaragdis MIT Media Lab

CSSE463: Image Recognition Day 17

Speech Recognition Christian Schulze

3. Applications to Speaker Verification

network of simple neuron-like computing elements

Chap 8: Adaptive Networks

CSSE463: Image Recognition Day 17

Detecting Myocardial Infarctions (Heart Attack) using Neural Network

CSSE463: Image Recognition Day 18

Backpropagation.

CSSE463: Image Recognition Day 17

CSSE463: Image Recognition Day 13

Presenter: Simon de Leon Date: March 2, 2006 Course: MUMT611

CSSE463: Image Recognition Day 18

CSSE463: Image Recognition Day 18

CSSE463: Image Recognition Day 17

CSSE463: Image Recognition Day 17

CSSE463: Image Recognition Day 18

Face Recognition: A Convolutional Neural Network Approach

Backpropagation.

Presentation transcript:

Audio classification Discriminating speech, music and environmental audio Rajas A. Sambhare ECE 539

Objective Discrimination between speech, music and environmental audio (special effects) using short 3-second samples To extract a relevant set of feature vectors from the audio samples To develop a pattern classifier that can successfully discriminate the three different classes based on the extracted vectors

Feature extraction Frequency Centroid Bandwidth

Feature extraction 3 sec audio sample (22050 Hz) 512-sample frames 512 point FFT Extract centroid, energy in 22 critical bands,and bandwidth 23.21ms, 512 samples, 25% overlap, Hanning Calculate log power ratios in each band Calculate mean, SD for centroid, log power ratios and bandwidth across all frames 2 1 Calculate silence ratio (SR) Concatenate mean, SD of centroid, log power ratios, bandwidth and silence ratio Save 49 dimension feature vector

Neural network development Create a database of 135 training and 45 testing samples Develop neural network using MATLAB Dynamically partition training samples using 25% for tuning Decide on network architecture (No. of hidden layers and neurons) Decide on network parameters like  and  Attempt classification using various combinations of feature vectors Feedforward Multi-layer perceptron with back-propagation training Designed network,

Results Classification rate of 82.37% after using critical sub-band ratios, frequency centroid, bandwidth and silence ratios Classification rate of 79.78% after using only critical sub-band ratios. Classification rate of 84.44% after using only frequency centroid, bandwidth and silence ratios but extremely slow training and variable results (2.34% std. dev. in classification rate) Baseline study: Study by Zhang and Kuo [1] a classification rate of ~ 90% was reported, using a rule-based heuristic. However better results are expected on increasing database size. References: [1] Hierarchical System for Content-based Audio Classification and Retrieval, Tong Zhang, C.-C. Jay Kuo, Proc. SPIE Vol. 3527, p , Multimedia Storage and Archiving Systems III, 1998