Download presentation
1
دسته بندی نیمه نظارتی (2)
زهره کریمی Introduction to semi-supervised Learning, Xiaojin Zhu and Andrew B. Goldberg, University of Wisconsin, Madison, 2009.
2
روش های یادگیری نیمه نظارتی
مدل های Mixture و روش EM روش Co-Training روش های مبتنی بر گراف روش های مبتنی بر SVM یادگیری نیمه نظارتی انسان تئوری
3
Co-Training Named entity Classification Location
4
Co-Training Named entity Classification Location Location
5
Co-Training Named entity Classification Location Location
6
Co-Training دو دسته بندی کننده را یاد می گیرد: هر دسته بندی کننده روی یک دید نمونه هایی را که در یک مدل دسته بندی با اطمینان بالا دسته بندی شده اند به داده های آموزش مدل دسته بندی دیگر اضافه می کند.
7
Co-Training فرضیات هر view به تنهایی برای دسته بندی کافی باشد
Why is the conditional independence assumption important for Co-Training? If the view-2 classifier f (2) decides that the context “headquartered in” indicates Location with high confidence, Co-Training will add unlabeled instances with that context as view-1 training examples. These new training examples for f (1) will include all representative Location named entities x(1), thanks to the conditional independence assumption. If the assumption didn’t hold, the new examples could all be highly similar and thus be less informative for the view-1 classifier. It can be shown that if the two assumptions hold, Co-Training can learn successfully from labeled and unlabeled data. However, it is actually difficult to find tasks in practice that completely satisfy the conditional independence assumption. After all, the context “Prime Minister of ” practically rules out most locations except countries. When the conditional independence assumption is violated,Co-Training may not perform well. If the conditional independence assumption holds, then on average each added document will be as informative as a random document, and the learning will progress.
8
کاربردها Web-page classification متن صفحه: کلمات رخ داده در صفحه
متن hyperlink: کلمات رخ داده در hyperlink ها به صفحه مورد نظر Classify Speech phonemes سیگنال Audio سیگنال video نمایش دهنده حرکت لب ها
9
Multiview learning (1) The squared loss c(x, y, f (x)) = (y − f (x))2
c(x, y, f (x)) = 0 if y = f (x), and 1 otherwise c(x, y = healthy, f (x) = diseased) = 1 and c(x, y = diseased, f (x) = healthy) = 100
10
Multiview learning (2)
11
Multiview Learning (3) MULTIVIEW LEARNING
هدف تولید k مدل بر اساس k دید است The semi-supervised regularizer: میزان عدم توافق k مدل را روی داده های بدون برچسب اندازه گیری می کند Individual Regularized Risk Semi-Supervised regularizer
12
Multiview learning(4) فرض: مجموعه فرضیه ها با یکدیگر موافق باشند و علاوه بر آن emprical risk آن ها کوچک باشد
13
روش های یادگیری نیمه نظارتی
مدل های Mixture و روش EM روش Co-Training روش های مبتنی بر گراف روش های مبتنی بر SVM یادگیری نیمه نظارتی انسان تئوری
14
دسته بندی نیمه نظارتی مبتنی بر گراف (1)
نمونه های برچسب دار و بدون برچسب متناظر با راس های گراف شباهت بین هر دو نمونه متناظر با وزن یال بین دو راس گراف متصل کامل گراف kNN گراف NN
15
دسته بندی نیمه نظارتی مبتنی بر گراف (2)
16
چارچوب Regularization
تابع برچسب f روی گراف پیشگویی برچسب f نزدیک به برچسب داده های برچسب دار باشد loss function f روی کل گراف هموار باشد (با توجه به regularization framework) special graph-based regularization
17
Mincut (1) نمونه های با برچسب مثبت معادل راس های source
نمونه های با برچسب مثبت معادل راس های sink هدف، یافتن مجموعه کمینه ای از یال ها است که source را از sink جدا می کند
18
Mincut (2) 1 3 5 4 2
19
Mincut (3) Cost Function Regularizer Mincut Regularized Risk problem s
20
Harmonic Function (1)
21
Harmonic Function (2) >= 0, predict y = 1, and if f (x) < 0, predict y = −1). The harmonic function f has many interesting interpretations. For example, one can view the graph as an electric network. Each edge is a resistor with resistance 1/wij ,or equivalently conductance wij . The labeled vertices are connected to a 1-volt battery, so that the positive vertices connect to the positive side, and the negative vertices connect to the ground. Then the voltage established at each node is the harmonic function,1 see Figure 5.3(a). The harmonic function f can also be interpreted by a random walk on the graph. Imagine a particle at vertex i. In the next time step, the particle will randomly move to another vertex j with probability proportional to wij : graph as an electric network.Each edge is a resistor with resistance 1/wij ,or equivalently conductance The random walk continues in this fashion until the particle reaches one of the labeled vertices. This is known as an absorbing random walk, where the labeled vertices are absorbing states. Then the value of the harmonic function at vertex i, f (xi), is the probability that a particle starting at vertex i eventually reaches a positive labeled vertex
22
Harmonic Function (3) راه حل تکراری راه حل بسته
unnormalized graph Laplacian matrix L W is an (l + u) × (l + u) weight matrix, whose i, j -th element is the edge weight wij
23
Harmonic Function (4) unnormalized graph Laplacian matrix
24
Manifold Regularization (1)
مسائل روش های موجود Transductive بودن فقط امکان برچسب گذاری داده های بدون برچسب موجود حساس بودن به نویز فرض f (x) = y برای داده های برچسب دار
25
Manifold Regularization (2)
Inductive بودن پایدار بودن در محیط های نویزی
26
Manifold Regularization (3)
normalized graph Laplacian matrix L توان هایی از ماتریس Laplacian نرمال و غیرنرمال
27
فرض روش های مبتنی بر گراف (1)
28
فرض روش های مبتنی بر گراف (2)
Spectral graph theory
29
فرض روش های مبتنی بر گراف (3)
a smaller eigenvalue corresponds to a smoother eigenvector over the graph The graph has k connected components if and only if λ1 = = λk = 0. The corresponding eigenvectors are constant on individual connected components, and zero elsewhere.
30
Graph Spectrum
31
فرض روش های مبتنی بر گراف (4)
Regularization term اگر مقدار ai یا λi نزدیک به صفر باشد Regularization term کمینه خواهد بود. به عبارت دیگر، f ترجیح می دهد که از پایه های هموار (با λi کوچک ) استفاده کند.
32
فرض روش های مبتنی بر گراف (5)
در گراف k-connected component، کمینه Regularization term
33
فرض روش های مبتنی بر گراف (6)
کارایی حساس به ساختار گراف و وزن ها
34
روش های یادگیری نیمه نظارتی
مدل های Mixture و روش EM روش Co-Training روش های مبتنی بر گراف روش های مبتنی بر SVM یادگیری نیمه نظارتی انسان تئوری
35
شهود فاصله از مرز تصمیم تا margin: geometric margin.
36
Support Vector Machines
37
Support Vector Machines
The signed geometric margin: The distance from the decision boundary to the closest labeled instance decision boundary Maximum margin hyperplane must be unique
38
Non-Separable Case (1)
39
Non-Separable Case (2) lie inside the margin,
but on the correct side of the decision boundary lie on the wrong side of the decision boundary and are misclassified are correctly classified
40
Non-Separable Case (3)
41
Non-Separable Case (4)
42
S3VM (1)
43
S3VM (2) the majority (or even all) of the unlabeled instances are predicted in only one of the classes
44
S3VM (3) Convex function The S3VM objective function is non-convex
The research in S3VMs has focused on how to efficiently find a near-optimum solution
45
Logistic regression SVM and S3VM are non-probabilistic models
conditional log likelihood Gaussian distribution as the prior on w:
46
Logistic regression regularizer Logistic loss
The second line follows from Bayes rule, and ignoring the denominator that is constant with respect to the parameters.
47
Logistic regression
48
Entropy Regularizer Logistic Regression+Entropy Regulizer For SemiSupervised Learning Intuition if the two classes are well-separated, then the classification on any unlabeled instance should be confident: it either clearly belongs to the positive class, or to the negative class. Equivalently, the posterior probability p(y|x) should be either close to 1, or close to 0. Entropy
49
Semi-supervised Logistic Regression
entropy regularizer for logistic regression
50
Entropy Regularizer
51
فرض روش های S3VM و Entropy Regularization
Similar presentations
© 2025 SlidePlayer.com. Inc.
All rights reserved.