Presentation is loading. Please wait.

Presentation is loading. Please wait.

دسته بندی نیمه نظارتی زهره کریمی

Similar presentations


Presentation on theme: "دسته بندی نیمه نظارتی زهره کریمی"— Presentation transcript:

1 دسته بندی نیمه نظارتی زهره کریمی
Introduction to semi-supervised Learning, Xiaojin Zhu and Andrew B. Goldberg, University of Wisconsin, Madison, 2009.

2 فهرست مطالب روش های یادگیری نیمه نظارتی مدل های Mixture و روش EM
روش Co-Training روش های مبتنی بر گراف روش های مبتنی بر SVM یادگیری نیمه نظارتی انسان تئوری

3 یادگیری نیمه نظارتی

4 انواع روش های یادگیری روش های بدون ناظر روش های مبتنی بر ناظر
نمونه آموزشی: داده های بدون برچسب روش های مبتنی بر ناظر تخمین کارایی با داده های تست روش های نیمه نظارتی توسعه روش های یادگیری مبتنی بر ناظر یا بدون ناظر

5 یادگیری نیمه نظارتی انواع روش های نیمه نظارتی دسته بندی نیمه نظارتی
خوشه بندی نیمه نظارتی مثال: دو نمونه خاص در یک دسته قرار می گیرند. رگرسیون با استفاده از داده های برچسب دار و بدون برچسب کاهش بعد با استفاده از داده های برچسب دار و بدون برچسب Semi-supervised classification. Also known as classification with labeled and unlabeled data (or partially labeled data) Constrained clustering. This is an extension to unsupervised clustering. The training data consists of unlabeled instances {xi }n j=1, as well as some “supervised information” about the clusters. regression with labeled and unlabeled data, dimensionality reduction with labeled instances whose reduced feature representation is given In can instance x is a speech utterance, and the label y is the corresponding transcript.For example, here are some detailed phonetic transcripts of words as they are spoken: 10 CHAPTER 2. OVERVIEWOF SEMI-SUPERVISEDLEARNING film⇒f ih_n uh_gl_n m be all⇒bcl b iy iy_tr ao_tr ao l_dl Accurate transcription by human expert annotators can be extremely time consuming: it took as long as 400 hours to transcribe 1 hour of speech at the phonetic level for the Switchboard telephone conversational speech data [71] (recordings of randomly paired participants discussing various topics such as social, economic, political, and environmental issues). • In natural language parsing, an instance x is a sentence, and the label y is the corresponding parse tree. An example parse tree for the Chinese sentence “The National Track and Field Championship has finished.” is shown below. The training data, consisting of (sentence, parse tree) pairs, is known as a treebank. Treebanks are time consuming to construct, and require the expertise of linguists: For a mere 4000 sentences in the Penn Chinese Treebank, experts took two years to manually create the corresponding parse trees. • In spam filtering, an instance x is an , and the label y is the user’s judgment (spam or ham). In this situation, the bottleneck is an average user’s patience to label a large number of s. • In video surveillance, an instance x is a video frame, and the label y is the identity of the object in the video. Manually labeling the objects in a large number of surveillance video frames is tedious and time consuming. • In protein 3D structure prediction, an instance x is a DNA sequence, and the label y is the 3D protein folding structure. It can take months of expensive laboratory work by expert crystallographers to identify the 3D structure of a single protein.

6 انگیزه استفاده از یادگیری نیمه نظارتی (1)
دلیل عملی داده بدون برچسب به تعداد زیاد و با هزینه کم در دسترس است کاربردها تشخیص گفتار پردازش زبان طبیعی نظارت ویدئویی پیشگویی ساختار سه بعدی پروتئین فیلتر کردن هرزنامه ها فراهم کردن مدل محاسباتی در خصوص نحوه یادگیری انسان instance x is a DNA sequence, the label y is the 3D protein structure.

7 چگونه یادگیری نیمه نظارتی ممکن است؟
At first glance, it might seem paradoxical that one can learn anything about a predictor f : X → Y from unlabeled data. After all, f is about the mapping from instance x to label y, yet unlabeled data does not provide any examples of such a mapping. The answer lies in the assumptions one makes about the link between the distribution of unlabeled data P(x) and the target label. Figure 2.1 shows a simple example of semi-supervised learning. Let each instance be represented by a one-dimensional feature x ∈ R. There are two classes: positive and negative. Consider the following two scenarios: 1. In supervised learning, we are given only two labeled training instances (x1, y1) = (−1,−) and (x2, y2) = (1,+), shown as the red and blue symbols in the figure, respectively. The best estimate of the decision boundary is obviously x = 0: all instances with x < 0 should be classified as y = −, while those with x ≥ 0 as y = +. 2. In addition, we are also given a large number of unlabeled instances, shown as green dots in the figure. The correct class labels for these unlabeled examples are unknown. However, we observe that they form two groups. Under the assumption that instances in each class form a coherent group (e.g., p(x|y) is a Gaussian distribution, such that the instances from each class center around a central mean), this unlabeled data gives us more information. Specifically, it seems that the two labeled instances are not the most prototypical examples for the classes. Our semi-supervised estimate of the decision boundary should be between the two groups instead, at x ≈ 0.4. If our assumption is true, then using both labeled and unlabeled data gives us a more reliable estimate of the decision boundary. Intuitively, the distribution of unlabeled data helps to identify regions with the same label, and the few labeled data then provide the actual labels. In this book, we will introduce a few other commonly used semi-supervised learning assumptions.

8 انواع روش های یادگیری نیمه نظارتی
روش های Inductive پیشگویی برچسب نمونه هایی که تاکنون مشاهده نشده اند؛ امتحان کلاسی روش های Transductive پیشگویی بر چسب نمونه هایی که در مجموعه آموزش بکار رفته اند؛ امتحان take-home There are actually two slightly different semi-supervised learning settings, namely inductive and transductive semi-supervised learning. Recall that in supervised classification, the training sample is fully labeled, so one is always interested in the performance on future test data. In semi-supervised classification, however, the training sample contains some unlabeled data. Therefore, there are two distinct goals. One is to predict the labels on future test data.The other goal is to predict the labels on the unlabeled instances in the training sample.We call the former inductive semi-supervised learning, and the latter transductive learning. Definition 2.1. Inductive semi-supervised learning. Given a training sample {(xi, yi)}l i=1, {xj }l+u j=l+1, inductive semi-supervised learning learns a function f : X → Y so that f is expected to be a good predictor on future data, beyond {xj }l+u j=l+1. Like in supervised learning, one can estimate the performance on future data by using a separate test sample {(xk, yk)}m k=1, which is not available during training. Definition 2.2. Transductive learning. Given a training sample {(xi, yi)}l i=1, {xj }l+u j=l+1, transductive learning trains a function f : Xl+u → Yl+u so that f is expected to be a good predictor on the unlabeled data {xj }l+u j=l+1. Note f is defined only on the given training sample, and is not required to make predictions outside. It is therefore a simpler function. There is an interesting analogy: inductive semi-supervised learning is like an in-class exam, where the questions are not known in advance, and a student needs to prepare for all possible questions; in contrast, transductive learning is like a take-home exam, where the student knows the exam questions and needs not prepare beyond those.

9 نکته مهم در نظرگرفتن فرضیاتی در مورد ارتباط توزیع حاشیه ای P(x) و توزیع شرطی P(y|x) ارتباط مستقیم کارایی به صحت فرض در نظرگرفته شده

10

11 Self-training/ Bootstrapping
از پیشگویی های خود برای آموزش خود استفاده می کند

12 Self-training models (2)
مزایا سادگی عدم وابستگی به مدل دسته بندی اشکال تقویت اشتباه در مراحل یادگیری حساس به Outlier فرض: پیشگویی دسته بندی کننده با اطمینان بالایی صحیح است. The self-training procedure “wraps” around the learner without changing its inner workings. This is important for many real world tasks like natural language processing, where the learners can be complicated black boxes not amenable to changes.

13 Self-training models (3)

14 Self-training models (4)

15 روش های یادگیری نیمه نظارتی
مدل های Mixture و روش EM روش Co-Training روش های مبتنی بر گراف روش های مبتنی بر SVM یادگیری نیمه نظارتی انسان تئوری

16 Mixture Model جمع وزن دار چند تابع چگالی احتمال

17 Mixture models داده بدون برچسب حاوی اطلاعاتی در مورد نحوه ترکیب داده های دسته های گوناگون است. با دانستن نحوه توزیع داده های هر دسته، می توان آن ها را از یکدیگر جدا کرد. پارامترهایی را انتخاب می کنیم که احتمال تولید این داده های آموزشی را از مدل پیشنهادی بیشینه کنیم Suppose we know that the data comes from two Gaussian distributions, but we do not know their parameters (the mean, variance, and prior probabilities, which we will define soon).We can use the data (labeled and unlabeled) to estimate these parameters for both distributions. Note that, in this example, the labeled data is actually misleading: the labeled instances are both to the right of the means of the true distributions. The unlabeled data, however, helps us to identify the means of the two Gaussian distribution. Computationally, we select parameters to maximize the probability of generating such training data from the proposed model. In particular, the training samples are more likely if the means of the Gaussians are centered over the unlabeled data, rather than shifted to the right over the labeled data.

18 رویکرد احتمالاتی به دنبال برچسبی است که احتمال شرطی P(y|x) را بیشینه کند.
محاسبه احتمال شرطی با مدل مولد با استفاده از قانون بیز

19 مدل های مولد گام های تولید زوج نمونه-برچسب های i.i.d در مدل مولد
نمونه برداری y~P(y). نمونه برداری x~P(x|y) از y انتخاب شده در گام 1 نمونه های رایج مدل های مولد Gaussian Mixture Model Multinomial Mixture Model Hidden Markov Model

20 مدل های مولد مجهولات پارامترهای مدل (مثلا میانگین و کوواریانس در توزیع گوسی) احتمال هر دسته تخمین بیشینه درست نمایی

21 مدل های Mixture در یادگیری بانظارت
اغلب راه حل تحلیلی برای حل این مسئله وجود دارد

22 مثال: MLE برای مدل Mixture گوسی در یادگیری باناظر

23

24 مدل هایMixture در دسته بندی نیمه نظارتی
احتمال حاشیه ای وجود متغیرهای مخفی باعث می شود راه حل تحلیلی برای حل MLE در دسته بندی نیمه نظارتی وجود نداشته و حل مسئله بهینه سازی مشکل باشد.

25 بهینه سازی با استفاده از الگوریتم EM

26 الگوریتم EM گام E: برچسب گذاری soft با توجه به مدل کنونی

27 الگوریتم EM گام M:

28 الگوریتم EM روشی برای یافتن بهینه محلی حساس به مقدار اولیه
ایده آن شبیه الگوریتم K-means فرم خاصی از خودآموزی

29 نمونه ای از EM

30 فرضیات مدل هایMixture داده واقعا بر اساس mixture model است یعنی تعداد مولفه ها و p(x|y) صحیح است.

31 فرضیات مدل هایMixture

32 فرضیات مدل هایMixture

33 فرضیات مدل هایMixture

34 فرضیات مدل هایMixture راه های بهبود تصحیح مدل با استفاده از دانش دامنه
اهمیت کمتر به داده های بدون برچسب در صورت عدم قطعیت در مورد مدل

35 سایر مسائل در مدل های Generative
بهینه محلی شروع تصادفی انتخاب شروع اولیه بهتر بر اساس دانش مسئله قابل شناسایی بودن مدل (Identifiable) یک مدل واحد وجود دارد که داده های بدون برچسب مشاهده شده را توضیح می دهد

36 قابل شناسایی بودن مدل P(x|y) یکنواخت P(x) یکنواخت در [0,1]
داده های برچسب دار برچسب x=0.5؟

37 روش Cluster-then-label
دسته بندی نیمه نظارتی با استفاده از روش های خوشه بندی بدون نظارت شهود: داده های بدون برچسب می توانند خوشه های موجود در داده را مشخص کنند

38 روش Cluster-then-label
خوشه بندی linkage single با فاصله اقلیدسی با دسته بندی رای اکثریت خوشه ها منطبق با برچسب گذاری صحیح داده هستند. Complete linkage: the distance between two clusters is computed as the maximum distance between a pair of objects, one in one cluster, and one in the other single linkage: nearest neighbour or shortest distance is a method of calculating distances between clusters in hierarchical clustering

39 روش Cluster-then-label
خوشه بندی complete linkage خوشه ها با مرزهای تصمیم تلاقی دارند. Complete linkage: the distance between two clusters is computed as the maximum distance between a pair of objects, one in one cluster, and one in the other single linkage: nearest neighbour or shortest distance is a method of calculating distances between clusters in hierarchical clustering

40 روش های یادگیری نیمه نظارتی
مدل های Mixture و روش EM روش Co-Training روش های مبتنی بر گراف روش های مبتنی بر SVM یادگیری نیمه نظارتی انسان تئوری

41 دو view دسته بندی named entity با دو ویژگی مجزا می تواند بازنمایی شود.
داده های برچسب دار داده های تست

42 Co-Training دسته بندی Named entity نمونه های برچسب دار
نمونه های بدون برچسب داده های آموزشی

43 Co-Training Named entity Classification Location

44 Co-Training Named entity Classification Location Location

45 Co-Training Named entity Classification Location Location

46 Co-TRAINING دسته بندی Named entity Location Location Person

47 Co-Training دو دسته بندی کننده را یاد می گیرد: هر دسته بندی کننده روی یک دید نمونه هایی را که در یک مدل دسته بندی با اطمینان بالا دسته بندی شده اند به داده های آموزش مدل دسته بندی دیگر اضافه می کند.

48 Co-Training فرضیات هر view به تنهایی برای دسته بندی کافی باشد
Why is the conditional independence assumption important for Co-Training? If the view-2 classifier f (2) decides that the context “headquartered in” indicates Location with high confidence, Co-Training will add unlabeled instances with that context as view-1 training examples. These new training examples for f (1) will include all representative Location named entities x(1), thanks to the conditional independence assumption. If the assumption didn’t hold, the new examples could all be highly similar and thus be less informative for the view-1 classifier. It can be shown that if the two assumptions hold, Co-Training can learn successfully from labeled and unlabeled data. However, it is actually difficult to find tasks in practice that completely satisfy the conditional independence assumption. After all, the context “Prime Minister of ” practically rules out most locations except countries. When the conditional independence assumption is violated,Co-Training may not perform well. If the conditional independence assumption holds, then on average each added document will be as informative as a random document, and the learning will progress.

49 Co-Training چرا استقلال شرطی؟
فرکانس مشاهده Named Entity های {Washington State, China, Kazakhstan ,…} با داشتن y=‘Location’ فرکانس مشاهده همان Named Entity ها با داشتن headquartered در دید 2 در صورت برقراری فرض، نمونه های آموزشی جدید اضافه شده به دسته بندی دید 1 به اندازه کافی informative هستند. جهت برقراری فرض باید به عنوان نمونه headquartered in متمایل به Location خاصی نباشد.

50 Co-Training کاربردها توسعه های الگوریتم Web-page classification
متن صفحه: کلمات رخ داده در صفحه متن hyperlink: کلمات رخ داده در hyperlink ها به صفحه مورد نظر Classify Speech phonemes سیگنال Audio سیگنال video نمایش دهنده حرکت لب ها توسعه های الگوریتم Co-EM Multi-view learning

51 تعاریف The squared loss c(x, y, f (x)) = (y − f (x))2 0/1 loss
c(x, y, f (x)) = 0 if y = f (x), and 1 otherwise c(x, y = healthy, f (x) = diseased) = 1 and c(x, y = diseased, f (x) = healthy) = 100

52 تعاریف اصل Emprical Risk Minimization (ERM)

53 تعاریف بیان دیگری از اصل Regularized Risk Minimization (ERM)
Regularizer در یادگیری نیمه نظارتی

54 Multiview Learning هدف تولید k مدل بر اساس k دید است
The semi-supervised regularizer: میزان عدم توافق k مدل را روی داده های بدون برچسب اندازه گیری می کند Individual Regularized Risk Semi-Supervised regularizer

55 Multiview learning(4) فرض: یادگیری Multiview زمانی کارا است که مجموعه فرضیه های با یکدیگر موافق باشند. علاوه بر آن چنین مجموعه های موافق زیادی وجود نداشته باشد و مجموعه های موافق ریسک تجربی کمی داشته باشند. فرض بر این است که این دیدها با یکدیگر توافق داشته باشند (semi supervised regularization term) اما این شرط به تنهایی کافی نیست ...

56 روش های یادگیری نیمه نظارتی
مدل های Mixture و روش EM روش Co-Training روش های مبتنی بر گراف روش های مبتنی بر SVM یادگیری نیمه نظارتی انسان تئوری


Download ppt "دسته بندی نیمه نظارتی زهره کریمی"

Similar presentations


Ads by Google