Presentation is loading. Please wait.

Presentation is loading. Please wait.

دسته بندی نیمه نظارتی زهره کریمی

Similar presentations


Presentation on theme: "دسته بندی نیمه نظارتی زهره کریمی"— Presentation transcript:

1 دسته بندی نیمه نظارتی زهره کریمی
Introduction to semi-supervised Learning, Xiaojin Zhu and Andrew B. Goldberg, University of Wisconsin, Madison, 2009.

2 روش های یادگیری نیمه نظارتی
مدل های Mixture و روش EM روش Co-Training روش های مبتنی بر گراف روش های مبتنی بر SVM یادگیری نیمه نظارتی انسان تئوری

3 شهودی از نحوه بکارگیری داده های بدون برچسب در مدل های مبتنی بر گراف (1)
مقالاتی در دو موضوعAstronomy و Travel داریم و فقط می دانیم موضوع مقاله با عنوان ”Bright asteroid“،astronomy و موضوع مقاله با عنوان ”Yellowstone camping“، Travel است. هدف، مشخص کردن موضوع سایر مقالات است.

4 شهودی از نحوه بکارگیری داده های بدون برچسب در مدل های مبتنی بر گراف (2)

5 دسته بندی نیمه نظارتی مبتنی بر گراف (1)
نمونه های برچسب دار و بدون برچسب متناظر با راس های گراف هستند شباهت بین هر دو نمونه متناظر با وزن یال بین دو راس ارائه می شود. هر چه وزن یال ها بیشتر باشد احتمال می رود برچسب راس های آن یکسان باشد انواع گراف گراف متصل کامل گراف kNN گراف NN Fully connected graph, where every pair of vertices xi , xj is connected by an edge. The edge weight decreases as the Euclidean distance xi − xj increases. One popular weight function is wij = exp−xi − xj 2 2σ2 , (5.1) where σ is known as the bandwidth parameter and controls how quickly the weight decreases. This weight has the same form as a Gaussian function. It is also called a Gaussian kernel or a Radial Basis Function (RBF) kernel. The weight is 1 when xi = xj , and 0 when xi − xj approaches infinity. • kNN graph. Each vertex defines its k nearest neighbor vertices in Euclidean distance. Note if xi is among xj ’s kNN, the reverse is not necessarily true: xj may not be among xi ’s kNN. We connect xi , xj if one of them is among the other’s kNN. This means that a vertex may have more than k edges. If xi , xj are connected, the edge weight wij is either the constant 1, in which case the graph is said to be unweighted, or a function of the distance as in (5.1). If xi , xj are not connected,wij = 0. kNN graph automatically adapts to the density of instances in feature space: in a dense region, the kNN neighborhood radius will be small; in a sparse region, the radius will be large. Empirically, kNN graphs with small k tends to perform well. • NN graph. We connect xi , xj if xi − xj ≤ . The edges can either be unweighted or weighted. If xi , xj are not connected, wij = 0. NN graphs are easier to construct than kNN graphs.

6 دسته بندی نیمه نظارتی مبتنی بر گراف (2)
روی گراف x3 به x1 نزدیکتر است تا x2.

7 Regularization Frame work
loss function f روی کل گراف هموار باشد (با توجه به regularization framework) special graph-based regularization Formally, this intuition corresponds to estimating a label function f on the graph so that it satisfies two things: (1) the prediction f (x) is close to the given label y on labeled vertices; 2) f should be smooth on the whole graph. This can be expressed in a regularization framework, where the former is encoded by the loss function, and the latter is encoded by a special graph-based regularization.

8 الگوریتم های دسته بندی نیمه نظارتی روی گراف
Mincut Harmonic Function Manifold Regularization

9 Mincut (1) نمونه های با برچسب مثبت معادل راس های source
نمونه های با برچسب مثبت معادل راس های sink هدف، یافتن مجموعه کمینه ای از یال ها است که source را از sink جدا می کند، یعنی کمینه کردن cut size

10 Mincut (2) 1 3 5 4 2

11 Mincut (3) Cost Function Regularizer Mincut Regularized Risk problem s

12 Mincut (4) الگوریتم های با زمان چندجمله ای برای حل آن وجود دارد.
این الگوریتم Transductive است. نقص آن در بدست آوردن چند جواب به یک اندازه مناسب است. تعداد برچسب های مثبت ومنفی هر راس در کل جواب ها بیانگر میزان اطمینان ما نسبت به آن برچسب است. s

13 Harmonic Function (1) تابع هارمونیک مسئله بهینه سازی مربوطه
راه حل غیرتکراری برای حل آن وجود دارد که بهینه سراسری است.

14 تفاسیر تابع هارمونیک ولتاژ برقرار شده در هر راس در شبکه الکتریکی
ولتاژ برقرار شده در هر راس در شبکه الکتریکی احتمال رسیدن هر نقطه به راس برچسب دار در Absorbing Random Walk >= 0, predict y = 1, and if f (x) < 0, predict y = −1). The harmonic function f has many interesting interpretations. For example, one can view the graph as an electric network. Each edge is a resistor with resistance 1/wij ,or equivalently conductance wij . The labeled vertices are connected to a 1-volt battery, so that the positive vertices connect to the positive side, and the negative vertices connect to the ground. Then the voltage established at each node is the harmonic function,1 see Figure 5.3(a). The harmonic function f can also be interpreted by a random walk on the graph. Imagine a particle at vertex i. In the next time step, the particle will randomly move to another vertex j with probability proportional to wij : graph as an electric network.Each edge is a resistor with resistance 1/wij ,or equivalently conductance The random walk continues in this fashion until the particle reaches one of the labeled vertices. This is known as an absorbing random walk, where the labeled vertices are absorbing states. Then the value of the harmonic function at vertex i, f (xi), is the probability that a particle starting at vertex i eventually reaches a positive labeled vertex

15 تابع هارمونیک (ادامه) راه حل مسئله بهینه سازی مربوطه راه حل تکراری
راه حل بسته

16 تابع هارمونیک (ادامه) Example: Chain Graph

17 Manifold Regularization (1)
چالش های روش های موجود مبتنی بر گراف Transductive بودن فقط امکان برچسب گذاری داده های بدون برچسب موجود حساس بودن به نویز فرض f (x) = y برای داده های برچسب دار

18 Manifold Regularization (2)
Inductive بودن پایدار بودن در محیط های نویزی

19 Manifold Regularization (3)
مسئله بهینه سازی انواع ماتریس لاپلاسین لاپلاسین نرمال توان هایی از ماتریس Laplacian نرمال و غیرنرمال

20 Manifold Regularization (4)
حل مسئله بهینه سازی در MR الگوریتم های مربوطه LapRLS LapSVM

21 فرض روش های مبتنی بر گراف (1)
برچسب ها با توجه به گراف هموار هستند. یعنی اگر دو نمونه با لبه ای با وزن زیاد به یکدیگر متصل شده باشند به احتمال ریاد برچسب یکسان دارند. فرض هموار بودن با استفاده از Spectral Graph Theory به صورت دقیق تر بیان می شود.

22 فرض روش های مبتنی بر گراف (2)
ویژگی های ماتریس لاپلاسین غیرنرمال l+uمقدار ویژه و بردارهای ویژه مرتبط را دارد ( برخی از آن ها ممکن است یکسان باشند). این زوج طیف گراف نامیده می شود. بردارهای ویژه متعامد هستند. ماتریس لاپلاسین می تواند به جمع وزن دار ضرب های خارجی تجزیه شود: مقادیر ویژه اعداد حقیقی نامنفی هستند و می توانند به صورت زیر مرتب شوند: گراف k مولفه متصل دارد اگر و فقط اگر بردارهای ویژه مرتبط روی مولفه های متصل خاص ثابت هستند و برای سایر راس ها صفر هستند. In particular, the graph has k connected components if and only if λ1 = = λk = 0. The corresponding eigenvectors are constant on individual connected components, and zero elsewhere, as the following example shows.

23 Graph Spectrum Unweighted graphs are just the special case where all the weights are 0 or 1

24 فرض روش های مبتنی بر گراف (3)
Regularization term در روش های مبتنی بر گراف در صورتی که از مقادیر ویژه کوچک یا ضرایب کوچک استفاده کند کمینه خواهد بود. f تمایل دارد با استفاده از بردارهای پایه هموارتر بیان شود. از آن جا که بردارهای ویژه متعامد و با طول واحد هستند بردار های پایه ر ا در فضای l+u بعدی ارائه می کنند.

25 فرض روش های مبتنی بر گراف (5)
کارایی حساس به ساختار گراف و وزن ها Wheights are based on RBF kernel فرض smoothness در گراف ایجاد شده برقرار نیست To handle this dataset properly and obtain all correct predictions, the graph would need to split the data into two disconnected components. One approach to building such a graph is to examine the local neighborhood around each instance and only connect instances whose neighborhoods have similar shapes: neighborhoods along the same curve would look similar with only a minor rotation, This chapter introduced the notion of using a graph over labeled and unlabeled data to perform semi-supervised learning.We discussed several algorithms that share the intuition that the predictions should be smooth with respect to this graph.We introduced some notions from spectral graph theory to justify this approach,and illustrated what can gowrong if the graph is not constructed carefully. In the next chapter, we discuss semi-supervised support vector machines, which make a very different assumption about the space containing the data.

26 روش های یادگیری نیمه نظارتی
مدل های Mixture و روش EM روش Co-Training روش های مبتنی بر گراف روش های مبتنی بر SVM یادگیری نیمه نظارتی انسان تئوری

27 شهود فاصله از مرز تصمیم تا نزدیکترین نقطه برچسب دار : geometric margin.

28 Support Vector Machines
Consider two points xA and xB both of which lie on the decision surface. Because y(xA) = y(xB) = 0, we have wT(xA−xB) = 0 and hence the vector w is orthogonal to every vector lying within the decision surface, and sow determines the orientation of the decision surface. Similarly, if x is a point on the decision surface, then y(x) = 0, and so the normal distance from the origin to the decision surface is given by Multiplying both sides of this result bywT and adding w0, and making use of y(x) = wTx + w0 and y(x⊥) = wTx⊥ + w0 = 0, we have

29 Support Vector Machines
فاصله علامتدار یک نمونه برچسب دار را تا مرز تصمیم این فاصله علامتدار مثبت است اگر نمونه مثبت در سمت مثبت یا نمونه منفی در شمت منفی باشد مسئله بهینه سازی برای یافتن مرز تصمیم با فرض اینکه نمونه ها به صورت خطی جداپذیر هستند

30 Support Vector Machines
می توان پارامترهای مسئله را به صورت دلخواه scale کرد. برای حذف آن محدودیت زیر را اضافه می کنیم به عبارت دیگر فرم دیگر مسئله بهینه سازی

31 SVM نمونه های خطی جدایی پذیر نمونه های غیرخطی جدایی پذیر

32 Non-Separable Case (3)

33 Hing Loss

34 نمونه های غیر خطی جدایی پذیر
نمونه در داخل Margin قرار گرفته اما در سمت صحیح آن باشد نمونه ای که در سمت اشتباه مرز تصمیم قرار گیرد نمونه ای که درست دسته بندی شده است

35 S3VM (1)

36 S3VM (2) در بسیاری اوقات اغلب یا حتی تمام نمونه های بدون برچسب در یک دسته قرار می گیرند

37 S3VM (3) تابع محدب تابع هدف S3VM محدب نیست

38 Logistic regression SVM and S3VM are non-probabilistic models
Gaussian distribution as the prior on w: SVMs and S3VMs are non-probabilistic models. That is, they are not designed to compute the label posterior probability p(y|x) when making classification. In statistical machine learning, there are many probabilistic models which compute p(y|x) from labeled training data for classification.

39 Logistic regression maximize the posterior of the parameters:
The second line follows from Bayes rule, and ignoring the denominator that is constant with respect to the parameters.

40 اثبات خط سوم محاسبات اسلاید قبل

41 Logistic regression regularizer Logistic loss
The second line follows from Bayes rule, and ignoring the denominator that is constant with respect to the parameters.

42 Logistic regression

43 دسته بندی نیمه نظارتی با Logistic Regression و Entropy Regulizer
شهود اگر دو دسته به خوبی از یکدیگر جدا شده باشند سپس دسته بندی روی داده های بدون برچسب confidence بالایی دارد:برچسب واقعی داده مثبت باشد یا منفی . به بیان دیگر P(y|x) باید نزدیک به صفر یا نزدیک به 1 باشد تابع Entropy We can include unlabeled data based on the following intuition: if the two classes are well-separated, then the classification on any unlabeled instance should be confident: it either clearly belongs to the positive class, or to the negative class. Equivalently, the posterior probability p(y|x) should be either close to 1, or close to 0.

44 Semi-supervised Logistic Regression
entropy regularizer for logistic regression

45 Entropy Regularizer

46 فرض S3VM و Entropy Regularization

47 زمینه های پژوهشی در یادگیری نیمه نظارتی
Constrained clustering, which is unsupervised learning with some supervision semi-supervised Regression learning in structured output spaces, where the labels y are more complex than scalar values (e.g., sequences, graphs, etc.) Expectation Regularization Self-taught learning and the universum, where the unlabeled data may not come from the positive or negative classes; Advances in learning theory for semi-supervised learning

48 زمینه های پژوهشی در یادگیری نیمه نظارتی(ادامه)
Learning frompositive and unlabeled data, when there is no negative labeled data Model selection with unlabeled data and feature selection Multi-instance learning , multi-task learning and deep learning, Active Leaning ;


Download ppt "دسته بندی نیمه نظارتی زهره کریمی"

Similar presentations


Ads by Google