Retele cu functii de baza radiale (retele RBF) Arhitectura si functionare Puterea de reprezentare Algoritmi de invatare Retele neuronale - curs 8
Arhitectura si functionare RBF - “Radial Basis Function”: Arhitectura: Doua nivele de unitati functionale Functii de agregare: Unitati ascunse: distanta dintre vectorul de intrare si cel al ponderilor corespunzatoare unitatii ascunse Unitati de iesire: suma ponderata N K M C W centri ponderi OBS: unitatile ascunse nu au asociat prag de activare Retele neuronale - curs 8
Retele neuronale - curs 8 Functii de activare Functiile de activare pentru unitatile ascunse au simetrie radiala: Unitatile ascunse genereaza un semnal de iesire semnificativ doar pentru vectori de intrare suficient de apropiati de centrii corespunzatori Functia de activare pentru unitatile de iesire este de regula o functie liniara N K M C W centers weights Retele neuronale - curs 8
Functii cu simetrie radiala Exemple: g3 (σ=1) g2 (σ=1) Obs: parametrul σ controleaza largimea graficului g1 (σ=1) Retele neuronale - curs 8
Retele neuronale - curs 8 Functionare Calculul semnalului de iesire: N K M C W Centers matrix Weight matrix Vectorii Ck pot fi interpretati ca prototipuri ale datelor de intrare; - doar vectorii de intrare similari cu vectorul de ponderi asociat unitatii ascunse poate activa unitatea ascunsa corespunzatoare - pentru un vector de intrare dat, semnalul produs de retea este determinat de catre unitatile ascunse al caror centru este suficient de apropiat de vectorul de intrare Retele neuronale - curs 8
Retele neuronale - curs 8 Functionare Fiecare unitate ascunsa este “sensibila” la semnalele de intrare provenite dintr-o regiune a spatiului de intrare aflata in vecinatatea centrului. Aceasta regiune este denumita camp receptiv Dimensiunea campului receptiv depinde de σ 2σ σ =1.5 σ =1 σ =0.5 Retele neuronale - curs 8
Retele neuronale - curs 8 Functionare Campurile receptive ale unitatilor ascunse trebuie sa asigure o “acoperire” a spatiului de intrare O buna acoperire a spatiului de intrare asigura o buna capacitate de aproximare Valori prea mici sau prea mari ale largimii functiilor radiale conduc la acoperiri inadecvate acoperire adecvata supraacoperire subacoperire Retele neuronale - curs 8
Putere de reprezentare Exemple (caz particular) : retea RBF pentru reprezentarea lui XOR 2 unitati de intrare 4 unitati ascunse 1 unitate de iesire Centrii: u.a. 1: (0,0) u.a. 2: (1,0) u.a. 3: (0,1) u.a. 4: (1,1) Ponderi: w1: 0 w2: 1 w3: 1 w4: 0 1 1 Functie de activare: g(u)=1 if u=0 g(u)=0 if u<>0 Aceasta abordare nu poate fi aplicata pentru probleme generale de aproximare Retele neuronale - curs 8
Putere de reprezentare Retelele RBF sunt aproximatori universali: o retea cu N intrari si M iesiri poate aproxima orice functie definita pe RN, cu valori in RM, cu o acuratete care depinde de numarul de unitati ascunse Suportul teoretic al retelelor RBF este reprezentat de: Teoria aproximarii Teoria regularizarii (determinarea atat a functiilor de baza (nucleu) cat si a parametrilor acestora astfel incat sa fie optimizata eroarea si un termen de regularizare care se refera la proprietati ale functiilor de baza – de exemplu netezime). Retele neuronale - curs 8
Retele neuronale - curs 8 Aplicabilite Retelele RBF sunt aplicate pentru clase de probleme similare celor pentru care sunt aplicate retelele feef-forward cu functii sigmoidale: Aproximare Clasificare Predictie Retele neuronale - curs 8
Retele neuronale - curs 8 Antrenare Parametri adaptivi: Centrii (prototipurile) corespunzatoare unitatilor ascunse Largimile campurilor receptive (parametrii functiilor de activare cu simetrie radiala) Ponderile asociate conexiunilor dintre nivelul ascuns si cel de iesire Variante de antrenare: Antrenarea simultana a tuturor parametrilor (similara algoritmului BackPropagation – doar regulile de ajustare ale centrilor se modifica) Obs: aceleasi dezavantaje ale algoritmului BackPropagation Antrenare separata a parametrilor: centri, largimi, ponderi Retele neuronale - curs 8
Retele neuronale - curs 8 Antrenare Antrenare separata : Set de antrenare: {(x1,d1), …, (xL,dL)} 1. Estimarea centrilor K=L (nr de centri = nr de exemple), Ck=xk (vezi exemplul cu XOR) K<L : centri sunt stabiliti prin selectie aleatoare din setul de antrenare selectie sistematica din setul de antrenare (Orthogonal Least Squares - metoda celor mai mici patrate ortogonale) utilizand o metoda de grupare Retele neuronale - curs 8
Retele neuronale - curs 8 Antrenare Orthogonal Least Squares: Selectie incrementala a centrilor astfel incat eroarea sa fie minimizata cat mai mult Noul centru este ale astfel incat sa fie ortogonal pe spatiul gnerat de catre centrii selectati (procesul este bazat pe metoda de ortogonalizare Gram-Schmidt) Abordarea este corelata cu regresia de tip “ridge” Retele neuronale - curs 8
Retele neuronale - curs 8 Antrenare Grupare (clustering): Se urmareste identificarea a K clase in setul de date de antrenare {X1,…,XL} astfel incat datele din fiecare clasa sa fie suficient de similare pe cand datele din clase diferite sa fie suficient de diferite Fiecare clasa va avea un reprezentant (e.g. media datelor din clasa) care va fi considerat centrul clasei Algoritmii pentru determinarea reprezentantilor clasei sunt cunoscuti sub numele de algoritmi partitionali (realizeaza o partitionare a spatiului de intrare) Algoritm clasic: K-means Retele neuronale - curs 8
Retele neuronale - curs 8 Antrenare K-means: Se porneste de la centri initializati aleator Proces iterativ: Se asigneaza datele la clase folosind criteriul distantei minime (sau a celui mai apropiat centru) Se recalculeaza centrii ca fiind medii ale elementelor asignate fiecarei clase Retele neuronale - curs 8
Retele neuronale - curs 8 Antrenare K-means: Ck:=(rand(min,max),…,rand(min,max)), k=1..K REPEAT FOR l:=1,L Determina k(l) astfel incat d(Xl,Ck(l)) <=d(Xl,Ck) Asigneaza Xl clasei k(l) Calculeaza Ck: = media elementelor ce au fost asignate clasei k UNTIL “nu s-au mai efectuat modificari ale centrilor” Obs: Centrii nu sunt de regula vectori din setul de antrenare Numarul de clase trebuie cunoscut de la inceput. Retele neuronale - curs 8
Retele neuronale - curs 8 Antrenare Varianta incrementala: Se porneste cu un numar mic de centri initializati aleator Se parcurge setul de antrenare: Daca exista un centru suficient de similar cu data de intrare atunci componentele centrului respectiv se modifica pentru a asigura asimilarea datei de intrare in clasa aferenta centrului. Daca data de intrare este diferita de toti centrii atunci este adaugat un nou centru (unitate ascunsa) care este initializat chiar cu data de intrare analizata. Retele neuronale - curs 8
Retele neuronale - curs 8 Antrenare Varianta incrementala: Retele neuronale - curs 8
Retele neuronale - curs 8 Antrenare Estimarea largimilor campurilor receptive. Reguli euristice: Retele neuronale - curs 8
Retele neuronale - curs 8 Antrenare Estimarea ponderilor conexiunilor dintre nivelul ascuns si cel de iesire: Problema este echivalenta cu cea a antrenarii unei retele cu un singur nivel de unitati functionale liniare Variante: Aplicarea unor instrumente din algebra liniara Aplicarea algoritmului Widrow-Hoff Retele neuronale - curs 8
Retele neuronale - curs 8 Retele RBF vs. retele BP Retele BP: Mai multe nivele ascunse Functii de agregare bazate pe suma ponderata Functii de activare sigmoidale (pt. nivelul ascuns) Unitati de iesire liniare sau neliniare Antrenare simultana a parametrilor adaptivi Similare cu tehnicile de aproximare globala Retele RBF: 1 nivel ascuns Functii de agregare bazate pe distante (pt. nivelul ascuns) Functii de activare cu simetrie radiala (pt. nivelul ascuns) Unitati de iesire cu functie liniara Antrenare separata a parametrilor adaptivi Similare cu tehnicile de aproximare locala Retele neuronale - curs 8