Download presentation
Presentation is loading. Please wait.
1
Chapter 4: Artificial Neural Networks
2
Artificial neural network(ANN)
General, practical method for learning real-valued, discrete-valued, vector-valued functions from examples BACPROPAGATION 알고리즘 Use gradient descent to tune network parameters to best fit a training set of input-output pairs ANN learning Training example의 error에 강하다. Interpreting visual scenes, speech recognition, learning robot control strategy
3
Biological motivation
생물학적인 뉴런과의 유사성 병렬 계산(parallel computing) 분산 표현(distributed representation) 생물학적인 뉴런과의 차이점 처리 단위(뉴런)의 출력
4
ALVINN system
5
신경망 학습에 적합한 문제 학습해야 하는 현상이 여러 가지 속성에 의해 표현되는 경우
출력 결과는 문제에 적당한 종류의 값을 가질 수 있다. 학습 예제에 에러(noise)가 존재할 가능성 긴 학습 시간 학습 결과의 신속한 적용 학습된 결과를 사람이 이해하는 것이 필요없는 경우
6
Perceptrons vector of real-valued input weights & threshold
learning: choosing values for the weights
7
Perceptron learning의 hypotheses space
n: input vector의 차수
8
Perceptron의 표현력 linearly separable example에 대한 hyperplane decision surface many boolean functions(XOR 제외) m-of-n function disjunctive normal form: 복수의 unit
9
Perceptron rule 유한번의 학습 후 올바른 가중치를 찾아내려면 충족되어야 할 사항
training example이 linearly separable 충분히 작은 learning rate
10
Gradient descent & Delta rule
for non-linearly separable unthresholded od 는 w에 대한 함수값
11
Hypethesis space
12
Gradient descent gradient: steepest increase in E
14
Gradient descent(cont’d)
Training example의 linearly separable 여부에 관계없이 하나의 global minimum을 찾는다. Learning rate가 큰 경우 overstepping의 문제 -> learning rate를 점진적으로 줄이는 방법을 사용하기도 한다.
15
Stochastic approximation to gradient descent
hypothesis space is continuously parameterized error가 hypothesis parameter에 의해 미분 가능해야 한다. Gradient descent의 단점 시간이 오래 걸린다. 다수의 local minima가 존재하는 경우
16
Stochastic approximation to gradient descent(cont’d)
하나의 training example을 적용해서 E를 구하고 바로 weight를 갱신한다. 실제의 descent gradient를 추측 보다 낮은 learning rate를 사용 multiple local minima를 피할 가능성이 있다. Delta rule
17
Remark Perceptron rule Delta rule thresholded output 정확한 weight
linearly separable Delta rule unthresholded output 점근적으로 에러를 최소화하는 weight non-linearly separable
18
Multilayer networks Nonlinear decision surface
19
Differential threshold unit
Sigmoid function nonlinear, differentiable
20
i j(h) k o1 o1 x1 x21 w12 w21 o2 o2 x2 x22 w22 w22 w23 x23 w32 o3 o3
net1 net1 x21 w12 w21 o2 o2 x2 x22 w22 net2 w22 net2 w23 x23 w32 o3 o3 x3 net3 net3
22
BACKPROPAGATION 알고리즘 새로운 error의 정의
23
BACKPROPAGATION 알고리즘(cont’d)
Multiple local minima Termination fixed number of iteration error threshold error of separate validation set
24
BACKPROPAGATION 알고리즘(cont’d)
Adding momentum 직전의 loop에서의 weight 갱신이 영향을 미침 Learning in arbitrary acyclic network downstream(r)
25
BACKPROPAGATION rule
26
BACKPROPAGATION rule(cont’d)
Training rule for output unit
27
i j(h) k o1 o1 x1 x21 w12 w21 o2 o2 x2 x22 w22 w22 w23 x23 w32 o3 o3
net1 net1 x21 w12 w21 o2 o2 x2 x22 w22 net2 w22 net2 w23 x23 w32 o3 o3 x3 net3 net3
28
BACKPROPAGATION rule(cont’d)
Training rule for hidden unit
30
Convergence and local minima
Only guarantee local minima This problem is not severe Algorithm is highly effective the more weights, the less local minima problem weight는 처음에 0에 가까운 값으로 초기화 해결책 momentum, stochastic, 복수의 network
31
Feedfoward network의 표현력
Boolean functions with two layers disjunctive normal form 하나의 입력에 하나의 hidden unit Continuous functions(bounded) Arbitrary functions with three layers linear combination of small functions
32
Hypothesis space search
continuous -> distinct보다 유용 Inductive bias characterize의 어려움 완만한 interpolation
33
Hidden layer representation
사람이 미리 정해 준 feature만을 사용하는 경우보다 유연하며 미리 알 수 없는 특성을 파악하는데 유용하다.
38
Generalization, overfitting, stopping criterion
Terminating condition error threshold는 위험 Generalization accuracy의 고려 Weight decay Validation data Cross-validation approach K-fold cross-validation
40
Face recognition for non-linearly separable unthresholded
od 는 w에 대한 함수값
41
2 layers, 3 units -> 90% success learned hidden units
Input image:120*128 ->30*32 계산상의 복잡도 감소 mean value(cf, ALVINN) 1-of-n output encoding many weights 모호성 해소에 도움 <0.9, 0.1, 0.1, 0.1> 2 layers, 3 units -> 90% success learned hidden units
42
Alternativce error functions
Weight-tuning rule에 새로운 제약조건을 첨가하기 위해 사용 Penalty term for weight magnitude reducing the risk of overfitting Derivative of target function Minimizing cross-entropy for probabilistic function Weight sharing speech recognition
44
Alternative error minimization procedures
Line search direction: same as backpropagation distance: minimum of the error function in this line very large or very small Conjugate gradient new direction: component of the error gradient remains zero
45
Recurrent networks
46
Dynamically modifying network structure
목적: 일반화의 정확도와 학습 효율의 향상 확장(without hidden unit) CASCADE-CORRELATION 학습 시간 단축, overfitting 문제 축소 “optimal brain damage” 학습 시간 단축
Similar presentations
© 2024 SlidePlayer.com. Inc.
All rights reserved.