Download presentation
Presentation is loading. Please wait.
Published byAdam Jenkins Modified over 11 years ago
1
K-armed Bandit Livio Torrero,Olivier Morandi, Pierluigi Rolando,Riccardo Giacomelli
2
K-armed Bandit K slot machines stocastiche (Gaussian) Mean reward Standard deviation 2000 actions per apprendere quale sia la slot machine migliore Come fare?
3
K-armed Bandit Strategie Greedy Scelgo strategia migliore stimata con probabilità Scelgo una strategia tra le altre con probabilità uniforme con probabilità
4
Test-1 Mean rewards statici (Gaussian) Varianza=1 Stima del reward:
5
Test-1
7
Test-2b (varianza=0)
8
Test-2a (varianza=10)
9
Test-3 Stima del reward
10
Test-3a (LR=0.9,variance=0)
11
Test-3b (LR=0.9,variance=10)
12
Test-4 Stima del reward Allazione numero 300: I valori dei rewards cambiano
13
Test-4a, (step=0.05)
14
Test-4a (LR=0.1)
15
Test-4a (LR=0.5)
16
Test-4a (LR=0.9)
17
Test-4b (step=0.1)
18
Test-4b (LR=0.1)
19
Test-4c (immediate)
20
Test-4b (LR=0.1)
21
Test-4b (LR=0.9)
Similar presentations
© 2025 SlidePlayer.com. Inc.
All rights reserved.