Öyle bir agent üret ki reward max olsun

Problems
Exploration vs Exploitation Agent ne kadar çok yeni şey denemeli veya ne kadar bildiği şeyleri yapmalı → deneyim kazanırken bunu belirlemek lazım Correlated Data Ceza aldığın case in prerequisite i varsa ikisi correlated oluyor Reward Attribution Neye reward verileceğine karar vermek önemli
PPO → hem policy hem value öğreniliyor
Motivations Discete data cannot be differentiable → loss function cannot be used for these cases
Reward modeling → Fake human preference
RL de 2 tane Value function var State Value (V): V(S): Bu stateden sonraki tahmini reward Action-Value (Q): Q(S,A): Bu statede bu action’ı alırsam tahmini reward
Advantage (A): A(S,A): Q(S,A) - V(S)