Reinforcement Learning Meeting Notes

Öyle bir agent üret ki reward max olsun

Problems

Exploration vs Exploitation Agent ne kadar çok yeni şey denemeli veya ne kadar bildiği şeyleri yapmalı → deneyim kazanırken bunu belirlemek lazım Correlated Data Ceza aldığın case in prerequisite i varsa ikisi correlated oluyor Reward Attribution Neye reward verileceğine karar vermek önemli

PPO → hem policy hem value öğreniliyor

Motivations Discete data cannot be differentiable → loss function cannot be used for these cases

Reward modeling → Fake human preference

RL de 2 tane Value function var State Value (V): V(S): Bu stateden sonraki tahmini reward Action-Value (Q): Q(S,A): Bu statede bu action’ı alırsam tahmini reward

Advantage (A): A(S,A): Q(S,A) - V(S)

🪴 Quartz 4.0

Explorer

Reinforcement Learning Meeting Notes

Problems

Graph View

Backlinks