Nagu poliitika hindamine, vajab väärtuste iteratsioon formaalselt lõpmatu arvu iteratsioone, et ühtlustada täpselt. Praktikas peatume, kui väärtuse funktsioon muutub pühkimise ajal vaid vähesel määral. … Kõik need algoritmid ühtivad diskonteeritud piiratud MDP-de jaoks optimaalse poliitikaga.
Kas väärtuste iteratsioon on deterministlik?
Siiski on väärtuste iteratsioon deterministliku juhtumi otsene üldistus. See võib olla tugevam dünaamiliste probleemide korral, suurema ebakindluse või tugeva juhuslikkuse jaoks. KUI poliitikat ei muudeta, tagastage see optimaalse poliitikana, MUULIKul minge lehele 1.
Kas väärtuste iteratsioon on optimaalne?
3 Väärtuse iteratsioon. Väärtuse iteratsioon on meetod optimaalse MDP-poliitika ja selle väärtuse arvutamiseksV-massiivi salvestamine toob kaasa vähem salvestusruumi, kuid optimaalset toimingut on keerulisem määrata ja on vaja veel üks iteratsioon, et määrata, milline toiming annab suurima väärtuse. …
Mis vahe on poliitika iteratsioonil ja väärtuste iteratsioonil?
Eeskirja iteratsioonil alustame fikseeritud poliitikaga. Vastupidi, väärtuste iteratsioonis alustame väärtusfunktsiooni valimisega. Seejärel parandame mõlemas algoritmis iteratiivselt, kuni jõuame lähenemiseni.
Mis on iteratsiooniväärtus?
Põhimõtteliselt arvutab väärtuse iteratsiooni algoritm optimaalse olekuväärtuse funktsiooni, parandades iteratiivselt V (s) hinnangut. Algoritm initsialiseerib V(d) suvalisteks juhuslikeks väärtusteks. See värskendab korduv alt Q(s), a) ja V(s) väärtusi, kuni need lähenevad.