Solving controlled Markov set-chains with discounting via multipolicy improvement

Chang HS; Chong EKR

IEEE Transactions on Automatic Control, Vol.52, No.3, 564-569, 2007

DOI10.1109/TAC.2007.892381 Export Citation

Solving controlled Markov set-chains with discounting via multipolicy improvement

We consider Markov decision processes (MDPs) where the state transition probability distributions are not uniquely known, but are known to belong to some intervals-so called "controlled Markov set-chains"-with infinite-horizon discounted reward criteria. We present formal methods to improve multiple policies for solving such controlled Markov set-chains. Our multipolicy improvement methods follow the spirit of parallel rollout and policy switching for solving MDPs. In particular, these methods are useful for online control of Markov set-chains and for designing policy iteration (PI) type algorithms. We develop a PI-type algorithm and prove that it converges to an optimal policy.

Keywords:controlled Markov process;Markov decision process (MDP);Markov set-chain;policy iteration;rollout