对于任何有限的MDP,都存在一个最佳策略π*,满足其他所有可能的策略π都不会比这个策略更好。
令(X, d)是一个完备的度量空间,函数f: X->X是一个压缩映射,则f具有唯一一个不动点 x*∈ X (即,f(x *)=x *) ,使得序列 f(f(f(…f(x))))收敛至x *。