一昨日はこれまでのおさらいと、ステップTD法とついて説明した。 今日は、さらにアルゴリズムを融合させて、TD()について考えていく。 モンテカルロ法とTD学習の融合(続き) TD()法 ステップ収益は、いずれも本質的には同じ値を推定しているので、重みを使…
引用をストックしました
引用するにはまずログインしてください
引用をストックできませんでした。再度お試しください
限定公開記事のため引用できません。