強化学習とニューラルネットワークを組合せてみた。（その6）

技術 AI 強化学習ニューラルネットワーク Ruby

昨日は関数近似にニューラルネットワークを使ったSarsa()法を実装してみた。けど、うまくいかなかったので、いろいろパラメータを変えてみるということをやってみた。パラメータテストパラメータとして調整しないといけないものは、次の4つ：中間層のユ…

2016-02-19

強化学習とニューラルネットワークを組合せてみた。（その5）

技術 AI 強化学習ニューラルネットワーク Ruby

昨日はテーブル型のSarsa()法の実装を行った。今日はいよいよ関数近似にニューラルネットワークを使ったSarsa()法の実装してみる。 NNSarsaComクラス関数近似にニューラルネットワークを使ったSarsa()法のクラスは、NNSarsaComクラスとした。 #===========…

2016-02-18

強化学習とニューラルネットワークを組合せてみた。（その4）

技術 AI 強化学習ニューラルネットワーク Ruby

昨日は○×ゲームを人がプレイできるようにするところまで実装した。今日はテーブル型のSarsa()法を実装する。 SarsaComクラスということで、さっそく。 #==================== # sarsa_com.rb #-------------------- # テーブル型のSarsa(λ) AI #==========…

2016-02-17

強化学習とニューラルネットワークを組合せてみた。（その3）

技術 AI 強化学習ニューラルネットワーク Ruby

昨日は強化学習の関数近似として使うニューラルネットワークの実装を行った。さっそくSarsa()法と組合せたいところなんだけど、その前にいろいろ実装。 Markモジュールまずはマーク（○、×、空白）を表すためのMarkモジュールから。 #==================== …

2016-02-16

強化学習とニューラルネットワークを組合せてみた。（その2）

技術 AI 強化学習ニューラルネットワーク Ruby

昨日は強化学習の関数近似としてニューラルネットワークを使うときの勾配計算について書いた。今日はそのニューラルネットワークを実際にRubyで実装してみる。ニューラルネットワークの仕様まず、ざっとした仕様を。構造 3層ニューラルネットワーク入力…

2015-10-19

強化学習について学んでみた。（その22）

技術 AI 強化学習 Ruby

昨日はSarsa法によるAIの実装を行った。今日はQ学習によるAIの実装を行っていく。 QLearningCom さっそくQ学習によるAIの実装を。 #!/usr/bin/env ruby require './tic_tac_toe' require './state' require './value' module TicTacToe class QLearningCom …

2015-10-18

強化学習について学んでみた。（その21）

技術 AI 強化学習 Ruby

昨日は○×ゲームをプレイできるようにするところまで実装した。今日はSarsa法を使ったAIを実装していく。 Valueクラスまずは行動価値を表すValueクラスから。 #==================== # value.rb #==================== require './state' module TicTacToe …

2015-10-17

強化学習について学んでみた。（その20）

技術 AI 強化学習 Ruby

昨日はSarsa法とQ学習の説明をした。今日からは実際にこれらのアルゴリズムを使って○×ゲームのAIを作ってみる。 ○×ゲームまぁ、○×ゲームの説明は不要だよね・・・とりあえずは、○×ゲームをCUIで遊べるようにするところから。モジュールと定数の定義とり…

2015-10-03

強化学習について学んでみた。（その17）

技術 AI 強化学習 Ruby

昨日は方策オン型モンテカルロ制御と方策オフ型モンテカルロ制御について説明した。今日は、実際にこれらのアルゴリズムを使ったプログラムを書いてみる。レーストラック本で練習問題とされているレーストラックの問題を、方策オン型モンテカルロ制御、方…

2015-10-01

強化学習について学んでみた。（その15）

技術 AI 強化学習 Ruby

昨日はモンテカルロ-ES法による方策の評価と改善を説明した。今日は、モンテカルロ-ES法で実際にプログラムを書いてみる。ブラックジャック本で例として挙げられているブラックシャックのAIをモンテカルロ-ES法で実装してみる。ブラックシャックはカジノ…

2015-09-07

強化学習について学んでみた。（その13）

技術 AI 強化学習 Ruby

昨日は方策反復について説明し、実際にプログラムも書いてみた。今日はもう一つのアルゴリズムについて説明する。価値反復方策反復の場合、方策評価の中で何度もスイープを行うので、方策改善が行われるまでに時間がかかる。なら、1回スイープを行うごと…

2015-09-06

強化学習について学んでみた。（その12）

技術 AI 強化学習 Ruby

昨日は方策改善について説明した。今日は、方策評価と方策改善を使って実際に学習を進めていく方法について。方策反復方策評価でまず方策の評価を行ったら、次に方策改善で方策の改善を行う。そしたら、今度は改善された方策で再び方策評価を行い、さら…

2015-08-24

強化学習について学んでみた。（その8）

技術 AI 強化学習 Ruby

昨日はグリーディ法とグリーディ法を扱った。今日はn本腕バンディット問題に対する別のアルゴリズムを考えていく。ソフトマックス法グリーディ法では、探査を行うために、の確率でランダムに行動を選択していた。もう一つ、探査を行うための方法として、…

2015-08-23

強化学習について学んでみた。（その7）

技術 AI 強化学習 Ruby

昨日はn本腕バンディット問題の行動の価値について考えた。今日は、それを使って具体的なアルゴリズムを考えていく。グリーディ法一番最初に思いつく方法は、現在の推定される行動の価値の中で、最も価値の高い行動を選ぶという方法。すなわち、回目に選…

2015-08-21

強化学習について学んでみた。（その5）

技術 AI 強化学習 Ruby

昨日は、n本腕バンディット問題と、「知識利用」と「探査」のバランスの問題について説明した。今日はn本腕バンディット問題をプログラム（Ruby）で実際に動かしてみる。正規分布に従う乱数生成器今回、n本腕バンディット問題のレバーの期待値、および、…

2015-06-13

変種オセロの思考ルーチンを作ってみた。（まとめ）

ゲーム開発 Ruby YWF AI まとめ

これまでの各記事は、以下から。変種オセロの思考ルーチンを作ってみた。（その1） - いものやま。変種オセロの思考ルーチンを作ってみた。（その2） - いものやま。変種オセロの思考ルーチンを作ってみた。（その3） - いものやま。変種オセロの思考ル…

2015-06-12

変種オセロの思考ルーチンを作ってみた。（その6）

ゲーム開発 Ruby YWF AI

昨日の記事は、以下から。今日は、ミニマックスAIのさらなる高速化を目指す。アルファベータ法アルファベータ法の基本的な考え方は、ミニマックス法と同様、「相手が自分にとって一番都合の悪い手を打ってくる前提で、その中で一番マシな局面になる手を選…

2015-06-11

変種オセロの思考ルーチンを作ってみた。（その5）

ゲーム開発 Ruby YWF AI

昨日は、パフォーマンスを改善して、ミニマックスAIがそれなりのスピードで動くようにした。今日はちょっと話題を変えて、千日手の話。千日手将棋の場合、何度も同じ局面になってしまって、手が進まなくなってしまうことがある。これを「千日手」といっ…

2015-06-10

変種オセロの思考ルーチンを作ってみた。（その4）

ゲーム開発 Ruby YWF AI

昨日はミニマックス法を実装したけど、処理が遅いという問題が。そこで、今日はパフォーマンスの改善を行っていく。プロファイルパフォーマンスの改善を考えるときに、まず最初にやらないといけないことが、プロファイル。ボトルネックを勘違いして修正…

2015-06-09

変種オセロの思考ルーチンを作ってみた。（その3）

ゲーム開発 Ruby YWF AI

昨日は貪欲法のAIを作成。今日はミニマックス法のAIを作成する。ミニマックス法昨日の貪欲法は、「1手読んで、その中で一番いいと思われる手を選ぶ」というもの。ただ、実際には1手読むだけだと、簡単に取り返されてしまうということがよく起こる。そこ…

2015-06-08

変種オセロの思考ルーチンを作ってみた。（その2）

ゲーム開発 Ruby YWF AI

昨日はランダムAIを作った。今日はもうちょいマシな思考ルーチンを作る。貪欲AI すぐに思いつくのは、可能な手をそれぞれ実行してみて、その中で一番よさそうな手を選ぶというもの。「選択肢の中からとりあえず一番いいものを選ぶ」というのを「貪欲法」…

2015-06-07

変種オセロの思考ルーチンを作ってみた。（その1）

ゲーム開発 Ruby YWF AI

変種オセロ「良い子悪い子普通の子」については、以下を参照。今回は、この変種オセロの思考ルーチンを作っていく。ランラムAI もっとも簡単なAIは、これ。実行可能な手からランダムに返すだけのもの。 #!/usr/bin/env ruby require_relative "board" req…

2015-06-06

変種オセロを考えてみた。（まとめ）

ゲーム開発 Ruby YWF まとめ

とりあえず、まとめ。これまでの各記事は、以下から。変種オセロを考えてみた。（その1） - いものやま。変種オセロを考えてみた。（その2） - いものやま。変種オセロを考えてみた。（その3） - いものやま。変種オセロを考えてみた。（その4） - いも…

2015-06-05

変種オセロを考えてみた。（その4）

ゲーム開発 Ruby YWF

ボードの実装が出来たので、今日は人同士が実際にこのゲームを遊べるようにしてみる。 CUIだけどw ボードの表示まずは、ボードを表示するためのモジュールを実装。 module YWF module BoardViewer COL_INDEX = " 1 2 3 4 5 6 7 8 9" LINE = " +---+---+---+…

2015-06-04

変種オセロを考えてみた。（その3）

ゲーム開発 Ruby YWF

昨日の続き。今日は残りの詳細な処理について。ボードの実装（続き）走査メソッドまずおさえておきたいのが、走査メソッド。 # 続き private def traverse_to(row, col, direction, &block) # NOTE: # 'traverse_to' accesses to 'WALL', # so 'color' c…