Ubuntu User Blog

投稿

1月, 2023の投稿を表示しています

３目並べを利用したAlphaGoの学習 tensorflow-2編学習

1/27/2023

1.概要 AlphaGoの勉強過程で３目並べを学んでいます。前回までTensorflow-1.15を利用しました。今回からTensorflow-2.9に実行環境を変更して、tensorflow-1.15と同じことを実行します。tensorflow-1.xとtensorflow-2.xの比較をするために、できるだけtensorflow-1.15の設定やコードを変更せずに、実行するために必要な最低限の変更に留めます。 2.詳細 (1) 概要３目並べのフィールドを３☓３のイメージと考えて、手書き文字認識の手法を利用します。利用する環境はtensorflow-2.9環境です。入力データはminimax法で活用したすべての手順(9!=362880)の組み合わせの中から勝負が決まった時点の３目並べのフィールド情報と結果（勝ち、負け、引き分け）を利用します。 tensorflowで利用できる形式に変換し、学習をしてモデルを作成し、モデルを利用して３目並べの対戦をします。元情報がminimax法で解析した情報なので、tensorflowによる学習結果がminimax法まで到達できると最高の結果です。大まかな手順は以下の通りです。 (1) minimax法の解析を利用して学習用入力データを作成 (2) 作成した学習用入力データを利用して、tensorflowでモデル作成 (3) tensorflowのモデルを利用して実際に対戦 (1)の学習用入力データ作成部分に変わりはないので、(2)(3)を２回に分割して記述します。 (2) 詳細 (2) 作成した学習用入力データを利用して、tensorflowでモデル作成 dl2tensorflow.pyを作成します。動作環境はtensorflow-2.9の環境です。学習用データは、tensorflow-1.15と同じものを利用します。r1_data.npy(フィールドデータ)、r2_data.npy(結果データ)で、件数は、255,168件です。結果を知っているので、100%のデータを利用して、トレーニングをしてモデルを作成、保存します。完成したモデルは、dl2model.h5で保存します。 tensorflow-1.15では、epochは100に設定していました。しかし、tensorflow-1.15のように収束しません。600回以上に設...

３目並べを利用したAlphaGoの学習 tensorflow-1編対戦

1/20/2023

1.概要 AlphaGoの勉強過程で３目並べを学んでいます。考え方の基礎を知る上で大切なことであると思いネット上の資料も参考にしています。まず、３目並べのルールを記述したClassを作成して、対戦ができることを実現しました。今回はDeepLearningを利用した３回目の手順説明です。 2.詳細 (1) 概要３目並べのフィールドを３☓３のイメージと考えて、手書き文字認識の手法を利用します。利用する環境はtensorflow-1.15環境です。入力データはminimax法で活用したすべての手順(9!=362880)の組み合わせの中から勝負が決まった時点の３目並べのフィールド情報と結果（勝ち、負け、引き分け）を利用します。 tensorflowで利用できる形式に変換し、学習をしてモデルを作成し、モデルを利用して３目並べの対戦をします。元情報がminimax法で解析した情報なので、tensorflowによる学習結果がminimax法まで到達できると最高の結果です。大まかな手順は以下の通りです。 (1) minimax法の解析を利用して学習用入力データを作成 (2) 作成した学習用入力データを利用して、tensorflowでモデル作成 (3) tensorflowのモデルを利用して実際に対戦上記手順を３回に分けて記述し、今回は３回目です。 (2) 詳細 (3) tensorflowのモデルを利用して実際に対戦 ttttensorflow.pyを作成します。動作環境はtensorflow-1.15環境です。この中で利用するtictactoe.pyはmontecarlo版を利用します。トレーニングしたモデル(dlmodel.h5)をロードします。最初、モデルの結果だけを利用したのですが、minimax法と同様にリーチ目を認識できません。そこで、alphabeta法で利用したis_reach()も利用しています。感触的にはminimax法と同等程度の手を打つようです。 from tictactoe import Tictactoe import random import tensorflow as tf from tensorflow.keras.models import load_model import numpy as np def random_select(a...

３目並べを利用したAlphaGoの学習 tensorflow-1編学習

1/13/2023

1.概要 AlphaGoの勉強過程で３目並べを学んでいます。考え方の基礎を知る上で大切なことであると思いネット上の資料も参考にしています。まず、３目並べのルールを記述したClassを作成して、対戦ができることを実現しました。今回はDeepLearningを利用した２回目の手順説明です。 2.詳細 (1) 概要３目並べのフィールドを３☓３のイメージと考えて、手書き文字認識の手法を利用します。利用する環境はtensorflow-1.15の環境です。入力データはminimax法で活用したすべての手順(9!=362880)の組み合わせの中から勝負が決まった時点の３目並べのフィールド情報と結果（勝ち、負け、引き分け）を利用します。 tensorflowで利用できる形式に変換し、学習をしてモデルを作成し、モデルを利用して３目並べの対戦をします。元情報がminimax法で解析した情報なので、tensorflowによる学習結果がminimax法まで到達できると最高の結果です。大まかな手順は以下の通りです。 (1) minimax法の解析を利用して学習用入力データを作成 (2) 作成した学習用入力データを利用して、tensorflowでモデル作成 (3) tensorflowのモデルを利用して実際に対戦上記手順を３回に分けて記述し、今回は２回目です。 (2) 詳細 (2) 作成した学習用入力データを利用して、tensorflowでモデル作成 dltensorflow.pyを作成します。動作環境はtensorflow-1.15の環境です。学習用データは、r1_data.npy(フィールドデータ)、r2_data.npy(結果データ)で、件数は、255,168件です。これを75%のトレーニングデータと25%のテストデータに分割して動作確認後、再度100%のデータを利用して、もう一度トレーニングをしてモデルを作成、保存します。下記コードのコメント部分が最初のトレーニング部分です。現在は100%でトレーニングの状態になっています。完成したモデルは、dlmodel.h5で保存します。 import tensorflow as tf from tensorflow.keras.layers import Activation, Dense, Dropout from tensorflo...

３目並べを利用したAlphaGoの学習 tensorflow-1編データ作成

1/06/2023

1.概要 AlphaGoの勉強過程で３目並べを学んでいます。前回までプログラムロジックを作成していましたが、今回から３目並べの全ての組合せデータを利用してAIでプログラミングに勝てるかを試します。DeepLearningとしてtensorflowの1.xと2.xの両方を試してみます。内容が多いので複数回に分割して記載をします。 2.詳細 (1) 概要３目並べのフィールドを３☓３のイメージと考えて、手書き文字認識の手法を利用します。最初に利用する環境はtensorflow-1.15です。入力データはminimax法で活用したすべての手順(9!=362880)の組み合わせの中から勝負が決まった時点の３目並べのフィールド情報と結果（勝ち、負け、引き分け）を利用します。 tensorflowで利用できる形式に変換し、学習をしてモデルを作成し、モデルを利用して３目並べの対戦をします。元情報がminimax法で解析した情報なので、tensorflowによる学習結果がminimax法まで到達できると最高の結果です。大まかな手順は以下の通りです。 (1) minimax法の解析を利用して学習用入力データを作成 (2) 作成した学習用入力データを利用して、tensorflowでモデル作成 (3) tensorflowのモデルを利用して実際に対戦上記手順を３回に分けて記述します。 (2) 詳細 (1) minimax法の解析を利用して学習用入力データを作成 dlmakedata.pyを作成します。この中で利用するtictactoe.pyはmontecarlo版を利用します。 titactoeのコードは本ブログのTictactoe like the montecarlo(2023/12/30参照) 学習用データは、dl1_data.npy(フィールドデータ)、dl2_data.npy(結果データ)です。プログラムを実行した結果、学習用データの件数は、255,168件でした。これは9!=362880よりも少なくなります。最低５手で勝負が決着する場合などがあるためです。 from tictactoe import Tictactoe import numpy as np def minimax_select(actions): r1 = [] ...

検索

Ubuntu User Blog

投稿

OpenMythosのサンプルプログラムを動かしました

３目並べを利用したAlphaGoの学習 tensorflow-2編学習

３目並べを利用したAlphaGoの学習 tensorflow-1編対戦

３目並べを利用したAlphaGoの学習 tensorflow-1編学習

３目並べを利用したAlphaGoの学習 tensorflow-1編データ作成

投稿

OpenMythosのサンプルプログラムを動かしました

３目並べを利用したAlphaGoの学習 tensorflow-2編 学習

３目並べを利用したAlphaGoの学習 tensorflow-1編 対戦

３目並べを利用したAlphaGoの学習 tensorflow-1編 学習

３目並べを利用したAlphaGoの学習 tensorflow-1編 データ作成

３目並べを利用したAlphaGoの学習 tensorflow-2編学習

３目並べを利用したAlphaGoの学習 tensorflow-1編対戦

３目並べを利用したAlphaGoの学習 tensorflow-1編学習

３目並べを利用したAlphaGoの学習 tensorflow-1編データ作成