Tensorflow-1.15の環境構築で発生した問題
1.概要
囲碁AIのalphaGOを勉強していますが、環境としてtensorflow-1.xが必要でした。そこで、tensorflow-1.15の環境構築を過去情報を利用して作業を開始したのですが、様々な問題が発生しました。今回はこのことを記載します。少し古いバージョンの環境構築はとても難しいですね。
2.詳細
(1) 発生した問題と対応内容
(a) ubuntu-20.04環境にtensorflow-1.15を導入すると、python3 version問題で導入できません。
(b) ubuntu-18.04環境にtensorflow-1.15を導入でき、CPU環境が構築でき一歩前進しました。
(c) GPUを利用するために、ubuntu-18.04にCUDA-10.2を導入して、tensorflow-gpu-1.15を導入しました。しかし、GPU認識を確認すると、10.0のライブラリエラーが発生して、GPUを認識できません。
(d) tensorflow-gpu-1.15は、CUDA-10.0が必須と判明。しかし、nvidiaの情報に従って作業しても、CUDA-10.0は導入できません(Depends: cuda-10-0 (>= 10.0.130) but it is not going to be installed)
(e) 様々な変更を加えても改善しないので、Docker Hubからtensorflow-1.15:5-gpuのimageを利用。ubuntu-20.04のdocker環境で構築できました。
(f) 更にネットを調べると、nvidaのCUDA-10.0の説明資料と異なる点を見つけて、ubuntu-18.04で再実行。これにより、CUDA-10.0が導入でき、無事にtensorflow-gpu-1.15を導入できました。
(g) サンプルプログラムでGPU利用で実行できないコードが見つかり、コードの一部修正が必要と判明しました。
(2) 所見
ubuntu-18.04を利用してtensorflow-gpu-1.15をCUDA-10.0の組み合わせで利用できますが、導入後の更新処理やubnutu-20.04環境の優位性などを踏まえると、上記(e)の手順のDocker環境がベストであると感じています。
参考資料
[外部サイト参照]
・CUDA Toolkit 10.0 Archive
・Ubuntu18.04 特定のバージョンのCUDAを入れたい
・TensorflowでConv2Dを使うとNo algorithm worked!になってしまう時の対処法
コメント
コメントを投稿