ε-greedy法とは

トップメニュー

機械学習

機械学習とは

パラメトリックモデル

回帰,分類,クラスタリングの違い

分類(classification)

分類問題とは

ナイーブベイズフィルタ

符号関数による分類

ロジスティック回帰
・線形分離
・非線形分離

サポートベクターマシン

ニューラルネットワーク(NN)

パーセプトロン

勾配法(最急降下法)
・機械学習への適用

損失関数(誤差関数)

誤差逆伝播法

交差検証 , ホールドアウト

活性化関数
・ステップ , 符号関数
・シグモイド
・ReLU
・Softmax
・tanh

MNISTデータセット

CIFAR-10データセット

画像認識方法

画像認識方法②

畳み込みNN(CNN)

再帰型NN(RNN)

kerasによる実装例
・NN
・CNN
・ディープラーニング

クラスタリング

強化学習

強化学習とは

価値関数 , ベルマン方程式

マルコフ決定過程

TD学習_スキナー箱

TD学習_Cartpole

モンテカルロ法_Blackjack

Deep Q-Network(DQN)
・DQNとは_スキナー箱
・cartpole問題
・Experience Replay

敵対的生成ネットワーク

GAN

seqGAN用文章データ作成

公開日:2021/3/7　　　　　　　　　

・In English
＜前提知識＞
・強化学習とは
・pythonとは

■ε-greedy法とは

ε(イプシロン)-greedy法とは、強化学習において最適なアクションを効率よく学習するための手法で、学習初期は学習結果(Q値)に基づいたアクションを行わずに、できるだけランダムにアクションを行い、アクションに対する結果を広く確認します。そして学習が進むに従い学習結果に基づいたアクションを行う方法のことです。アクションに対する反応を広く確認する様からgreedy(貪欲)と名付けられています。

そのアルゴリズムを説明します。εを以下の様に求め、εが所定値以下になったら学習結果を採用します。

　

■ε-greedy法の実装具体例

強化学習の実例を基に説明します。こちらをクリック。

サブチャンネルあります。⇒ 何かのお役に立てればと

関連記事一覧

トップメニュー

機械学習

機械学習とは

パラメトリックモデル

回帰,分類,クラスタリングの違い

分類(classification)

分類問題とは

ナイーブベイズフィルタ

符号関数による分類

ロジスティック回帰
・線形分離
・非線形分離

サポートベクターマシン

ニューラルネットワーク(NN)

パーセプトロン

勾配法(最急降下法)
・機械学習への適用

損失関数(誤差関数)

誤差逆伝播法

交差検証 , ホールドアウト

活性化関数
・ステップ , 符号関数
・シグモイド
・ReLU
・Softmax
・tanh

MNISTデータセット

CIFAR-10データセット

画像認識方法

画像認識方法②

畳み込みNN(CNN)

再帰型NN(RNN)

kerasによる実装例
・NN
・CNN
・ディープラーニング

クラスタリング

強化学習

強化学習とは

価値関数 , ベルマン方程式

マルコフ決定過程

TD学習_スキナー箱

TD学習_Cartpole

モンテカルロ法_Blackjack

Deep Q-Network(DQN)
・DQNとは_スキナー箱
・cartpole問題
・Experience Replay

敵対的生成ネットワーク

GAN

seqGAN用文章データ作成