seqGAN用に青空文庫の文章をID化する(python)



機械学習

分類(classification)

ニューラルネットワーク(NN)

クラスタリング

強化学習

敵対的生成ネットワーク

公開日:2021/9/12         

前提知識
 ・Pythonとは


seqGANでは、学習させたい文章を数値化して学習機に入力させる必要があります。 ここではpythonで青空文庫にある文章をseqGANの学習機に入力できるような形に変換する方法を説明します。

■変換の流れ
以下のとおりとなります。ファイルは手動でダウンロードしておき、その後の手順をpythonで実行します。



① ファイルから本文抽出
ダウンロードしたファイルには、注釈などのseqGANには不要な情報が入っておりますので、それを取り除きます。 具体的な方法はこちらで説明します。

② 本文を形態素解析する
文章をどのような単語によって成り立っているか形態素解析します。 具体的な方法はこちらで説明します。

③ 各単語から辞書を作成し、辞書に基づき文章からID生成
ここでは、文章から生成されたID情報を生成するだけではなく、seqGANで生成したID情報を自然言語に変換するための辞書も作成します。 具体的な方法はこちらで説明します。

■pythonによる実装
プログラムファイルは以下になります。

 ・python : 3.9.5
 ・プログラムファイル:doc2id.zip











サブチャンネルあります。⇒ 何かのお役に立てればと

関連記事一覧



機械学習

分類(classification)

ニューラルネットワーク(NN)

クラスタリング

強化学習

敵対的生成ネットワーク