クマの画像をディープラーニングで生成してみました。 ディープラーニングで画像の自動生成をする話は、人の顔や、手書きの数字といった、ある程度その生成する対象のスタイルを揃えて学習することが多いです。 クマにおいても、ある程度スタイルを絞るべきですが、ここでは生成画像のクオリティを求めるのではなく、あえて様々なスタイルの画像で学習させてみようと思います。 実際、世の中には一口にクマの画像と言っても世の中には様々なスタイルのクマの画像があります。 例えば、本物の写真だったり、イラストの可愛いスタイルだったり、鉛筆デッサンだったりといろいろな表現があります。
これらをまとめてひっくるめて、様々なスタイルのクマ画像をディープラーニングさせると、クマの平均を表す造形が生まれるのではないかと考え実験してみました。
ディープラーニングで画像を自動生成するアプローチは色々ありますが、ひとまず有名なDCGAN (Unsupervised Representation Learning with Deep Convolutional Generative Adversarial Networks)を使ってみました。
訓練データはGoogle画像検索やPinterest等で様々なクマの画像を収集して96x96にリサイズしたものを使用しました。クマの画像は本物、イラスト、ぬいぐるみ、彫刻物など様々なスタイルのものを集めました。 枚数は全部で1500枚程度です。ディープラーニングをするにはかなり少ない枚数ですが、様々なスタイルの画像が偏りなくあるかどうかのチェックや、クマ以外の不要な背景等をすべて消したりしたので、作業上このくらいの枚数が限界でした。
ディープラーニングのフレームワークはPython+Chainerを使用しました。
- 学習に使用した画像数が1500 枚程度と、今回使用した機械学習のアルゴリズムを使用するには数が少なすぎたこと
- 学習に使用したクマの画像は様々な構図かつ、本物の写真、デフォルメのイラスト、デッサン、人形などスタイルの幅が非常に広かったこと