AIは日本のテレビから何を学ぶか? | ニコニコニュース


 StableDiffusionネット上にある50億枚の画像から学習されたとされている。 【その他の画像】  通常、AIが学習する画像は、人間が一枚一枚、「これはこういう場面ですね」とタグを付けていく。この「タグ」を付ける作業に莫大な手間がかかる。  しかし、50億枚ともなると、人間が手で教師データを作るのは無理である。そこで、オープンソースコミュニティLAIONプロジェクトは、AIに自動的にタグを付けさせることにした。  これによる大きな発見の1つは、「AIが自動的にタグ付けしたようないい加減なものでも、ちゃんと画像が生成される」ということである。まさにコロンブスの卵であり、誰かがやるまでは誰もできるとは思ってないが、いざできてしまうと誰でも真似できてしまうことの典型だといえる。  しかし、ネット上の50億枚というのは非常に膨大であるだけでなく、非常にばらつきが大きい。特に我々日本人が普段目にするようなものと、欧米人が目にするようなもの、アジアの各国に住む人々が目にするものは何もかも違う。これを「バイアス」という。  前回のこの連載では、手始めに身の回りにある「日本的な風景」を学習させてみた。その結果、郵便局がより日本的なものになったり、自動販売機駐車場がよりそれっぽいものになることが確認できた。  今回はそれを一歩進めて、AIに日本のテレビ番組を学習させてみることにする。 ●AIに日本のテレビ番組を学習させてみる  我が国では改正著作権法により、AIが学習する場合において、著作権法上の特例が適用される。学習に使うことは法的に問題ないが、学習に使ったデータをそのまま明かすと肖像権やパブリシティ権の侵害になる可能性があるので、残念ながらここでは「どんな番組を学習させたか」は紹介できない。  また、ただ学習させてもつまらないので、今回は姿勢推定AIを使って、「右手を上げている」「アゴに手を当てている」などのアノテーションも同時に付けることにした。こうすると、作画系AIが苦手としているポーズの指定に強いAIを作ることができるはずである。  筆者はとりあえず30時間分のテレビ番組をAIに見せて、70万セットのアノテーションを得た。これをStableDiffusion2.1ベースから、丸2日ほど学習させてみる。  筆者の運営する個人サイトを今月からゼルペム社(Zelpm Inc.)という組織に運営移管した。一人だけだとどうしてもできることが限られるので、非常に小さい組織を作ったのだ。筆者が設立に関わった会社としては、ちょうど十社目となる。  この会社の名前にちなんで、筆者が開発した新しいAIをZelpmDiffusionと呼ぶことにする。こうすることで、AIは日本風の空気感を理解するだろうか。  こうして学習したAIに試しに「女性の写真」を出力させてみた。まず、StableDiffusion2.1だとこうなる。  これを見るだけでも、単体のStableDiffusionがいかに欧米のバイアスに引っ張られているかわかるだろう。この手のものの学習には、ネットに溢れているものから取るしかないので、どうしても必然的にこうなってしまう。  特に最近は、学習に利用された素材集やストックフォトの会社が集団訴訟に踏み切るなど、きなくさくなってきた。  日本の場合、世界に先駆けて著作権法でAIでの学習利用を明確に特例扱いしているが、諸外国はそうではない。判決によっては、StableDiffusionのバーションアップは停滞する可能性もある。  独自の学習データを集め、学習させておく意義はそこにあるのだ。  さて、50億枚に比べるとわずか70万枚の画像はほんの少しでしかないが、それでも、もともとあるStableDiffusionバイアスを突破することはできるだろうか。  このように、日本的なニュアンスへの翻案に成功していることが分かる。  たかだか30時間、70万枚でこれだけ日本風に寄せられるのだから、より多くのデータを集めれば、もっと効率的にもっと効果的に日本風の画風を再現することは容易になるだろう。  ただし、「サッカーをする男の子」で出力させようとすると、まだまだ欧米のバイアスに引っ張られている。  これは、筆者がとりあえず見せた日本のテレビ番組のなかでサッカーをする男の子が登場するシーンが極端に少ないからではないだろうか。そもそもテレビには子役以外の子供というのは滅多に出てこない。ここも学習データで工夫が必要と思われるところだ。今後の課題としたい。 ●テレビは学習に最適?  『フィフス・エレメント』という映画で、長い眠りから目覚めたヒロイン、リー・ルーが、人類の情報を短期間に大量に学習し涙を流すというシーンがある。古くは米国ABCドラマMax Headroom(邦題:未来テレビネットワーク23(NHK))』では、コンピュータ再構成された人格であるマックスが、テレビ局コンピュータに寄生し、放映中のテレビ番組を見ながら同時にツッコミを入れるなんていうシーンもある。  テレビは、24時間近い時間軸で無数の番組が流れているという点で理想的な学習媒体であるといえる。しかも、映像と音声のマルチモーダルで、内容もニュースからバラエティドラマ、教養番組など多岐に渡る。  もう1つの発見は、普通、30万枚も学習させたらオーバーフィッティング、つまり過学習が起きてボロボロになってしまいそうなものだが、ZelpmDiffusionでは安定して高画質なものが生成されている。  原理的にはWaifuDiffusionやtrinartなど、StableDiffusionの派生系も相当数の画像を追加学習させている。それで破綻していないということであれば、見せれば見せるほど画質が上がっていくことが期待できる。  筆者は新たに300万枚のアノテーションデータを準備中で、これを学習させればさらに効果的な結果が得られるのではないかと期待している。  なにしろ規模が大きいので個人プロジェクトの域を大幅に飛び越えてしまうが、さらに精度を上げるべく、独自のAI学習用データを作る方法も構想中である。これも結果が出たら、この連載で報告させていただきたい。  まだ開発途上であり、荒削りではあるが、ZelpmDiffusionはひとまず筆者の運営するMemeplexのサブスクリプションユーザー向けに実験的に提供する予定である。 (清水 亮)
StableDiffusion2.1が出力した「女性の写真」


(出典 news.nicovideo.jp)

ペンちゃん ペンちゃん

捏造や忖度…ですかね… >>日本のテレビから何を学ぶか

ゲスト ゲスト

学べるのは、嘘と印象操作と炎上芸と韓流ごり押しくらいだろ

armor armor

「視聴率(人気・金)をくれ」にたどり着いたらAIを信じる

謎肉 謎肉

データが偏りすぎて人類に牙を剥きそうw

ASFASFASFA ASFASFASFA

著作権法の穴

わだお わだお

スポンサーへの媚び方かな?

とーふ とーふ

比率のおかしいグラフとか多用しそう

あきづき あきづき

AIが穢れるからやめろ

DoubleD DoubleD

AI画像生成の著作権が問題になっている中、日本のテレビ番組から学習したデータは著作権法上問題ないというのは非常に重要では。珍しく世界に先駆けて法整備した日本政府GJ

すりーぴんぐ・しーぷ すりーぴんぐ・しーぷ

テロップ芸とか覚えるんじゃよ