WT
2017.01.18
「異質な知性」としてのAIが、人間の創造性を拡張するとき
TEXT BY NAO TOKUI
Artificial Intelligence(人工知能)は、人間の創造性を拡張するのか? プログラマの徳井直生(Qosmo Inc. )が、現代のAIを取り巻く技術やプロジェクトを参照しながら、「Stupid(愚か)」で「Alien(異質)」なAIの可能性を語る。
常識的な「知性」を覆す、Artificial Stupidity(人工的な愚かさ)
「Artificial Intelligenceではなく、Artificial Stupidity (人工的な愚かさ)に興味がある」
のっけから私事で恐縮ですが、昨年の春、私にとってアイドルともいうべき存在のアーティスト、ブライアン・イーノ氏とプロジェクトをご一緒させていただきました。アンビエント・ミュージックのパイオニアで、U2やColdplayといったアーティストのプロデュースでも知られるイーノ氏ですが、音楽の定義そのものを問い直すような活動を続けられています。アートとテクノロジーの関係性に関する幾多のインタビューや講演を通して、私自身大きな影響を受けてきました。冒頭の言葉は、プロジェクトを進める過程でイーノ氏が口にした言葉で、特に印象に残っているものです。
Brian Eno’s The Ship - A Generative Movie
http://theship.ai/
このイーノ氏とのコラボレーションは、彼のアルバムのミュージックビデオという位置付けで、Webサイトとして公開されています。日々SNSに流れてくるニュース写真をもとに過去の歴史的な写真アーカイブの中から、関連する画像をAIが連想・妄想し続ける、というサイトで、Dentsu Lab Tokyoの菅野薫くんを中心に、プログラマの比嘉了くんなどが参加しています。
この作品を作る過程でさまざまな実験、プロトタイプ制作を行いました。次の動画は、昨今のニュース画像(左上)を元に、歴史的な写真アーカイブから類似する画像を検索するというテストの様子です。下に並んでいるのは一定以上の類似度があると思われる画像で、そのうち一番近いものが右上に表示されています。画像の下についているのは、AI(人工知能)が解析した結果出力された画像のラベルになります。
食糧難の中、レストランに押しかける群衆と、独裁者をとりかこむ熱烈な支持者の群れ、ヨーロッパに押し寄せる難民ボートと、自由の女神をいまかいまかと待ち受ける船上のアメリカ移民たちといった組み合わせもあれば、鳥を飛行機と間違えている例もあります。これらはAIによる画像の「見立て」という言い方もできるかもしれません。
こうした画像の見立てを、見間違いとして斬って捨てるのは簡単です。しかし、フラットな目で見てみると、この見間違いの中にも、ハッとする比較が含まれてはいないでしょうか。人間には気づかない、あるいは気づいていても倫理的・常識的なしがらみから言えないような比喩が含まれてはいると思うのです (この実験の結果を受け、The Shipのサイトでは、一般的に画像検索で使われる畳み込みニューラルネットワークを複数を組み合わせることで、あえて見間違い、勘違いが起きやすいように画像解析を行いました)。
これが、冒頭の Artificial Stupidityに興味があるという言葉につながっていきます。システム自体は全体的にStupidだとしても、いや、常識的な「知性」にとらわれない愚かさにこそ、人に気づきを与えるきっかけがあるのではないか。そこにこそ、人間以外の知的な存在としてのAIの存在価値があると感じています。
同様に、米WIREDの初代編集長、Kevin Kellyは、「AIはArtificial Intelligenceではなく、Alternative(代替の) Intelligence,あるいはAlien(エイリアンの・異質な) Intelligenceであるべきだ」と語っています。人の知能とはまったく違うロジックで動く「知能」だからこそ、人が気づかなかった新しい気づきを与えてくれる、というわけです。
本稿では、この「異質な知性としてのAI」という捉え方を軸に、AIと表現の可能性について書きたいと思います。
深層学習で発達したAIは、異質な知性を持ちうる
2016年はAIが大きなトピックとして浮上した年でした。その中でも特に大きな話題を呼んだのは Google DeepMindによるAlphaGoが、世界最強の棋士と言われたイ・セドルを破った対戦でしょう。その前の年、囲碁で 一般的なレベルのプロ棋士に勝てるようになるにはあと10年かかると言われていたのにも関わらず、AlphaGoは急速な進化を遂げ、ついに現役最高の棋士を破るまでになりました。
その原動力となったのが、Deep Learning(深層学習) といわれる学習手法です。脳の神経系の仕組みを簡易的に模倣したニューラルネットワーク(Nerural Network)という学習モデルは、50年以上前から存在しましたが、それをより複雑に (階層を深く) したDeep Neural Networkが、2010年代に入って急速に普及しました。Deep Learningがなぜ最近になって可能になったのか、何が優れているのかといった話はこの原稿の範囲を超えるのでここでは触れませんが、昨今のAIブームとも言える盛り上がりはひとえにDeep Learningのおかげといってもいいでしょう。
AlphaGoとの対戦の中で特に象徴的だったのが、第2局目の37手目のAlphaGoの手です。あまりにも常識的にありえない手だったので、解説のプロ棋士(トップ棋士の一人)も「AlphaGoがコンピュータの画面上に出した手を見て、盤の上に実際に石を置く人が手を写し間違えたと思った」そうです(解説者の表情に注目)。当初、Stupidな手だと思われた一手だったわけですが、結局、そのときの一手がその局の最終盤で効いてきて、2局もAlphaGoの勝利に終わります。人間の常識、定石が絶対ではなかったということがAlphaGoによって明らかになったわけです。AIとの敗戦後にイ・セドルが語った言葉、「自分が知っていた囲碁は、囲碁の可能性の一部でしかなかった」という発言は非常に象徴的です。
この話には続きがあります。 この敗戦後、イ・セドルは人間相手には無敗記録を伸ばし、彼のライバル棋士から「より強くなった」と言われています。いままで考えもしなかった碁の新しい可能性を、AIが世界最高の棋士に教えたわけです。
もしAlphaGoが人の打ち方を模倣することに注力していたとしたらどうしょうか。先に述べたようなことは起きなかったかもしれません。AIというと、人の知能の模倣する機械をつくることととらえる向きが多いのですが、実は、それだけではなく、人間の発想や考え方の「外側」をいかに探索できるかという点にこそ、可能性があると私は考えています。こうした観点でみると、常識にとらわれない新しい考え方が重視される表現、アートの世界に、AIを応用することは、新しい表現の可能性を探るというだけでなく、ひるがえってAIそのものの未来像、AIと人の関わり方を考える上でも非常に重要なのではないでしょうか。
人間「外部」のプロセスによる、生成と評価
外部のプロセスを表現の過程に導入することで、人間の常識、あるいはアーティスト本人の手クセの制限を取り払って、新しい表現を開拓しようとする試みは、なにもいまに始まったことではありません。ジャクソン・ポロック、ジョン・ケージなど、自然の物理現象などが持つ偶然性を、外部のプロセスとして、制作過程に組み込んだ例は枚挙にいとまありません。それらの作品とAIによる作品、どういう違いがあるのでしょうか?
ジャクソン・ポロックのように偶然性に基づいた絵を描く場合を考えてみましょう。なんどもプロセスを繰り返しているうちに、たしかにたまに想像もつかなかった面白い筆致や構図、部分的なモチーフの組み合わせやが偶然生まれる可能性があるかもしれません。しかし、それを「面白い」と評価するのは、人間の画家であるところのポロックです。外部のプロセスが、結果としての絵を評価することはできません。
同様に、コンピュータを使って、複雑なルールに基づいた作品を「生成」することは、いままでも可能でした。Deep Learningに象徴されるAI技術が画期的なのは、生成したものを適切に「評価」できるようになった点にあります。
別の例で説明しましょう。ここでは、仮想空間内を動き・泳ぎまわる仮想生命体をシミュレーションで「進化」させたという例をご紹介します。1994年のKarl Simsの古典的な作品「Evolved Virtual Creatures」です。私事ですが、このシミュレーションに衝撃を受けたことが自分の進路を決めたといっても過言ではないです。
遺伝的アルゴリズムという生物の進化に基づいた最適化手法、進化計算の一種(広義にとらえれば人工知能の一種)を用いて、ランダムに生成した仮想的な生物個体のなかで環境にうまく適合できたもの、ようするに優秀な個体のみを、交叉させ、世代交代を繰り返していくことで、新しい生命体を生み出していきます。
結果として、「進化」した生命体は、まるでおたまじゃくしのようにどこか見覚えがあるような動きをするものから、見たことのもないような不思議なものまで、多様性を獲得しているのがわかります。
自然界の生物の世界では、弱肉強食のおきてのなかで、環境に適合していない個体は子孫を残す前に死んでいきます。このシミュレーションの場合には、優秀な個体かどうかを見極めるために、「制限時間内に移動できた距離」という定量的な尺度を使っています。ここでもし、動きの効率性ではなく、「優雅さ」や「美しさ」を評価できたとしたら、どのような仮想生命体が生まれてきたのでしょうか。そうした定性的な評価ができるようになってきているのが、現在のDeep Learningと表現をめぐる動向の本質なのだと思います。
たとえば、絵の内容を「理解」できるようになったことを端的に示す作品・プロジェクトがこちらです。
Google Arts and Culture Experiments T-SNE MAP
絵画のアーカイブに所蔵されている絵画を、画像認識などのタスクで一般的に利用されている畳み込みニューラルネットワーク(ConvNet)で解析、その特徴量に基づいてT-SNEと呼ばれるアルゴリズムで3次元にレイアウトしたものです。単純な色のバランスやコントラストのような特徴ではなく、何がどのように書かれているかといって絵の内容に踏み込んだ解析ができている点がこれまでの同種のプロジェクトとは異なります。よくみると、人物画、太古の壁画、馬に乗った人の絵、浮世絵とそれに影響を受けた絵画などがそれぞれあつまった一画があるのがわかります。これだけの量の絵画を人手で分類しようとすると、膨大な時間がかかることでしょう。AIによる解析がもたらす量の力に圧倒されるプロジェクトです。
同様に大量のオーディオデータを解析してT-SNEでレイアウトした、The Infinite Drum Machine も量の力を感じる作品です(Deep Learningを使っているわけではなく、従来的な意味での機械学習を用いたプロジェクトです) 。
ここで注意したいのは、AI自身が個々の絵や音のテーマや、(もしあるとすれば)メッセージにまで踏み込んで理解しているわけではない点です。あくまでも絵に描かれている対象物の類似度を表面的に理解しているだけです。これが現在のAIの限界という言い方もできますが、一方でこうした「浅い」見た目だけの理解が面白く働く場合があることは、冒頭のThe Shipのプロジェクトの紹介で述べた通りです。
人間とAIによる、Back to Back DJ
私がライゾマティクスリサーチの真鍋くんとともに2015年以来続けているAI DJイベント「2045」でも同じような驚きに出会う瞬間があります。2016年からはAI DJとのBack to Backというスタイルに挑戦しています。アナログのレコードとターンテーブルを使い、私がかけた曲に対して、AIが適切な曲を選択してレコードをかけることで、選曲の「かけあい」が生まれます。
ここでもConvNetを利用し、曲の物理的な特徴(ピッチ、ボリュームなど)から、曲を聴いた時の印象を特徴量として定量化することで、DJの流れを壊さない選曲に挑戦しています。本番でも、私なら絶対にしないようなジャンルを超えた意外な選曲に、ハッとさせられる瞬間が何度もありました。
「生成」と「敵対」による学習モデル
最後に、AIと表現の関係を語る上で避けて通れないテクニカルなトピックをご紹介します。
Generative Adversarial Networks(生成的敵対ネットワーク、略してGAN)
Adversarial(敵対的)とは、あまり聞きなれない言葉かもしれませんが、現在、AIの研究分野の中でも最も注目されているトピックの一つです。GANでは2つのニューラル・ネットワークを使います。あるサンプル画像群(ここでは代表的な例として画像の生成を想定します)に対して、Generator(生成モデル)は、サンプル画像に「似せた」画像を生成するように学習を進めます。もうひとつのDiscriminator(識別モデル)は、与えられた画像がもとのサンプル画像群に含まれていた「本物」なのか、Generatorが生成したよくできた「偽物」なのかを見分けるように学習していきます。
GANの面白いところはうまく学習が進むと学習元の訓練データには存在しなかった、しかも、それらしいものが生成できるようになることです。この「それらしさ」を識別できるようになったということが、繰り返し述べているDeep Learningの本質です。
以下はGANで生成した画像の例になります。
この2つのネットワークを競わせてお互いがお互いを出し抜けるように学習を進めていくわけですが(敵対的 Adversarialという言葉はここから来ています) 、生成モデルがより精巧な偽物を生成するようになればなるほど、識別モデルは賢く識別することが求められますし、その逆も真です。直感的に考えても、生成モデルのタスクの方が、識別モデルよりも難しいという不均衡があるため、パラメータを調整して学習条件を整えることが難しいとは言われていますが、あらかじめ人手でサンプルデータのラベルをつける必要がないため(教師なし学習)、写真から3Dモデルの生成やロボット制御のための強化学習など、さまざまな分野への応用が期待されています。
繰り返しになりますが、ここで識別モデルがやっていることは、あくまでももとのサンプル画像群の特徴をとらえているかの識別であって、絵の良し悪しではありません。最終的な価値判断は人が行うことになります。コンピュータ自体がコンピュータの出力を評価して、最低限のフィルタをしてくれるようになると人は最後の価値判断のところに集中できるという言い方もできます。
AIと創造性の行方
創造的と言われる行為の多くが「既存の要素」の「新しい組み合わせ」によるものであることは、すでに周知の事実でしょう。この新しい創造性のキモは、組み合わせの「発見」とその結果の適切な「評価」というサイクルをいかに早く繰り返すかにあります。
コンピュータはその黎明期から一貫して新しい組み合わせパターンの生成を容易にしてきましたが、Deep Learningは、従来数値化できなかった人の“感覚”や“感性”の領域に踏み込んだ「評価」をできるようにした点で優れている、という話をここまでしてきました。新たな組み合わせの生成と評価のサイクルを無限に繰り返すことができるとしたら、創造的プロセスへの寄与は計り知れません。
イーノ氏が、自分は音楽の建築家というより造園家に近いと話しているように、AIを使った表現を手がけるクリエイターの役割は、この造園家に近いのかもしれません。ガーデニングの場合、DNAという形でコード化されたインストラクションをもとに、種から植物が生まれます。同じDNAでも周囲の影響を受けてさまざまな成長をとげ、自然環境の中で淘汰されながら育っていきます。最終的に人が、自分の美意識や目的に合わせて剪定し、ひとつのまとまりをもった庭が完成します。
同様に、学習されたモデルやアルゴリズムとして固定化されたインストラクションから、人間のロジックとは全く違う「環境」としてのAIによって淘汰されながら、画像や音楽、文章といったアウトプットが生成されます。1つのモデルからさまざまなバリエーションが生まれるなかで、最終的に生成の方向をガイドし、アウトプットを剪定する役割は、人であるクリエイターにゆだねられることになります。当然、今後AI技術が発展すれば、コンピュータに委ねられる領域がより広くなっていくことでしょう。その分、人はいままで考えもつかなかった新しいアイデアを試すことが可能になっていくはずです。
AIがある種の、愚かなもの、あるいはエイリアンとして存在することで、人の創造性の幅が広がっていく、そんな近未来に向かって、2017年もAIと表現に関する取り組みに注目していきたいと思っています。
CREDIT
- TEXT BY NAO TOKUI
- 東京大学工学系研究科博士課程修了。工学博士。 在学中から人工知能に基づいた音楽表現とユーザ・インタフェースの研究に従事するとともに、DJ/プロデューサとして活動。ソニーコンピュータサイエンス研究所パリ客員研究員などを経て、2009年にQosmoを設立。2015年には人工知能DJイベント「2045」をスタート。近作としては、AIを用いたBrian Enoのミュージックビデオの制作など。AIと人の共生による創造性の拡張の可能性を模索する。 Twitter:@naotokui PHOTO BY KENSHU SHINTSUBO http://qosmo.jp/