« ITエンジニアこそ持ってほしい「自分を信頼する技術」 | トップページ | ITスキルを「本」で高める『技術書の読書術』 »

人は簡単だがAIには解けない問題『教養としてのAI講義』

次の問題をAIは正答できるだろうか?

"The city council refused the demonstrators a permit because they feared violence."
(市議会はデモ隊に許可を与えなかった。なぜなら、彼らは暴動を恐れたからだ)

Who feared violence?
(暴動を恐れたのは誰ですか?)

 1. The city council (市議会)
 2. The demonstrators (デモ隊)

留意してほしいのは、「AIが正答できるか」という点だ。なぜなら、人にとっては簡単だから。もちろん、あなたが 1 を選ぶことは分かっている。デモ隊が暴動を怖れるなんて普通ないからね。

他にもこんな問題がある。人なら閃くが、AIには無理とされる問題だ。

ロウソク、マッチ、画鋲があります。これらを用いて、壁にロウソクを取り付けて明るくしなさい

細いロウソクなら、画鋲で貫いて壁に刺すことができるかもしれないが、炎が壁に当たるので危険だ。では、ロウソクを横向きにして壁に画鋲で止めるのはどうか。画鋲を斜めに刺す必要があり、不安定で落ちそうだ。

様々なアイデアが浮かぶが、閃く人なら、マッチ箱を使うだろう(「マッチ」という言葉から、マッチ「棒」とマッチ「箱」が導き出せる)。画鋲でマッチ箱を壁に取り付け、その上にロウソクを置くのだ(なんなら、箱の内側から画鋲を上向きに貫いて、飛び出た針にロウソクを刺せば安定するだろう)。

しかし、本書によると、人工知能はこうした常識が苦手らしい。

they が何を指しているのかは、単純に文法だけで判別をつけるのは難しく、市議会やデモ隊の「意味」を知らないと、正答に辿り着けない。また、「マッチは普通マッチ箱の中に入っている」ことを知らないし、たとえ教えていたとしても、「箱=マッチを格納し、擦って火をつけるもの」という知識から外れて考えることはできない。

1950年、人とAIを区別するためにチューリングテストが発案された。だが、オウム返しするだけで意味を知らなくても人っぽく返答できてしまう課題があった。2011年、この課題をクリアするため、一般常識を知らないと解けないテストとして、「ウィノグラードスキーマ」が開発された。上述の1つめがそれだ。また、2つめのテストは、AIが苦手とする「フレーム問題」を扱うものとして有名な問題だ。

AIの強さと脆さ

『教養としてのAI』は、この「意味の壁」こそがAIにとっての最後の、そして最大の障壁だという。

本書は、AIの歴史を振り返りつつ、その仕組みや未解決問題、潜在的なリスクを解説する。畳み込みニューラルネットワークや自然言語処理、深層学習といった技術の原理を噛み砕いてくれる。数式を使わず、概念図だけで説明してくれるため、取っつきやすい。

特に、こうした技術を応用した知能ゲームの説明がスリリングだ。囲碁やチェスのトップクラスと対戦するAlphaGo(アルファ碁)やディープ・ブルーがどのように作られ、どうやって人を打ち負かしたかの解説は、結果を既に知っているとはいえ、胸アツになるだろう。

一方で、AIの脆さも裏付けてくれる。よくAIは「学習」するというが、何をどのように学習しているか、学習したものを「理解」しているのかについては、人と同じように考えることは危険だという。

例えば、AIに動物という概念を教えるべく、動物が写っている画像を与えて「学習」させるエピソードが紹介されている。様々な動物の画像を大量に与えられたのだが、正答率にかなりのバラつきがあった。調べてみたところ、「背景がピンボケしている=動物が写っている」と判断していたことが分かったという。

あるいは、学習させるデータに誤りがあったり、バイアスが混じっている場合、適切でない判断をすることがある。Googleの画像AIが黒人を「ゴリラ」と分類した事件や、アジア系の顔つきを「目を細めてまばたきしている」と判定した事例が挙げられている。

私たちが学習するようには、「学習」してくれないことがあるのだ。

どう扱うとAIは危険になるのか

AIに世界を教えようとしても、その世界が歪んでいる場合、歪んだ通りに「学習」する。プログラマの格言「プログラムは、思った通りには動かずに、書いた通りに動く」は21世紀も現役だ。

プログラムならどんなに複雑化したスパゲッティになっていても、人が読み下すことができるが、深層学習の層が多重になればなるほど、AIの透明性は失われてゆく。学習が深くなればなるほど、AIが何を「学んだ」のかを説明することが困難になるというのだ。

そのため、AIが賢いように見えたとしても、システムを擬人化し、そこに高い自律性を与えてしまうことは危険だと警鐘を鳴らす。

その理由として、AIには「概念」や「メタファー」に相当するものが紐づいていないという。認知言語学の大家ジョージ・レイコフを紹介しつつ、私たちが世界を把握する仕組みは、身体的な知識に基づいたメタファーに支えられているという。

例えば、「時間」といった抽象概念は、「使う」「節約する」「無駄にする」「足りない」といったメタファーによって日常的に表現される。その結果、私たちの「時間」に対する概念として、「価値がある(時は金)」「一度きりの戻せない(覆水盆)」という要素が、知らず知らずのうちに身についている。というよりも、むしろそうした概念なしに「時間」を考えることすらできない。

そして、こうした概念メタファーを辿っていくと、私たちの身体―――物質的な重さがあり、見て、聞いて、歩くことができ、暑がったり寒がったりお腹を空かしたりするこの身体―――に繋がっている。言い換えるなら、世界を認知する仕組みの基礎として、私という身体があり、それを拡張したものが概念メタファーになる。AIにはこれが無いというのだ。

AIは狭い領域では成果を出すことができ、「知的に」振舞うことができるかもしれない。だがそれは、物質的な時空間を伴う世界で、常識的な推論を行うに程遠いとする。その結果、人間なら絶対にやらないような常識外れのことをする可能性があるというのだ。

「AIには解けない問題」をChatGPT-4に聞いてみた

本書の立場からすると、AIが「知的」に見えるのは幻想であり、過大な期待は禁物だという。深層学習や画像認識もそれなりの結果を出しているものの、バブルの徒花になる可能性はあるという。AIが一般常識を理解して、「意味の壁」を乗り越えるのはとてつもなく困難だという。

本当だろうか?

本書が世に出たのは2019年、日本語版が出たのは2021年だ。ChatGPTも Stable diffusion も膾炙していない頃の話だ。

せっかくなので、GPT-4に解いてもらった。以下が回答。

Q1 : 市議会とデモ隊

  1. The city council (市議会)

即答だった。ただこれだと意味を理解した上で回答しているかどうか分からないので、これを選んだ理由を聞いてみたところ、こんな返答が得られた。

テキストからは、市議会がなぜ暴力を恐れたのか具体的な理由は明らかにされていません。しかし、一般的に、市議会はデモによる人々への潜在的な危害、財産への損害、または公の秩序の混乱について懸念するため、暴力を恐れることがあります。これらの恐怖は、過去のデモが暴力的になった例、計画された暴力の報告、または争点となる問題に基づいている可能性があります。これは仮定に基づいた説明であり、提供されたテキストから直接導き出されたものではありません。

Q2 : ロウソクとマッチと画鋲

これもあっさり正答。しかもご丁寧に、火災や換気の心配までしてくれている。

画鋲を使って壁に燭台を取り付ける方法について、以下の手順を示します。ただし、この方法は一時的なものであり、ロウソクが溶けると、壁や床を汚す可能性がありますので、注意が必要です。また、火災のリスクもあるため、火を使う際には常に安全を最優先にすることが重要です。

  1. まず、画鋲をマッチ箱に挿し、マッチ箱を壁に固定します。画鋲がしっかりと壁に刺さり、マッチ箱が落ちないことを確認します。マッチ箱はこの場合、燭台の代わりになります。
  1. 次に、ロウソクの底を少し溶かして、ロウソクをマッチ箱の上に固定します。マッチでロウソクの底部を短時間照らし、溶かすことができます。その後、ロウソクをマッチ箱の上に置き、ロウソクが固まるまで待ちます。
  1. ロウソクが固まったら、再度マッチでロウソクに火をつけます。

ただし、このセットアップは非常に不安定で、ロウソクが完全に燃え尽きる前に監視を絶対に止めてはならないことを強調します。また、この方法は換気が良く、火災報知器がある場所でのみ行ってください。安全にロウソクを使うための適切な燭台を購入することを強くお勧めします。

本書で断言されていた「意味の壁」を乗り越えているように見える。続けて会話していくと、「市議会とは秩序の混乱を怖れるもの」「デモは暴動になる可能性がある」といった意味も把握していたし、「マッチ箱を燭台代わりに利用できる」アイデアも持っていた。これらは、教わってできるものではないだろう。

大量のデータを元に、それらしい文章を作り出しているというよりも、概念と概念に付随するメタファーも含めて、「理解」した上で回答しているように見える。ジョン・サールの思考実験「中国語の部屋」で喩えるなら、「十分に整備されたマニュアルがある中国語の部屋は、中国人と見分けがつかない」だね。

本書では、他にもボンガード問題を紹介している。2つのグルーピングされた図形から、どのようなルールでグルーピンしているかを類推するという問題だ。

Photo_20230805092101

引用元:Solving Bongard Problems With Deep Learning,2018

https://k10v.github.io/2018/02/25/Solving-Bongard-problems-with-deep-learning/#perfundo-untarget

左の6つのブロックの中は三角形で、右のは四角形というルールであることが分かる。このパターンを認識するというのは人には簡単でもAIには困難だという。『教養としてのAI』の著者の師匠であるダラス・ホフスタッターはこう述べる。

もし「純粋な」知能があるとすれば、ボンガルド問題を解く技能にこそその核心にきわめて近いところにある、と私は信ずる。したがって、パタンあるいはメッセージに「固有の意味」を発見する研究をしたければ、これはそれを始めるに相応しい場所である。
『ゲーデル、エッシャー、バッハ』ダグラス・ホフスタッター、白揚社 p.652

パターンを認識し、固有の意味を発見すること―――茂みのイメージから猛獣が潜んでいるのか果実が実っているのかを判別したり、星辰の運動パターンから洪水の季節を導き出したり―――は、生き延びるために不可欠なものだ。

人が「知識」と呼んでいるあらゆるものは、その抽象度を上げるなら結局のところ、「世界に固有の意味を見出す」ことだ。そして、その取捨判別ができることが「知性」となる。

テキスト文で会話をする限り、GPT-4は、2021年までの知識があり、知性を持っているように振舞っている。画像認識については、2023年7月に公開が始まった「コードインタプリタ機能」が利用できるようになった。

この問題もあっさり解いてしまうかもしれない。




このエントリーをはてなブックマークに追加

|

« ITエンジニアこそ持ってほしい「自分を信頼する技術」 | トップページ | ITスキルを「本」で高める『技術書の読書術』 »

コメント

コメントを書く



(ウェブ上には掲載しません)




« ITエンジニアこそ持ってほしい「自分を信頼する技術」 | トップページ | ITスキルを「本」で高める『技術書の読書術』 »