AI自身のIQテスト

star_borderこの記事を購読

GreigRS 8 Dec 2023

0star_border 0question_answer 0thumb_up

Dave from DesignSpark

こちらの記事について、内容・翻訳・視点・長さなど、皆様のご意見をお送りください。今後の記事製作の参考にしたいと思います。

Dave from DesignSpark

Thank you! Your feedback has been received.

Dave from DesignSpark

There was a problem submitting your feedback, please try again later.

Dave from DesignSpark

こちらの記事の感想をお聞かせください。

インテリジェンス（知能）には様々な形があります。感情の知能や社会的な知能は主観的なものとして説明され、人間の状態に大きく関係する一方、情報処理能力は脳だけに制限されるものではありません。知識を処理するということは、私たちにとって一般的な知能であるかもしれませんが、知能の定義は拡大して、機械を含むようになってきています。

機械がどのようにして、こういった跳躍を成し遂げられたのか、理解するのは難しくはありません。知識は、論理的推論と問題解決を通じて得られるものであるとみなすことができ、機械はこの、論理的推論を非常に得意とします。バベッジの階差機関（Babbage’s Difference Engine）はまさにそれに基づいたものです。しかし、本物の知能はまた、知識に基づいた推論も行います。この点で、基礎的な機械と人工知能による機械とが、はっきりと線引きされているのです。推論は、AIと機械学習システムの大半を占めており、私たちは現在、小型デバイスに推論を導入するために尽力し、これらをシンプルな手続きの実行だけでなく、自ら決定を行い、行動するものへと成長させていきます

現在の機械は知能を持っていると言えますが、果たして、どの程度の知能であるかは依然として疑わしいところです。タスクを正しく完遂する能力を測定することで、少なくとも何らかの知能があると証明することはできます。しかし、どれだけタスクが上手くなされたかの測定の際は、主観的な要素が入ってしまうでしょう。

知能指数、すなわちIQは、本来精神年齢を暦年齢で割ったものです。現在、IQは、確率論と標準偏差を使用することで、より客観的に測定されていますが、依然として推定にすぎません。おそらく、IQスコア信用しすぎるべきではありませんが、能力の標準化には役立つ方法だと言えるでしょう。

標準的な能力測定方法を用いることは、それを人工知能デバイスに適用する際に、一層重要となるでしょう。ある人のIQスコアは、その日のその時点において、どのようなパフォーマンスであったかまでのことしか実際に示すことはできませんが、AIが常に実行され、強化学習が用いられるのであれば、長期的には一貫して良くなっていくはずです。これはAIQスコアをずっと意味あるものにし、特にAIをサービスとして売る場合には有益なものとなります。

AIのIQをどう測定するか考えることがテーマとなる討論では、人間の知能の測定よりもずっと多様で、自説に固執したものとなっています。少なくとも、AIが時間の経過によってどのように改善されるか、追跡することが可能でしょう。人と違い、AIは加齢による知能の退化にわずらわされることはないと私たちは予想します。論理的には、現在デプロイされているAIは、年齢とともにより良くなると考えられます。

AIは年を取るか？

AI can it age

IQテストが示すことができるものの一つに、退化したことが、タスクを実行する際、いかに影響を与えるかということがあります。一定の年齢グループにおいて、脳のトレーニングアプリケーションは、かなりの人気を誇ります。脳の活動という観点から考えると、加齢を逆転させることができるためです。脳は、身体の他の筋肉がそうであるように、定期的な運動により、恩恵を受けるものなのです。

同じことがおそらくAIにもいえます。ただし、これについてはまだ確認するだけの十分なデータがないでしょう。しかし、もしもAIが使用することによって改善していき、それには時間がかかるのであれば、AIには年齢があると考えることはできるのでしょうか？思春期のAIは好奇心が強く、のびのびしています。一方で、より成熟したAIには責任感があり、注意深く、過去の失敗経験から様々なことを学びます。エッジや、ボリューム内にデプロイされているAIは、これら2つの年齢の間である必要があります。すなわち、共有の知識から恩恵を受けると同時に、より素晴らしい体験に貢献することも可能です。

あなたがAIサービスに対して支払いを行うとしたら、子供っぽさを取り除いたAIを求めますか？実際には、AIの年齢を評価する唯一の方法（あるいは推定成熟度と呼ぶ方が良いかもしれません）は、何らかの形でその能力を測ることです。IQテストは、その候補にあがります。

処理に使えるリソースがほぼ無限にまで拡張可能であるサーバーファームやデータセンターで最もよく見られることですが、AIは依然として、ハードウェアとソフトウェアのコラボレーションで成り立っているものであるということは重要です。これはAIを、処理リソースに非常に限りがあるようなネットワークのエッジに導入した場合、より明白になります。AIを実行するのに必要とされるプロセッサの性能は、通常のエンドポイントで必要とされるリソースよりも間違いなく高いでしょう。どれだけの知能が必要とされ、どれだけよくハードウェアが動作するのかによって、必要なリソースがどの程度高いのか決まります。このため、標準となる何らかの測定方法があることが、近い将来きわめて重要な点となるでしょう。

MLのベンチマークの構築

AI Machine learning

一般的に推論モデルを使ってML（機械学習）を実装するような文脈において、AIをエッジに導入することが話題にあがります。これらは、クラウドコンピューティングでのデータセンターのように、大型で、制約が少ないフレームワークにおいて、AIシステムとして通常のトレーニングがされたモデルであり、その後、与えられたデータに基づいて推論や決定を行うことができるモデルを作成するため、簡素化されます。これらは、専門的なハードウェアやソフトウェアと比べると、依然複雑なシステムであり、MLモデルをさらに小さなアーキテクチャへ移植する取り組みが行われる一方、いまだにかなりの量のCPU、GPUサイクルを必要とします。

エンベデッド・マイクロプロセッサ・ベンチマーク・コンソーシアム（EEMBC: the Embedded Microprocessor Benchmark Consortium）は、20年余をかけて独立したベンチマークを開発しています。最近のものではMLMarkベンチマークがあり、これは、エッジデバイスでの機械学習の推論を特徴としています。EEMBCの教義は、ベンチマークは再生可能であり、透明性があり、制約があってはならないというものです。

こういった目的にかなうためには、製造業者が所定のデータセットと規則に沿ってベンチマークを実施しなくてはなりません。MLMarkでは、画像のデータセットを使用することで、画像の特徴を検知するのにプラットフォームがどれだけ上手にMLを実装できるのか測定します。これは、MLを現実世界でどのように使用するか示す例である一方、製造業者がエッジデバイスでMLを使用する際の使い方すべてをカバーするものではありません。しかし、通常は、製造業者のソフトウェアフレームワークを使用して行うような、特定のプロセッサの性能を測定するための、優れた基準点を提供することが可能です。

こうした理由から、MLMarkベンチマークは、特定のプラットフォームの、特定のアプリケーションに対する知能測定方法を提供することはできず、また、それを意図していません。こういった場合には、異なるアプローチが必要でしょう。

私が4歳児であるとして、説明してください

人の知能は、量と質の指標をもとに測定されます。子どもは試験により順位付けられ、平均のスコアにより分類する際の基準となる枠組みが与えられます。標準となる試験を提案し、それに合意できる場合には、同じアプローチをAIに適用することができます。

もう一つの選択肢としては、デバイスに組み込まれる知能の種類とその程度を細かく定義することが挙げられます。例えば、エッジデバイスでは主に論理的推論が使用され、人工的共感はほとんど、ものによってはまったく使われていません。ドアや窓のセンサーを監視するようなセキュリティシステムには優れたオプションかもしれませんが、顔認識を使ったアクセスコントロールにはおそらく向いていないでしょう。

これらの指標の必要性に誰も気付いていないわけではありません。PerMIS（Performance Metrics for Intelligent Systems）ワークショップは過去20年間にわたり実施されており、元々、アメリカ国立標準技術研究所 (NIST)などの政府機関から、一部資金援助されているPerMISは、調査を継続して行っています。

創造性の点から人工知能を測定することに対し、関心が高まっています。クリエイティブサービスは、機械的な自動化が可能な他の活動に比べて、AIからの脅威が小さいとよく言われます。しかし、最近になって、人工的な創造性の例がより頻繁に見られるようになっていて、単に楽器を演奏するだけでなく、楽譜を作成したり、歌詞を書いたり、絵を描くことをAIに教えるといった例が挙げられます。

これは、知能を測定するということを、はっきりと主観的な側に戻すものです。人々が感情的な知能による芸術作品を受け入れることは困難です。そのため、感情的な知能を具体的に表現するようなものを作り出すAIの能力を判断するには、どうしたらよいのでしょうか？

エッジ端末にAIを導入

AI deployed at the edge

一般的に、求めるAIパフォーマンスに対してどれだけの演算リソースが必要になるかの見極めが重要です。現在のところ、特定のアプリケーションに対して、実際に試してみる他に方法はありません。であれば、私たちはまず、AIを試す必要があります。

これはつまり、リソースを適切な場所に設置することを意味します。通常小型で低電力、さらには廉価な（ただし、必ずしもすべてがそうではない）エッジデバイスの場合、使用されるプロセッサが、これら3つの項目すべてで、最大の予算を使う部分となります。MLが実装されることを想定するのであれば、より多くの処理リソースをエッジデバイスに入れるのか、または、MLの処理を削って、利用可能な処理リソース内に収まるようにするのか、といった2つの選択肢があります。これらの2つのどちらにも、それなりのメリットを持っています。

製造業者は、ワット当たりのパフォーマンスを、以前よりもずっと多く提供可能です。パワー・ゲーティングや、クロック・ゲーティングなどの技法は、システムの消費電力を低く抑えるのに役立ち、また、ハードウェアアクセラレータや高性能メモリの使用によっても、実行電力を低く抑えます。これらすべてに加え、この業界では、フィーチャーサイズの小型化を推進しており、これにより、さらに低い動作電力で動くというメリットがあります。

同時に、トレーニングにより生み出されるソフトウェアモデルの最適化のために、多大な労力がつぎこまれています。研究者はニュートラルネットワークの不要な部分を削る新しい方法を研究中で、これが実現すれば、推論エンジンが小さくなり、より少ないシステムリソースで動作するようになります。uTensorフレームワークや、TensorFlowLite Microといったプラットフォームは、こういった道を切り開くのに役立っています。

現在、実際に労力が注がれているのは、AIの能力測定方法の評価ではなく、ましてや特定のタスクに必要な知能量の推定でもなく、AIがいつでも使用可能な場合に、いかにAIをデプロイしやすくするかということのように感じます。私たちは、十分に満足できるAIの測定方法の開発や、どれだけのAIをアプリケーションが必要とするのかのモデル化を、永遠に実現することができないかもしれません。しかし、処理リソースをより手頃なものにする競争で勝つことができれば、おそらく、そういったことは実際に問題とならないのでしょう。

thumb_upいいね star_borderこの記事を購読

GreigRS star_borderフォローする

Favourite things are Family, Music and Judo. Also, I have the ability to retain and quote useless facts, something that pleases me but can annoy others. My engineering hero - Isambard Kingdom Brunel

AI自身のIQテスト

次の記事

こちらの記事について、内容・翻訳・視点・長さなど、皆様のご意見をお送りください。今後の記事製作の参考にしたいと思います。

Thank you! Your feedback has been received.

There was a problem submitting your feedback, please try again later.

こちらの記事の感想をお聞かせください。

AIは年を取るか？

MLのベンチマークの構築

私が4歳児であるとして、説明してください

エッジ端末にAIを導入

次の記事