|EN

ユースケースから理解する LLM (1/3) ユースケースによる AI の再整理

Filed under:

はじめに

近年の AI に関する技術の発展はすさまじく、世間の注目を集めています。とくに、LLM (Large Language Model; 大規模言語モデル) や生成モデルの与える影響はとても大きく、予想以上にさまざまな方が AI の活用方法やその社会的な影響について関心を持っています。

専門家や技術者は、以前からそのような技術について興味関心を持っている方が多いのですが、機械学習やソフトウェア技術についてまったく詳しくない方も関心を持たれているようです。

とくに、最近は一般の方から改めて「AI で何ができるの」「AI はどういうものなの」とご質問いただくことが多々ありました。そこで、一歩踏み込んでご質問いただいた理由を伺ってみたところ、「何ができるのか興味は持っているものの、AI について知識を深めることが難しい」という意見をいただきました。

そこで、このシリーズでは AI が用いられる身近な事例を述べていきます。記事の中では技術的な背景や理論については触れずに、ユースケースのご紹介に注力します。とくに、学習の詳細についてはできるだけ触れず、できるだけ想像しやすいような内容になるよう努めます。

シリーズの内容は次を予定しています。

  1. ユースケースによる AI の再整理
  2. 文章を扱う LLM の代表的なユースケース
  3. 文章と画像を扱う LLM の代表的なユースケース

まず、最初の記事である本記事では、ユースケースによる AI の再整理を行います。AI と呼ばれる技術は急速にユースケースを拡大しており、「AI」という言葉の指す範囲が曖昧になりつつあるように思います。そこで身近なユースケースに着目し、あらためて AI の代表的なユースケースや、近年急速に発展しつつある LLM や生成モデルが活用されるユースケースについて確認します。

次の記事では、文章を扱う LLM の代表的なユースケースについて確認します。LLM を活用したアプリケーションとしてもっとも有名なもののひとつである ChatGPT や、一般の LLM の代表的なユースケースについて、具体例をもとに確認します。

最後の記事では、文章と画像を扱う LLM の代表的なユースケースについて確認します。LLM は「言語モデル」という名称を超えて、言語だけではなく画像を扱うことができるものもあります。この記事では、画像と言語を両方扱うことで可能になる事柄について確認します。

以降では、ユースケースによる AI の再整理を行います。身の回りにある「AI」について、改めて確認してみましょう。

ユースケースによる AI の再整理

身の回りの AI について改めて確認しましょう。業務で触れるものを除外して考えた場合、身の回りにある AI はおおむね次の3通りになると思います。

  • ゲームの AI
  • コンテンツの推薦システム
  • 画像や文章を生成する AI

ここでの AI は何らかの身の回りのアプリケーションやサービスに組み込まれているものを想定しています。一方、業務利用される AI は少し趣が変わっており、何らかの予測を行ってユーザーに情報提供を行うものが多いです。このタイプの AI の多くは、天気予報や渋滞予想のように、何らかのスコアを予測することで専門家向けに情報を提供します。具体例や活用する上での課題については以前記事にしていますので、そちらをご参照ください。

では、ゲームのAI、コンテンツの推薦システム、画像や文章を生成する AI について、それぞれ具体例、入力元と出力先、評価方法について確認していきましょう。

ゲームの AI

最初のタイプの AI は「ゲームのCPU」です。これはシミュレーターやゲームの上で動く AI で、ゲーム内のキャラクターや敵の行動を制御する AI です。具体例は囲碁や将棋を行う AIや、ゲームの NPC が該当するでしょう。

これらの AI は、ゲームから得られるさまざまな情報をもとに、ゲーム内のキャラクターや敵のプレイヤーの戦略や行動を決定します。将棋や囲碁などのボードゲームであれば、盤面の情報やこれまでの打ち筋、ゲームの CPU であれば、ゲーム内の世界の情報を入力とします。

これらの AI の出力はシミュレーターやゲームによって利用され、キャラクターやCPUの行動を決定します。

これらの AI の評価はシミュレーターやゲームのルールに則って行われます。囲碁や将棋などのボードゲームであれば勝敗判定や得られたスコアの高低が評価値として用いられるでしょう。

また、現実のシミュレーションが高精度に可能な場合も同様の AI として理解できます。このような AI の例として、自動運転が挙げられます。

自動運転では、走行車から得られた LiDAR などの情報を元に、シミュレーターの中で現実の交通状況を再現し、AI がシミュレーターの中で車を運転することで実際の車の運転方法を学んでいきます。この場合、評価値としてはドライバーの運転との一致度や事故を起こさずに走行できた距離などが用いられるでしょう。

コンテンツの推薦システム

コンテンツの推薦システムは、動画や商品などの中からユーザーにオススメのコンテンツを選び出して提示する AI です。典型的な例としては Amazon や Youtube といったサービスにおけるリコメンドが挙げられます。

これらの AI はサービス内のデータを入力とします。用いられるデータは、コンテンツに関するデータとユーザーに関するデータに大別されます。コンテンツに関するデータの具体例には、動画の再生回数や、商品の購入回数が挙げられます。ユーザーに関するデータの具体例には、ログイン回数や、総再生時間、ジャンル別の閲覧回数などが挙げられます。

これらの AI はシステム内でコンテンツのオススメ具合を示すスコアを予測します。予測したスコアはシステムによって利用され、ユーザーに提示するアイテムのリストが作成され、提示されます。提示されたアイテムに対するユーザーの行動の結果 (購入した、再生した、など) は AI の評価に使われます。

少し話は変わりますが、これまでの深層学習も、基本的には出力自体は何らかのスコアとなっており、それをシステムが利用するようになっています。不良品検出などのアプリケーションでは人間がスコアを直接利用することもありますが、その場合は天気予報のようにスコアを人間が解釈できること、解釈した結果に基づいて行動できること、といった条件が必要です。

画像や文章を生成するAI

さいごに、画像や文章を生成する AI について確認していきましょう。最近、話題になっているのはこのタイプの AI で、LLM が用いられるのも主にこのユースケースです。

実はこれまでも、文章や画像を生成すること自体は以前から盛んに行われてきています。この分野はさまざまなブレイクスルーにより、汎用性が飛躍的に向上しました。

画像生成と文章生成では違った内容の (中には共通する内容の) ブレイクスルーがありましたが、昨今 ChatGPT を中心に話題となっている文章生成に関しては、ざっくりと「収集可能な限りの一般的なデータを学習させた」「流暢に話すように話すように高品質なデータでチューニングした」という2点が大切です。

このため、よくありがちな文章や問いかけに対する返答は得意です。一方、ゲームのプレイや、特定のルールに沿った論理的な思考は必ずしも得意ではありません。次の画像はこのブログ記事から DALL-E3 を用いて作成した画像です。

この画像はブログの要約としてはよく機能しており、AI を映像コンテンツの推薦に利用している様子が見て取れます。一方、画像中の単語を見てみると、”RECOMMENATIONS” や “STIO” という存在しない単語が生成されています。これは画像生成モデルが「英単語として実在する」というルールに適応できていないことを示しています。

この AI の入力はさきほど見たように文章や画像であり、これ自体は新規性のあるものではありません。しかし、出力を直接人間が見る手法については、さきほど述べたようにさまざまなブレイクスルーがありました。

これらの出力結果は人間が基本的には評価することになります。このため、他のユースケースと比較すると評価基準が曖昧になりがちで、評価が困難なことも珍しくありません。

大まかに、学習データに似た内容を出力させる技術や、莫大な量の画像・文章データを覚えさせる技術が発展してきました。このため、生成される画像は既存の画像や文章ではありませんが、既存の文章や画像に似てしまうこともあります。急激な技術発展に伴い、新たな問題や過去から存在する問題が再燃していることも事実です。

さいごに

この記事ではさまざまな AI について、広く再確認をしてきました。

さいごに注意点を2点述べておきます。まず、それぞれの背後にある技術はかなりの部分で共通します。あるユースケースで使われた技術が別の用途に使えないというわけではなく、組み合わせることでさらなるユースケースが実現できる可能性があることは覚えておくと良いでしょう。

また、この記事で述べた以上のことが近い将来実現される可能性は十分あります。近年発展の目覚ましい LLM について、どのような能力を持っているのか解明するための研究が進行中です。この結果、さらなる能力を AI が獲得する可能性はまだ存在するでしょう。

一方、課題があるものの、有用な技術であることは事実です。このブログ記事の最初に掲載されている画像は文中の画像同様に、DALL-E2 を用いてこのブログポストから生成したものです。改めて見返して頂くと、本文中でも言及した LLM の長所短所が現れているのを発見できるかと思います。

次回では、文章を扱う LLM について、より具体的なユースケースを確認しましょう。


Citadel AI では LLM のテストを行うツールとして LangCheck を OSS で開発しています。LLM の評価のためのツールとしてお試しいただければ幸いです。

ご質問・ご要望はこちらまで

デモのご要望やご質問は、こちらまでお寄せ下さい。

Related Articles