目次
生成AIと生成しないAI
「生成AI」という言葉はすっかり市民権を得ました。「AI」=人工知能は良いとして、「生成」とは何なのか、振り返りたいと思います。
言語をコンピュータで扱う学問領域のことを自然言語処理と言いますが、「生成」(generation)はこの領域におけるテクニカルターム(専門用語)です。より正確には自然言語生成(natural language generation)と言い、AIの出力が文章であることを指します。例えば、翻訳、要約、対話などが生成の範疇です。確かに、ChatGPTやGeminiなどの生成AIはこれらに対応しています。
自然言語処理の研究成果には、生成以外のものもたくさんあります。本稿では、これをひっくるめて「生成しないAI」とします。
生成AIと生成しないAIの違いは先の定義から明らかですが、それぞれのAIの扱い方にも大きな差があります。生成AIは文章を自由に生成できますが、生成しないAIは出力を強く制限することができます。例えば、0~1の数値で出力してほしい場合、「良い」「悪い」のどちらかだけを出力してほしい場合などにおいて、生成しないAIはそのように出力するよう設計できます。生成AIの場合、そのように指示を出すことはできますが、そうなる理論的な保証はありません。保証をするためには、例えば、0~1以外の何かが出てきたら0とみなす、といったロジックを実装することになりますが、精度に問題が生じます。文章を生成したいのであれば生成AIが良いのですが、文章を出したいわけではない場合、生成しないAIを選んだ方が総合的にみて良いかもしれないのです。
RAGですべて解決・・・?
Retrieval-Augmented Generation(RAG)――検索により拡張された生成――が救世主に見えた方は多いと思います。大量のファイル、フォルダ構成も謎、どこになにがあるかも分からない、マニュアルを探すのに1時間……それが生成AIを使ったRAGなら解決されるのではないか、と。
RAGは文字通り、検索+生成という構成です。検索して得られた文書から必要な情報を生成AIが抜き出して、まとめてくれるものです。この概念自体は昔からありますが、ChatGPTなどの生成AIの登場によって強化されたのはG=Generation(生成)の部分で、検索の部分ではありません。そして、これまで困っていたことは、生成ではなく検索だったのではありませんか。もしそうなら、生成だけ強化されても状況は変わっていないことになります。そして、検索が上手くできるのであれば、生成AIにまとめてもらう必要はなく、その文書を人間が読めば事足りる――ということも少なくありません。
専門性の高い文書は生成しないAIで構造化する
雑多な文書の中からそれらしいものを見つけられれば良い場合、従来の全文検索でも十分機能します。最近ではベクトル検索によって類義語なども含めた検索ができ、これを実装したRAGも効果を発揮することでしょう。
しかし、専門性が高くなってくるとそうはいきません。なぜなら、それらしい文書が多すぎて、絞り込めないからです。例えば特許を検索する際には、Fターム(*1)で分野を絞り込んだり、出願企業を指定したり、直近数年分だけ見たりします。それはキーワード検索ではおびただしい数の特許がヒットしてしまうからです。
特許はFタームや出願日のようなメタデータがきちんと付与されているため、絞り込み検索ができるのです。では社内文書はどうでしょうか。会社によっても文書の種類によっても取り組みの度合いは様々でしょう。最近の文書は良いが、昔の文書は全く手つかずであるというケースもあると思います。
文書から、検索に使えそうな情報を抜き出してまとめておく作業を人力でやるのは本当に大変ですが、ここで活用すべきなのが生成しないAIなのです。比較的簡単にできることは、
- 担当者名や営業所名を抜き出す
- 型番やIDを抜き出す
- 日付を抜き出す
- 数値を抜き出して単位をそろえる
- 原因、結果など特定の記述・セクションを抜き出す
- 文書の種類を判定する
- 略称を正式な表現に書き換える
生成しないAIを使って文書を加工し、それをデータベースに登録すれば、RAGを使って「〇〇工場の××設備が20XX年ごろ故障した際の原因と対策を調べたい」「〇〇さんが××社を訪問した際の先方△△さんの発言を全部見たい」「過去に××を対象に〇〇法の実験をしていたらその際の結果が知りたい」といった質問の答えが得られる可能性がグッと高まります。 (*1) 特許庁が定める特許の分類のひとつ。
おわりに
DXの取り組みでは、目に見える成果や華やかな技術に目が向きがちですが、実際には、情報をすぐ取り出せる状態をつくるといった地道な基盤整備こそが後々の力になります。生成AIの活用を見据えるなら、まずは社内に眠る情報資産に目を向け、使える形に整えておくことが、遠回りに見えて一番の近道かもしれません。