目次
「なんでもできる」は「なんにもできない」?!
毎週のように生成AIの新機能や新サービスの情報が流れてきます。ウェブから情報を収集してレポートを作成してくれたり、ちょっとした指示でプレゼンに貼り付けるための画像を制作してくれたり、どんどん便利になっています。メールのやり取りや資料作成のような事務仕事から解放される日も近い……と期待してしまいます。
ところがいざ自分の仕事の一部を任せてみると、細かいところでどうも意図通りにならないと感じることはありませんか。ウェブじゃなくて社内の技術資料から○○と××について調べてまとめてほしいのだけれどできないとか、特定の設備の部品の図を生成してほしいのにできないとか、よくあります。
一般的、汎用的なことであれば、生成AIに任せてしまえば良いでしょう。しかし、専門性が高まってくると、うまくいかないことが増えます。それもそのはず、その専門性(の一部)は社内に閉じているからです。一般的な生成AIサービスは、インターネットにある大量の文書を用いて訓練されていますが、社外秘の文書は1文字たりとも使われていません(使われていたら情報漏洩です。)
活用したい文書資産は社外秘のはず
会社に50年の歴史があれば50年分の情報資産が積みあがっているはずです。これこそが他社にはない競争力の源泉になるかもしれません。DXの文脈で、こうした文書の活用に取り組まれてきた方も多いと思います。様々な技術やサービスを適用していくなかで、最後まで残る課題の1つが、社内用語です。
本稿で社内用語とは、社外秘の文書にしか出てこない用語を指します。これは、専門用語よりも狭い概念です。専門用語は、特定の業界や学問分野で使われる用語であり、公開されている特許・論文や製品カタログ等にも使われますので、生成AIもある程度知っているのです。
社内用語の難しさはいくつかあります。まず用語を用語として捉えられないことです。例えば、「シャ運A」という社内用語があったとしましょう。通常の生成AIや検索システムではこれが1語と捉えられることはなく、「シャ」「運」「A」と3つに分かれてしまうでしょう。この状況でRAGを行っても、シャ運Aに関する文書は得られないかもしれません。
次に、社内用語なのに、表記が定まっていないことです。「シャ運A」だと思っていたら、「シヤ運A」と書かれている文書を見つけてしまった、そう思ったら今度はシャが半角カタカナになっていた、Aが「エー」になっていた、「社運A」と誤字があった、ある部署だけ「運A」と表記していた――手作業で全てを拾うのは途方に暮れます。
社内用語集を自社で用意するとなると、その作成には多くの人の協力を得ねばなりませんし、作った後の更新が大変です。更新しなければ使われなくなってしまいます。
社内用語を狙い撃ちする生成しないAI
このような、ピンポイントの課題に適用しやすいのが、生成しないAIです(詳細は前回の記事をご覧になってください)。ここでちょっとした実験をしてみます。社内文書は手に入りませんので、公開されている東京都議会の議事録を社内文書に見立てて、生成しないAIに学習させました。どのようなAIにどのような学習をさせたかの詳細は省きますが、次に示すような語句が議事録データから抽出され、社内用語ならぬ都政用語として1語で認識されるようになりました。
- パークマネジメントマスタープラン
- ゼロエミッション東京戦略
- 多摩シリコンバレー
- 白子川地下調節池
- 東京ゼロエミ住宅
- 補助第二六号線
- 臨海三セク
- ESAT
続いて、このAIに、ある都政用語に関連する別の都政用語を出させてみます。
まずは、「東京防災」に関連する用語を出させると、
- 東京くらし防災
- 防災ブック
- 防災ノート
次に「JKK」に関連する用語を出させると、
- 東京都住宅供給公社
このような生成しないAIを、例えば検索システムに挟み込んでおくと、社内用語を含む文書をうまく検索できるかもしれません。
おわりに
AIに社内文書を学習させようという取り組みは珍しくありません。しかし、現在の生成AIの性能は、莫大なデータを使用することによって担保されているもので、その生成AIから社内事情を踏まえた回答を引き出すのに、社内文書の量ではあまりに少なすぎると考えられます。今回利用したような、用途特化型のAIならば、思った出力を得るための学習に、そこまで多くのデータを必要としません。
ビジネスの現場では、なんでもできる汎用生成AIではなく、1つの仕事を高い精度でこなしてくれるAIが必要とされる場面も少なくありません。小さく作った生成しないAIが上手くハマる場面を見極め、組み合わせて使っていくことが、より良いAI体験をもたらしてくれることもあるのです。