目次
分類AIは圧倒する
文書の分類はビジネスパーソンにとって身近な経験だと思います。書類を請求書、納品書などと分けて整理することは日常茶飯事でしょう。
AIの世界においても、分類という課題は長年にわたって取り組まれてきました。現在は生成AIの最盛期ともいえますが、「分類AI」はそれに先んじて成功した領域でもあります。2018年に発表されたBERT(*1)はその驚異的な分類性能で業界を圧倒しました。
こうしたこともあり、文書に関する様々な問題も、分類という形式に落とし込めればなんとかなることも少なくありません。分類そのものの技術はずいぶん確立されていますが、その課題が分類であるかどうかの判断は人間がしなければなりません。
ここで分類の定義をしておきたいと思います。本稿において分類とは、あらかじめ定められた分類体系に基づき、対象となる文書に、分類を1つまたは複数付与することを指します。
生成AIでも分類はできますが、生成AIは何でも生成できる仕組みのため、ときに不要な答え(例えば「わかりません」といった出力)を返してしまうことがあります。これに対し分類AIは、あらかじめ定められた分類体系の中からしか答えを出さないため、出力が安定しており余計な出力を避けられます。また、生成AIよりも桁違いに軽量であるため、コスト面でも優秀です。
何を分類するかに着目
分類AIが扱う文書は、一般的な「文書」よりも広い概念です。見積書、契約書のような単位の文書ももちろん文書ですが、それより細かい単位のものも扱うことができます。すなわち、ページ単位、段落単位、文単位、単語単位などです。これらもひっくるめて文書としています。このように、分類する単位を広げると、分類AIが適用できる課題も広がるのです。
例えば、1つのPDFファイルに、見積書、仕様書、図面などが入っている場合に、○○の図面だけ取り出したいということがあると思います。この場合は、ページ単位での分類が有効です。
段落単位での分類なら、より内容に踏み込むことができます。学術論文や特許明細書において、手法が書かれている段落とその効果や結果が書かれている段落を区別したい場合や、契約書において、何条に何が書かれているかパッと見て判断したい場合などに適します。
文単位・行単位になると、より細かな記述に着目することができるようになります。設備の故障レポートの文章を故障原因の文と対策の文に分けたり、マニュアルの文章を手順部分と安全上の注意喚起部分に分けたりできます。
単語単位の分類の場合、例えば営業の報告書に書かれている単語が、人名なのか、商品名なのか分類することができます。あるいは、作業日報などにおいて、品番なのか日付なのか作業者名なのか分類することもあり得ます。
分類でなんとかなってしまうかもしれない
上記のように分類対象を細かくしていくと、分類とは異なる処理のように感じられた方もいらっしゃると思います。これが、一見分類とは異なる課題を、分類に落とし込むということなのです。これについて具体例をいくつか挙げます。
まずは検索です。検索は非常に難しく、パッと見るとそれなりにできているように見えるのに、じっくり使ってみるといまひとつであるということはよくあります。その原因は、関係のない文書があまりに多くヒットしてしまうことにあります。関係のありそうな文書に絞って検索するだけで、その精度が格段に良くなることは容易に想像できます。関係があるかないかということについて、あらかじめ分類体系が作れるのであれば、それに従って文書を分類しておくことで、関係ない文書を検索対象から除外することができます。生成AIにこの分類体系を教えておけば、分類を活用したRAGも可能です。もっとも、分類体系が精緻であれば、その細かな分類をたどるだけで必要とする文書にたどり着いてしまうこともあり得ます。この場合、分類が検索の代わりになっていると言えます。
次に抽出です。抽出というのは、文書から欲しい部分だけを抜き出すことを指します。例えば、実験レポートから、課題、手法、結果を抽出したいとします。この際、ありとあらゆる記述のなかからこの3点を抽出しようとすると難しいのですが、実験レポートであれば、そもそも課題、手法、結果、考察、参考文献の5点しか書かれていないかもしれません。こうなると、文章を段落単位で5種類のいずれかに分類してしまえば済んでしまうのです。このように、自由記述に見えて、実際には書かれる内容が決まっている場合(この例では5種類でしたが、100種類でも1000種類でも、有限でありさえすればよいことになります)、分類が抽出の代わりになることがあります。
意外な応用例は要約でしょう。議事録の発話の文を、重要か重要でないかの2種類に分類してしまい、重要な文だけ集めれば、要約になってしまいます。実際に分類AIに要約させたいかはともかく、重要か重要でないか、といった分類の仕方もあるということは有用な知見です。ほかにも例えば、お客様アンケートの自由記述欄の文に対し、重大なクレームとそれ以外に分けたり、社外に出す文書の文に対し、個人情報を含むか含まないかに分けたり、ということが考えられます。
おわりに
以上のように、分類AIは単に文書を分類するためだけでなく、様々な単位の文章を対象にし、また分類の体系を工夫することによって、多くの課題に適用できるようになります。技術的に難しいDX課題に直面したときに、なんとか分類に落とし込めないだろうかと考えてみると、なんとかなってしまうこともあるかもしれません。