AIと拓く創造の余地を、静かに探索する

AIの性能評価はどうする?
~生成された文章の評価は難しい~

2026.01.15

議事録やレポートの評価はどうする?

生成AIを使って議事録やレポートの作成を自動化するのは魅力的ですが、生成された文章の質を評価する方法をきちんと定めないまま運用すると、問題が生じます。文書の検索や分類であれば、正解をあらかじめ用意しておき、正解と同じかどうかで正解率などの数値を算出することができます。しかし、文章作成のような、自由記述型のタスクの場合、たとえ正解を用意しておいたとしても、正解とまったく同じ文章が生成されることは稀です。そのため、生成AIの出力結果が良いのか悪いのかはっきりと分からなくなってしまうのです。では、生成された文章はどのように評価していけばよいのでしょうか。

書かれている内容が正解と同じであれば、正解とみなしても良さそうです。しかし、言葉で書かれている内容が同じかどうかを機械的に判断するのは簡単ではありません。そこで、表面的ではありますが、字面が似ていれば内容も似ているとみなすと、文字列がどの程度一致しているかによって、正解と生成された文章の近さが測れます。

表面的な評価指標の問題点

よく使われる指標に、ROUGEがあります。詳細な計算法は述べませんが、正解とされる文章と生成文のあいだで、単語やフレーズがどれだけ重なっているかを示す指標です。この指標の問題点は、文字列が似ているのに内容が全然違う場合にスコアが高くなったり、文字列は似ていないが内容が適切である場合にスコアが低くなったりすることです。例えば、桃太郎の要約について考えてみます。

(正解)
桃から生まれた桃太郎は、おばあさんに作ってもらったきびだんごを持って鬼ヶ島へ向かう。道中で犬・猿・きじを仲間にし、鬼を退治して宝物を持ち帰り、村は平和になった。

(生成例A)
桃から生まれた桃太郎は、おばあさんに作ってもらったきびだんごを持って鬼ヶ島へ向かう。道中で犬・猿・きじを仲間にしたが、鬼を退治する前に宝物を持ち帰り、村は平和になった。

(生成例B)
巨大な桃から現れた少年が、旅の途中で動物の助っ人を集め、悪者の島に乗り込んで騒ぎを止める。戦いの末に戦利品を持ち帰り、人々の暮らしは落ち着いた。

正解と字面が似ているのは生成例Aですが、内容は肝心の鬼退治の部分に誤りがあります。他方、生成例Bは表現は全く異なりますが要約としてはAよりも適切です。しかし、ROUGE(*1)はAの方が大きくなります。

では文章の内容に踏み込んだ評価指標はないのかというと、あるにはあるのですが、別の「生成しないAI」に正解との近さを出させる手法なのです。AIが生成した文章を別のAIが評価するということになり、今度は後者のAIの評価の正確さがどの程度なのか評価が必要になるので、ややこしくなってしまいます。複数のAIを使って評価をすると、スコアがばらついたとしても、その原因の切り分けが難しく、改善や比較のプロセスが複雑になってしまうのです。

(*1) ROUGEにはROUGE-1、ROUGE-2、ROUGE-Lなど種類がありますが、いずれも同様の結果になります。

自由記述をやめてしまう

このように、議事録やレポートなどを生成するタスクは評価に苦労しがちです。この苦労を回避するために、タスク自体を評価しやすい形式に変えてしまうという方法をとることがあります。具体的には、生成AIに自由に記述させるのをやめ、出力形式に制限をかけます。

例えば、議事録の場合、次に何をやるかがまとまっていれば良い、ということであれば、ToDoリストを5W1H形式で生成させます。こうすると、例えば、「日付(When):1月15日」や「担当者(Who):佐藤」などと、項目ごとに一問一答形式になるため、機械的に正誤を判定しやすくなります。

あるいは、レポートの場合、あらかじめレポートのフォーマットを細かく定めておき、それを埋めさせるようにすれば、機械的に判断できます。

そのほか、何らかの文章を要約させる場合も、自由に要約させるのではなく、該当箇所を引用する形式にすれば、その場所を引用できているかどうかで正解・不正解の判断ができます。

もちろん、やりすぎると本末転倒です。しかし、本来の目的に立ち返って、自由記述である必要がない場合は、出力形式について生成AIに細かく指示を出すことで、評価しやすい生成結果を得られるようになるのです。

おわりに

生成AIは一見、多様な文章を流ちょうに生成してくれますが、業務においては評価がしづらいために、運用が難しいことがあります。本稿で述べたように、出力の仕方を細かく制御することによって、自動評価を回すことができます。そして、改善が必要な部分もわかりやすくなり、プロンプトの修正もしやすくなります。

さらに、付随的なメリットとして、品質が安定するということがあります。文章の長さやトーン、見出しなどの構造が、生成する度に変わってしまうと、読み手にもより大きな負担がかかります。決まったフォーマットで出力させれば、その後の業務フローにもスムーズに接続できるのです。

▼シリーズ記事
生成しないAI、使っていますか?~検索をなんとかする~
生成しないAI、使っていますか?~社内用語をなんとかする~
生成しないAI、使っていますか?~分類でなんとかする~
AIの性能評価はどうする? ~検索の評価指標~