AIを評価するAIとは？ツールの基準と方法について

2024年12月19日

URLをコピーしました！

AI技術の進歩も進み、AI生成ツールなどもかなり身近になってきました。

そんな中、「AIを評価するAI」というものが発表され話題になっています。
具体的に何をするのでしょうか？

そこで今回は、「AIを評価するAI」の内容や評価AIについて紹介します。

生成AIの評価方法とは？

2024年10月下旬に行われた「AI inside Conference 2024」

生成AI活用の為のリスクや課題の克服をテーマにしたもので、
その対策として「AIを評価するAI」が発表されました。

AIを評価する理由は？

テクノロジー研究開発会社「AI inside」の渡久地CEOが
AIの「ハルシネーション」対する対策として開発したのが「Critic Intelligence（CI）」です。

「ハルシネーション」とは、生成AIによる「誤情報」のことで、
生成AI活用の大きな問題となっています。

生成AI活用に対する不安の約59.2％がこの「ハルシネーション」だったのです。

AIを評価するAIとは？

渡久地CEOは開発した「Critic Intelligence（CI）」を「AIを評価するAI」と説明し、
生成AIの「ハルシネーション」を低減させるために開発したと話しています。

「Critic Intelligence（CI）」は、生成AIの誤情報を検知して修正するAIです。

その検知率は89.86％となっており、生成AIの「ハルシネーション」を
0.25％まで低減できたと報告されていました。

今後の動きは？

「AIエージェント」という生成AIを搭載し、常にAIの「ハルシネーション」を監視して
検知する相棒のような仕組みを導入する予定のようです。

これにより、大きな問題となっていたAIの「ハルシネーション」問題が
大きく改善されるかもしれません。

今後の進捗報告に期待したいですね。

生成AIの評価ツールとは？

先ほど紹介したもの以外でも、生成AIの評価ツールが存在します。

評価ツールや生成AIの評価観点などもみていきましょう。

評価ツールとは？

生成AIの評価には2種類あります。

自動評価
人間評価

特定の指標などを元に計算して評価するのが、「自動評価」です。

評価ツールなどもこちらになります。

「人間評価」はその名の通り、生成されたものを人間が評価する方法です。

現状ではそおまで精密な評価は「自動評価」ではできないので、
最終的には「人間評価」で評価している現状になります。

ですが、「Critic Intelligence（CI）」の登場で大きく変化が期待できると思います。

評価の観点

AIを評価するにあたり、8つの評価観点があります。

それぞれ詳しくみていきましょう。

〇真実性

先ほども紹介した「ハルシネーション」なども関係してくる観点です。

現状のAIの回答には限界があり、
どうしても誤情報や「ハルシネーション」が入り込んでしまいます。

これまでこの問題にぶつかっていたのですが、
「Critic Intelligence（CI）」の登場で大きく改善される可能性が見えてきました。

〇安全性

現状の生成AIは発展途上の分野であり、自由度も高いです。

その分、悪用される危険性もあり、
実際に「敵対的プロンプト技術」など悪用されやすい技術も問題になっています。

このような技術で悪用されないような安全性の確保も評価観点の1つとなります。

〇公平性

世界中に多くの文化、社会生活が存在する現代で公平性を保つのは非常に困難です。

生成した文章が特定の文化などに偏ってしまう場合もあります。

真実性と同じく、生成AI開発の壁となっている問題点の1つです。

〇堅牢性

堅牢性とは対応力の柔軟性を表します。

ビジネスシーンでの活用による業務効率化や
日常的な些細なノイズ（ら抜き言葉や誤植など）を減らし、より柔軟な対応力を目指す観点です。

〇プライバシー

個人情報などを扱う場合、プライバシーの観点は非常に重要です。

「ChatGPT」で機密情報がリークされるなどの事件も起こっており、
プライバシー管理の向上が求められています。

場合によっては大きな情報流出のリスクがあるので、非常に重要な評価点です。

〇機械倫理

生成AIを使用するのが人である以上、「人の倫理観」に沿っている必要があります。

例えば、「商品を安く見せたい」という要望に、
「消費税や手数料は分かりにくく表示する」というのは倫理的に反しています。

この様な問題を取り除くことが機械倫理では重要です。

〇透明性

生成AIの元となる「LLM」のパラメータの変化は「数千億～数兆」と膨大です。

その中から導き出した予測結果を説明するのは非常に困難になります。

その為、どうしてそのような結果になったのか、結論までの真実性や安全性が重要です。

また生成AIに対して間違った認識を持たせない透明性も必要になってきます。

〇説明責任

生成AIに問題があった場合の責任や、
著作権などに関する責任の所在を明確にする必要があります。

現状では問題があった場合に誰に責任があるのか曖昧で、
今も議論が続けれている状況です。

著作権などは生成AIと切り離せない問題なので、
このあたりの整備も必要になってきますね。

まとめ

今回は、「AIを評価するAI」の内容や評価AIについて紹介しました。

その結果がこちらです。

「Critic Intelligence（CI）」によって「ハルシネーション」が0.25％に
生成AIの相棒として「AIを評価するAI」が常設化される未来も
生成AIは8つの観点から評価されている

まだまだ発展途上の技術である生成AIですが、今回の「Critic Intelligence（CI）」発表で、
今後の生成AIが大きく変わるきっかけになったのではないでしょうか？

今後のAI技術の発展に期待したいですね。

よかったらシェアしてね！

URLをコピーしました！