生成AIを利用しながら噓を言わせた事例 ~Minja攻撃が示唆するリスク~ 

※今号は生成AIによってドラフトされた内容を
執筆者が編集してお届けしています。

一昨年のChatGPTの公開以降、急速に普及する生成AIが
もたらすメリットは大きいですが、
同時に、リスクも増大しています。

犯罪の手口を教わる、攻撃的な主張をするように教え込む、
など、生成AI悪用の事例は数多く報告されています。

そして、今月、米国ミシガン州立大学、米国ジョージア州立大学、
シンガポールマネージメント大学の研究者によって、
Minjaと呼ばれる攻撃が報告されました。

この攻撃は、AIのバックエンドへの管理アクセスを必要とせず、
ユーザーの操作だけで実行できます。

Minjaは、AIモデルが過去のやり取りを基に
文脈に沿った回答を提供するための
メモリ保持機能を悪用します。

攻撃者は、一見無害なプロンプトを使って
AIモデルに偽情報を受け入れさせ、
その後の質問に対する回答に影響を与えます。

研究者たちは、OpenAIのGPT-4および
GPT-4oモデルを基にした3つのAIエージェントで
Minjaをテストしました。

これらのエージェントには、
医療AIアシスタントやカスタムビルドの
質問応答モデルが含まれます。

テストの結果、Minja攻撃により、
患者記録の誤った関連付けや
製品の誤った推奨が発生しました。

この攻撃の危険な点は、
「文章としては問題無い回答に見えながら、内容が間違えている」
ことであり、今回の実験で用いられた
医療データなどでは人命に関わる事態も想定されます。

生成AI使用にあたり、
HITL(Human-In-The-Loop:人を必ず介在させる)
を適用する重要性を改めて示した事例とも言えます。

もっとも、全ての出力に適用するのは
生産性にも影響するので、バランスを考えた適用が求められます。

※こちらは、執筆時点2025年3月19日での情報に基づいて書かれています。
従って、その後に明らかになった事などが
内容の充足度合いや正確さに影響を及ぼしている可能性が有ります。

弊社の社名となっている「レジリエンス」は、
「回復力」や「弾性」を意味する英単語です。

つまり、環境の変化や突発的な事象に対して
しなやかに粘り強く対応していく
立ち位置を意味しています。

目まぐるしく変化する時流の中で、
それを見極めつつ流されない解決策を提案致します。

そして、弊社は、ITインフラとセキュリティの
プロフェッショナル集団として
多数の実績を誇る株式会社アイロバと
密接なパートナー関係にあります。

同社はWAFのBlueSphereをはじめとした
国産独自開発のソリューションも多数保有し、
同時に、インターネットから脆弱性の露出状況を
把握できるSecurityScorecardの国内代理店でもあります。

【メルマガ監修】
サイバーレジリエンス株式会社 CTO 米沢 和希
■CISSP-ISSAP(情報システムセキュリティプロフェッショナル認定)
■CISA(公認情報システム監査人)
■PMP (プロジェクトマネジメントプロフェッショナル国際資格)