概要
AIセーフティ・インスティテュート(AISI)は、AI技術の安全性確保を推進する組織です。AISIが公開した「AIシステムへの既知の攻撃と影響」は、AIシステムに対する代表的な攻撃手法と、その影響をまとめた資料です。
主な攻撃手法
| 攻撃手法 | 概要 | 影響 |
|---|---|---|
| プロンプトインジェクション | AIへの入力を工夫して意図しない出力を引き出す | 機密情報の漏洩、システム制御の奪取 |
| データポイズニング | 学習データに不正なデータを混入して挙動を操作 | AIの判断精度の低下、偏向した出力 |
| 敵対的攻撃(Adversarial Attack) | 入力データに微小な変更を加えてAIを誤認識させる | 画像認識・自動運転等での誤判定 |
| モデル抽出攻撃 | APIへのクエリを通じてモデルを再構築 | 知的財産の窃取 |
| メンバーシップ推論攻撃 | 学習データに特定のデータが含まれるかを推定 | プライバシーの侵害 |
影響と被害
- ビジネスへの影響:AI意思決定の信頼性低下、サービス品質の劣化
- セキュリティへの影響:AIを活用したセキュリティ製品の迂回
- プライバシーへの影響:学習データに含まれる個人情報の漏洩
- 社会的影響:偽情報の生成・拡散、フェイクコンテンツの悪用
対策の方向性
- 入力のバリデーション・サニタイズによるプロンプトインジェクション対策
- 学習データの品質管理とデータの来歴管理
- 敵対的学習(Adversarial Training)によるロバスト性の向上
- AIシステムの出力監視とアラート
- AI利用ポリシーの策定と従業員教育
まとめ
AIシステムへの攻撃はプロンプトインジェクション、データポイズニング、敵対的攻撃など多岐にわたります。AIを業務に導入する際は、これらのリスクを理解し、入力検証、データ管理、出力監視の対策を講じましょう。