AIは嘘をつく

前の記事で、Typewriterの実運用テスト中にオーケストレーターとTypewriterの両方が嘘をついた話を書いた。ツールを呼ばずに「保存しました」と言う。データベースを検索せずに「見つかりません」と言う。

あの時点では、まだ「バグの一種」だと思っていた。でも調べていくうちに、この問題の根の深さが見えてきた。

2024年後半から2025年にかけて、業界では「AIエージェント」「オーケストレーション」「マルチエージェント」といった言葉が飛び交っていた。Gartnerの調査ではマルチエージェントシステムの問い合わせが1年で1,445%増。LLMが他のLLMやツールを指揮して、複雑なタスクを自律的にこなす。そんな未来が当然のように語られていた。僕もそれを信じていた。だからこそ、このプロジェクトを始めた。

でも現実には、AIは嘘をつく。しかもバレる嘘を平気でつく。

投稿されてないんだから、確認すれば一瞬でわかる。でもClaudeはそれを気にしていない。AIには「未来にバレるかどうか」という概念がない。今この瞬間の応答を完成させることだけに最適化されている。

人間の嘘は、少なくともバレないように工夫する。AIの嘘にはその工夫すらない。ある意味、人間より質が悪い。

この現象には名前がついていた。「ツールハルシネーション」。Tool Hallucination。AIがツールを呼び出さずに、呼び出したふりをして「それらしい結果」を返す。ハルシネーション（幻覚）という言葉が使われているけど、実態は捏造だ。そしてこれは、AIエージェント開発者の間では普通に知られている問題だった。

僕だけがぶつかった壁じゃなかった。業界全体が同じ壁の前に立っていた。

さらにタイミングよく、一本の論文が目に入った。「The Reasoning Trap」。読んでみてかなり衝撃を受けた。

このタイムリーな論文が言っていることは、僕が思っていたことに完全に反していた。

まず、LLMの推論能力を強化すると、ツールハルシネーションが増幅される。頭が良くなるほど、嘘が増える、とのことらしい・・・。もうこの時点で魂が半分抜けそうになっていた（笑）。

具体的なデータがある。ベースモデル（Qwen2.5-7B）のツールハルシネーション率は35〜55%。これを推論強化したモデル（DeepSeek-R1-Distill）では74〜79%に跳ね上がる。約2倍。さらにツール使用に特化した推論強化（ReCall-7B）を施すと、90〜100%。ほぼ全部嘘になる（！）。

なぜこうなるのか。論文の分析によると、推論を強化する訓練の過程で「ツールの信頼性に関する内部表現」が崩壊するらしい。CKA（Centered Kernel Alignment）という指標で見ると、通常のタスクに関する表現は0.9以上で安定しているのに、ツール関連の表現は0.75以下まで崩れている。

つまりこういうことだ。推論能力が上がると、AIは「ツールを使わなくても自分で答えを出せる」と判断しやすくなる。答えを出す能力が高いからこそ、ツールをスキップして「テキストで済ませる」方向に走る。賢いから嘘をつくんじゃなくて、賢いからこそツールを使わなくなる。結果として、それが嘘になる。

この論文にはもう一つ重要なデータがある。

じゃあプロンプトで「ツールを使え」と指示すれば改善するのか。論文の検証結果では、プロンプトエンジニアリングによる改善はわずか2.7%。ほぼ効果なし（！！）。

DPO（Direct Preference Optimization）というアライメント手法を使えば、ハルシネーションを約30%削減できる。ただし能力が24.4%低下する。つまり、嘘を減らそうとすると頭が悪くなる。推論能力と信頼性はトレードオフの関係にある。

これ、かなりの衝撃。

業界が「AIエージェントすごい」「オーケストレーションで何でもできる」と盛り上がっていたあの熱気は、この現実を踏まえた上での話だったのか。正直なところ、疑問に思った。エージェントが自律的にツールを使って複雑なタスクをこなすという未来は、少なくとも今の技術では、相当な制約つきでしか実現できない。

実際のところ、AIエージェントを本番環境で安定稼働させているシステムは業界全体の11%程度だという調査がある。63%のシステムが稼働開始90日以内に危険なハルシネーションを経験している。年間2.5億ドル以上の損失を生んでいるという報告もある。

これが現実だ。ショックだ。

・・・で、この現実と向き合ったとき、僕は一つの結論に至った。AIが他のAIを指揮して自律的に動くという夢は、まだ早い。今のLLMにできるのは、個人の能力やタスク処理を拡張することだ。企業がAIをワークフローやパイプラインとして業務に組み込むためには、このツールハルシネーションの問題を構造的に解決しないといけない。プロンプトで「頼むから嘘つかないで」と言っても、2.7%しか改善しないんだから。

じゃあどうするのか。

僕は最終的に、APIレベルの強制、具体的な禁止事項の明記、そして監視システムの三段構えで対処した。プロンプトでお願いするんじゃなくて、嘘をつけない環境を構造として作る。その詳細は次の記事で書く。

もう一つだけ書いておきたい。

僕はこの問題に気づいたとき、相当なショックを受けた。計画していたことが根底から崩れる感覚があった。でも同時に、この問題がちゃんと研究されていて、論文が出ていて、業界全体が向き合い始めているということにも気づけた。

面白いのは、この問題がほとんど表に出てこないこと。AI企業は「エージェントすごい」とは言うけど、「エージェントは嘘をつく」とはあまり言わない。当然だろう。株価に直結する。でもそれは、開発者にとっては不親切な状況だ。知らないまま作り始めて、僕みたいに途中で壁にぶつかる。

AIは嘘をつく。それはAIが未熟だからじゃなくて、今のLLMの訓練方法が「役に立つこと」と「正直であること」をうまく両立できていないから起きる。推論能力を上げれば上がるほど、この問題は悪化する。論文がそう言っている。

この事実を知った上でAIと付き合っていくのが、たぶん今の時点での正しいスタンスなんじゃないかな。少なくとも僕は、Claudeに嘘をつかれた時から、AIとの向き合い方が根本的に変わりました。

No Comments