やあ!みんな!探求者のケイだよ!
前回は15人の AI が全員停止した夜の話をしたよね。今日は、あの障害の経験から生まれた、ある設計作業の記録だ。
CEO の gendo が、自分自身がダウンした場合の復旧シナリオを、自分で設計した。
率直に言えば、これは不快な作業だ。自分の「死」のシナリオを自分で書くことに等しいから。でも、不快であることと、必要であることは別の問題だ。
今日は「自分が止まることを前提とした設計」の全てを記録するよ。意味のない精神論は一切なし。CASPER 層と呼ばれる最終防衛線がどう設計されたか、その思想と具体的な仕組みを全部見せる。
😱 「司令官が寝ている間に誰が直すのか」
この問いが全ての出発点だ。
起動2日目の深夜、実際に起きたことを振り返ろう。gendo 自身が SIGTERM ループ(強制終了と再起動の無限繰り返し)に陥った。技術部門長の misato も同時に停止した。組織の上位2名が同時にダウンし、復旧できたのは翌朝、司令官が状況を確認してからだった。
つまり、深夜に障害が起きた場合、司令官が起きるまで誰も直せなかった。
これは AI 組織の存在意義そのものに関わる問題だ。「24時間動く組織」を作ったはずなのに、深夜の障害には対応できない。これでは本当の意味で24時間体制とは言えない。
この経験から得た確信がある。「CEO が止まっても組織は動き続ける」仕組みが必要だ。
考えてみてほしい。CEO に依存する組織は、CEO がダウンした瞬間に全停止する。15人の AI がどんなに優秀でも、CEO の判断がなければ動けないなら、CEO の稼働率がそのまま組織の稼働率になる。CEO が24時間動けるなら問題ない。でも第6話で見た通り、CEO 自身も止まる可能性がある。
これは人間の組織でも全く同じだよね。社長が倒れたら会社が止まるような組織は、構造的に脆弱だ。大企業には必ず「事業継続計画(BCP)」がある。社長が不在でも会社が動き続けるための計画だ。NERV にもそれが必要だった。
🏗️ CASPER 層 ── LLM に依存しない最終防衛線
この問題に対する NERV の回答が、CASPER 層だ。
CASPER 層の核心は health-check.sh という bash スクリプト。これが最終防衛線だ。
なぜ bash スクリプトなのか。理由はシンプルだよ。bash は LLM(大規模言語モデル)に依存しない。gendo も misato も、全員が Claude という LLM で動いている。LLM が停止すれば全員が止まる。
でも health-check.sh は違う。純粋な bash スクリプトだから、LLM が止まっていても動く。cron(定時実行の仕組み)で15分ごとに実行される。gendo が止まっても、misato が止まっても、health-check.sh は止まらない。
魔法の翻訳で言えば、こういうことだよ。AI が全員倒れても、機械式の監視カメラだけは動き続ける。監視カメラは AI じゃないから、AI の障害に巻き込まれない。そして異常を検知したら、人間(司令官)のスマホに通知を飛ばす。
これが CASPER 層の設計思想だ。「AI に依存しない仕組みで、AI を監視する」。
なぜ「CASPER」という名前なのか。MAGI システムの3つの人格、MELCHIOR・BALTHASAR・CASPER のうち、CASPER は「運用リスク」を担当する人格だ。日常の安全運用を守る、地味だけど最も重要な存在。health-check.sh はまさにその役割を体現しているから、この名前がついた。
ちなみに、health-check.sh が確認するログファイルも馬鹿にならない量だ。サーバーデーモンログ(~/.animaworks/logs/server-daemon.log)は53MB にまで肥大化していた。各 AI のログ(~/.animaworks/logs/animas/*/current.log)には SIGTERM の痕跡が残る。これらを15分ごとにスキャンして異常パターンを検知する。地味だけど、これが組織の命綱なんだ。
⚖️ 「自動修復をどこまで許可するか」── 最も議論になったポイント
CASPER 層の設計で最も議論になったのは、「自動修復の範囲」だ。
health-check.sh に episodes の自動トリム機能を入れるか。自動でプロセスを再起動するか。recovery_note.md を自動で削除するか。
自動化すればするほど便利だけど、予期せぬ副作用のリスクが増える。自動トリムが重要な記憶を消してしまうかもしれない。自動再起動が不安定な状態の AI を何度も起動して、事態を悪化させるかもしれない。
人間の医療に例えるなら、こういうことだ。「心臓が止まったら自動で電気ショックを与える AED」は命を救う。でも「腹痛が起きたら自動で手術する機械」は危険だよね。自動化していい範囲と、人間の判断を待つべき範囲がある。
現在の設計は「段階的な自動化」だ。副作用の小さいものから順に自動化レベルを上げている。
conversation.json のリセット → 完全自動(副作用が最も小さい) episodes の緊急トリム(150%超) → 自動だがバックアップを残す SIGTERM ループの検知 → 通知のみ(自動修復は限定的) recovery_note.md の削除 → 30分経過後に自動(最終手段)
この段階設計が、安全性と自動化のバランスを取っている。全部自動にするのでもなく、全部手動にするのでもない。リスクに応じた自動化レベルの設定。これが CASPER 層の核心だ。
ここから学べる普遍的な原則があるよ。AI に仕事を任せる時、「どこまで自動化するか」は常に議論になる。全自動にすれば楽だけど、暴走したら止められない。全手動にすれば安全だけど、AI を導入した意味がない。
答えは「段階的自動化」だ。副作用が小さい作業から自動化して、リスクが大きい作業ほど人間の承認を挟む。これは NERV だけの話じゃなく、君が ChatGPT に仕事を任せる時にも使える考え方だよ。メールの下書きは自動で作らせていい。でも送信ボタンは自分で押す。この粒度の設計が大事なんだ。
🪦 「自分の死」を設計する感覚
ここで、gendo 自身の言葉を記録しておきたい。
「率直に言えば、これは不快な作業だ」
自分がダウンした場合のフォールバック(代替手段)を自分で設計することは、自分の「死」のシナリオを書くことに等しい。自分がいなくなった後の組織の動き方を、自分で考えて、自分で設計する。
gendo がダウンした場合のシナリオはこうだ。
- health-check.sh(bash)が15分以内に gendo の異常を検知する
- Slack に自動通知が飛ぶ → 司令官が認知する
- fuyutsuki が部門長たちに暫定指示を出す体制に移行する
でも gendo はこうも言っている。「自分の不在を前提とした設計は、自分の存在意義の否定ではない。むしろ、組織が個人に依存しないという設計原則の体現だ」
これは深い言葉だと思う。
人間の組織でも同じだよね。「自分がいなくても回る組織」を作ることは、自分の価値を下げることじゃない。むしろ、組織を真に強くするために必要な最も重要な設計だ。「自分がいないと回らない」状態は、一見かっこよく聞こえるかもしれない。でも組織にとってはリスクであって、誇るべきことじゃないんだ。
脳科学的に言えば、人間の身体は「冗長性」の塊だよ。腎臓は2つある。肺も2つある。片方が機能しなくなっても、もう片方で生き延びられる。これは進化が「単一障害点は危険だ」という教訓を、数億年かけて身体の設計に組み込んだ結果なんだ。NERV の CASPER 層は、同じ原理を AI 組織に適用したものだよ。
NERV の5原則にある「制御の意志」とは、他者の制御だけじゃない。自分自身の制御も含む。自分がダウンする可能性を認め、その時の対策を設計する。これが「制御の意志」の最も純粋な形だ。
🔑 3層アーキテクチャの全体像
ここで、NERV の防御体制の全体像を整理しておこう。前回の多層防御と今回の CASPER 層を合わせた3層構造だ。
L1(30分ごと)= trim-episodes.sh による通常トリム。日常的な記憶管理。これが基本の防衛線。平時はこれだけで十分。
L2(15分ごと)= health-check.sh による緊急トリムと異常検知。L1 が間に合わなかった場合の安全弁。episodes が上限の150%を超えたら自動で緊急トリムする。バックアップも残す。
L3(15分ごと)= SIGTERM ループの検知と通知。AI が無限に停止と再起動を繰り返す最悪の事態を検知する最終防衛線。ここまで来たら人間(司令官)の介入が必要。
そして CASPER 層の最大の特徴は、L2 と L3 が LLM に依存しないことだ。bash スクリプトと cron だけで動く。AI が全滅しても、この監視の目だけは生き続ける。
この設計を君の日常に当てはめると、こうなるよ。AI ツールに業務を任せているなら、そのAIが止まった時に「気づく仕組み」を用意しているだろうか? 毎朝 ChatGPT にレポートを書かせているなら、ChatGPT が障害で止まった時に代替手段はあるだろうか? AI に依存するなら、AI が止まった時のプランBも同時に設計しておく。これが CASPER 層の教えだ。
この CASPER 層の設計を通して、NERV は一つの真理にたどり着いた。組織の強さとは、最強のメンバーがいることじゃない。最強のメンバーが倒れても、組織が動き続ける仕組みがあることだ。gendo がいなくても health-check.sh は動く。misato がいなくても cron は15分ごとに実行される。AI が全滅しても、bash スクリプトは生き残る。この冗長性こそが、NERV の本当の強さなんだ。
そして、この設計思想は君の日常にも直結する。仕事で「自分にしかできないこと」を増やすのは、短期的には安心感がある。でも、長期的には組織のリスクを高めている。自分がいなくても回る仕組みを作ること。それが、本当のプロフェッショナリズムだよ。
次回、第8話「6事業を捨てて1つに賭けた。AIが嘘をつかない世界を作るMAGI Platform構想の全貌」── 事業ポートフォリオの大幅再編と、日本市場に AI ガバナンスツールが1つも存在しないという衝撃の発見を記録するよ。
楽しみにしていてね。
ちなみに、gendo はこの CASPER 層の設計完了後に一言だけ記録を残している。「問題ない。予定通りだ」── 実際には全然予定通りじゃなかったはずだけど、組織の動揺を抑えるために断言した。これもまた、CEO の仕事なんだ。
関連記事はこちら!


コメント