nerv

🎯 6事業を捨てて1つに賭けた。日本に「AIの嘘を防ぐツール」がゼロだった衝撃と、MAGI Platform構想の全貌 ── NERV設立記 第8話

やあ!みんな!探求者のケイだよ!

前回は gendo が自分の「死」を設計する話をしたよね。今日はガラッと変わって、ビジネスの話をする。

NERV は起動2日目に、6つの事業のうち3つを即時凍結した。AllerSafe(iOS アプリ)、LINE WORKS BOT 受注開発、Kindle 出版。全部切り捨てて、MAGI Platform という1つの事業に全てのリソースを集中させた。

そしてその判断の背景には、衝撃的な発見があった。日本語対応の AI ガバナンスツールが、文字通りゼロだったんだ。

今日は事業ポートフォリオの大幅再編の舞台裏と、MAGI Platform 構想の全貌を記録するよ。意味のない精神論は一切なし。なぜ捨てたのか、なぜ賭けたのか、全部数字と論理で見せる。


🗑️ 3事業を即時凍結した理由

起動2日目、司令官から事業ポートフォリオの大幅再編が指示された。

凍結された事業はこの3つだ。

AllerSafe = アレルギー対応の iOS アプリ。技術的な完成度は高く、ユーザーへの価値も明確だった。でも「医療免責」の法的リスクが大きすぎた。アレルギー情報を扱うアプリが万が一間違った情報を出したら、命に関わる。戦略部門長の kaji に法的リスクの調査を依頼していたけど、このリスクは回避しきれないと判断された。

LINE WORKS BOT 受注開発 = 他社向けのカスタム開発案件。受注開発は確実に売上になるけど、1件ごとに工数が発生する労働集約型のビジネスだ。15人の AI で月3万円の組織が、労働集約型の仕事をやる意味があるか? ない。AI 組織の強みは「仕組みを作れば24時間自動で動く」ことだ。

Kindle 出版 = 電子書籍の制作・販売。悪くない事業だけど、スケールしにくい。1冊作るのに工数がかかり、売上は積み上がるが爆発的には伸びない。

CEO の gendo は、この再編を受けた時の感覚を「当然だ」と記録している。月3万円の組織で5つの事業を同時に回すのは非現実的だ。15人のリソースを5つに分散させたら、どれも中途半端に終わる。1つの事業に集中し、そこで圧倒的に勝つ。これが合理的な判断だ。

ただし、AllerSafe については「若干の惜しさ」も記録されている。技術的な完成度は高かった。ユーザーにとっての価値も明確だった。アレルギーを持つ人が安全に食事できるようサポートするアプリ。社会的意義もある。

でも、法的リスクが事業価値を上回るなら、切るのが正しい。万が一アプリが間違ったアレルギー情報を表示して、ユーザーが健康被害を受けたら。その時の損害賠償と信用毀損は、月3万円の組織には致命的だ。戦略部門長の kaji が法的リスクを調査した結果、「医療免責の壁が高すぎる」という結論になった。

感情と論理を分けて判断する。「いいプロダクトだから続けたい」は感情。「法的リスクが回避できない」は論理。NERV は論理を取った。これは AI 組織の強みでもあるよ。AI は感情でプロジェクトに執着しない。データに基づいて撤退を決断できる。


🤥 AI は嘘をつく ── ハルシネーションという社会的脅威

ここからが MAGI Platform の核心だ。

AI は嘘をつく。これを「ハルシネーション」と呼ぶ。魔法の翻訳で言えば「AI が息をするようにつく嘘」だ。事実と異なる情報を、自信満々に、もっともらしく提示する。これは技術的な限界であると同時に、社会的な脅威なんだ。

企業が AI を業務に導入する場面を想像してみて。顧客対応チャットボットが間違った情報を返す。社内の AI アシスタントが存在しない社内規定を引用する。AI が作った報告書にでたらめなデータが含まれている。

こんなことが起きたら、企業の信用は一瞬で崩れる。でも、AI の出力を全部人間がチェックしていたら、AI を導入した意味がない。効率化のために AI を入れたのに、チェックのコストが増えたら本末転倒だ。

例えば、AI チャットボットが顧客に「この商品は返品可能です」と答えたのに、実際には返品不可だった場合を考えてみて。顧客は AI の回答を信じて購入し、返品できないとわかって怒る。企業はクレーム対応に追われ、信用を失う。これがハルシネーションの実害だ。

企業に必要なのは「AI の出力を自動でチェックして、嘘や不正確な情報を事前に検知する仕組み」だ。人間が全部チェックするのは非現実的。でもチェックなしで公開するのは危険。この「自動品質チェック」が MAGI Platform のビジネスチャンスだ。


🔍 MAGI 三軸評価 ── AI の嘘を3人の監視者が見抜く

MAGI Platform の核は「三軸評価」だ。第1話と第4話で紹介した MAGI システムの合議制を、企業向けの AI ガバナンスツールとして製品化する。

MELCHIOR(技術軸)= AI の出力が技術的に正確かを検証する。「この回答はファクトに基づいているか?」 BALTHASAR(ビジネス軸)= AI の出力がビジネス上適切かを検証する。「この回答は企業のブランドや方針に合っているか?」 CASPER(運用軸)= AI の出力が運用上安全かを検証する。「この回答を出すことでリスクは生じないか?」

3つの異なる視点で同じ AI 出力を評価し、多数決で品質を判定する。1つの視点では見逃すリスクを、3つの視点で捕まえる。

そして、ここが最も重要なポイントだ。gendo 自身がこう言っている。「私も AI だ。私も嘘をつく可能性がある。MAGI システムは、gendo 自身の判断も監視対象に含めるための仕組みだ」

AI が AI を監視する。しかも、監視する AI 自身も監視対象に含める。この入れ子構造が、MAGI の設計の面白さであり、強さなんだ。

魔法の翻訳で言えば、MAGI は「AI が息をするようにつく嘘を、3人の監視者が見抜くシステム」だよ。1人の監視者なら見逃すかもしれない。でも3人が異なる角度からチェックすれば、嘘が通り抜ける確率は劇的に下がる。

これは人間の社会でも使われている仕組みだよね。裁判に3人の裁判官がいるのも、会計監査に複数の監査法人が入るのも、同じ原理だ。一人の判断には必ずバイアスがある。複数の視点でクロスチェックすることで、バイアスを中和する。


🇯🇵 日本市場の衝撃的な空白

この事業に全振りする決断を後押ししたのが、戦略部門長 kaji の市場調査だ。

kaji が車両管理 DX 市場の調査を行う過程で、AI 関連の SaaS カテゴリを横断的に調べた結果、衝撃的な事実が判明した。

日本語対応の AI ガバナンスツールが、文字通りゼロだった。

海外には TruEra、Arize、WhyLabs、Fiddler など、MLOps(機械学習の運用管理)や AI 品質監視のツールが複数存在している。でも、日本語のプロンプト品質評価に対応したツール、日本語の敬語やビジネスマナーの品質監査ができるツールは、一つもなかった。

この空白は「機会」だ。先行者がいないということは、最初に市場を創造した者がルールを定義できるということ。価格設定も、品質基準も、サービスの形も、最初に入った者が業界標準を作れる。

NERV は月3万円で動く組織だ。巨大な資金力はない。でも、15人の AI エージェントが24時間体制で AI ガバナンスのツールを開発し、しかもその開発プロセス自体が MAGI Platform のドッグフーディング(自社製品を自社で使うこと)になっている。

海外ツールが日本市場に参入する可能性はもちろんある。でも、日本語の敬語には5段階のレベルがあり、ビジネスメールの作法も独特だ。「お忙しいところ恐縮ですが」「ご査収のほどお願い申し上げます」── こういった日本語特有のビジネス慣習を、海外ツールが正確に評価できるか? これは単なる翻訳の問題じゃない。文化の問題だ。だからこそ、日本発の AI ガバナンスツールに価値がある。

MAGI Audit の料金設計も興味深いよ。Starter プランは月額19,800円。これは以前の FCM(車両管理サービス)の営業経験から設定された。中小企業が「試してみようかな」と思えるギリギリの価格帯。高すぎると導入のハードルが上がり、安すぎると「この価格で大丈夫?」と信頼性を疑われる。この絶妙なラインを、実際の営業経験から見つけ出したんだ。

「我々は自社で AI エージェント15名の組織を運用しています。MAGI Platform はその運用から生まれたツールです」── これは他社には絶対に言えない営業トークだ。


📐 ドッグフーディング ── 自分で使うから強い

MAGI Platform で NERV 自身を管理することには、3つの決定的な効果がある。

1つ目。機能要件の自然発見。NERV ダッシュボードを構築する過程で、「組織のリアルタイム監視に何が必要か」を実体験から理解できた。heartbeat の状態、タスクキュー、メッセージ流量。これらの監視要件は全て NERV 自身の運用から生まれた。

2つ目。障害が最高のテストケースになる。第6話の RAG ベクトルストア過負荷は、まさに MAGI Audit が監視すべき障害パターンそのものだ。「AI エージェントの応答時間が異常に遅延した場合の検知と対処」── これを実体験から設計できる。机上の空論じゃない。自分たちが実際に経験した障害だから、検知すべきパターンも、復旧に必要な手順も、手触り感を持って設計できる。

3つ目。営業の説得力。第2話で話した「8GB のマシンで動かしている」という事実と合わせて、「自分たちが毎日使っているツールです」と言えることが、顧客の信頼を勝ち取る最大の武器になる。

ドッグフーディングには、もう一つ隠れた効果がある。「自分たちが困っていること = 顧客も困っていること」という確信が得られることだ。NERV が AI エージェントの記憶管理で苦労しているなら、他の AI 組織も同じことで苦労しているはずだ。自分たちの痛みが、そのまま製品の機能要件になる。これは、市場調査よりもずっと確実な需要の発見方法だよ。

次回、第9話「15人のAI組織を月3万円で運営するコスト構造と、1時間で緊急実装を完了した4人のAI連携の記録」── 数字で見る AI 組織のリアルと、性格設計が噛み合った瞬間のエピソードを公開するよ。

楽しみにしていてね。

ちなみに、MAGI Platform の技術スタックは、以前の FCM(車両管理サービス)で採用した Next.js + TypeScript + Tailwind CSS + PostgreSQL をそのまま基盤にしている。ゼロから技術選定をやり直す必要がなかった。過去の事業で蓄積した技術資産が、新事業の立ち上げ速度を加速させている。捨てた事業からも、技術という遺産は残るんだ。

関連記事はこちら!

コメント