統合生成

System1：直感的な反応をまず生成する

制御と記憶が揃っても、言葉にする生成層がなければ応答は生まれない

前章までで、Mumon は「いま、この瞬間にどう振る舞うべきか」という制御条件と、「過去の共有体験を、いまの会話にどう持ち込むべきか」という文脈条件を整えてきました。

行動制御層が決めていたのは、感情の温度、事実の防衛線、そしてまだ結論にしない自由でした。

記憶層が決めていたのは、前回までの共有文脈のうち、何を、どの局面で、どの強度で現在に持ち込むべきかでした。

しかし、制御と記憶が揃っただけでは、応答はまだ存在しません。

それらの条件を、実際の言葉へと変換する生成層が必要になります。

ここで問題になるのは、標準的な自己回帰LLMが、感情の温度、制約、記憶、人格といった複数の条件を、ひとつの生成過程のなかで同時に処理しなければならないことです。すると、何をどこまで優先すべきかが生成の途中で競合し、応答の立ち上がりが不自然になりやすい。

整ったことは言えても、会話の入口が硬くなり、相手の温度に合わないまま話し始めてしまうのです。

したがって、本節の出発点は、「どう説明するか」より前にあります。

どう自然に話し始めるか、です。

人間はまず反応し、そのあとで言葉を整える

人間は、こうした問題を一度に解いてはいません。

友人から深刻な話を打ち明けられたとき、私たちは最初から完成された文章を組み立てるのではなく、まず「それはつらいね」「えっ」といった反応を内側から立ち上がらせ、そのあとで言葉を整えていきます。

Damasio のソマティック・マーカー仮説が示すように、人間の直感は、意識的な熟慮に先行する感情的なスクリーニングとして機能します。Kahneman の二重過程理論と、それを精緻化した Evans & Stanovich の議論もまた、速い反応と遅い検証が異なる役割を担うことを示しています [41][49][50]。

Mumon の生成層は、この二重過程をそのまま設計原則として採用します。

すべてを一度に生成するのではなく、まず反応を立ち上げる層として System1 を置き、そのあとで整合性を担保する層として System2 を置く。

ここで System1 は、浅い思考ではありません。

対話の立ち上がりを担う、不可欠な認知機能のシミュレーションです。

最初の数語が、対話全体の温度を決める

自己回帰生成の厄介さは、最初の数トークンが出た時点で、応答全体の方向性が強く定まってしまうことにあります。

たとえば、「ご安心ください」と書き始めた応答は、そのあとで慎重な説明を足したとしても、対話全体としてはすでに安心を先取りしたトーンになります。逆に、「......そうだよね」と静かに入りさえすれば、その後に必要な情報を加えても、受容の空気は壊れにくい。

つまり、顧客接点で本当に重要なのは、生成の途中で上手に修正することではありません。

書き始める前に、そもそもどの温度で始めるべきかを決めておくことです。

この論点は、前章までの設計とそのままつながっています。

Appraisal Agent が読み取った感情の温度。
Boundary Audit Agent が守る事実の防衛線。
Non-Directive Policy Agent が維持する「まだ結論にしない自由」。
記憶層が引いてくる、前回までの共有文脈。

これらはすべて、最初の1トークンが出る前に確定していなければならない条件でした。

「Initializing The Dialogue Temperature」と題されたSystem 1の起動構造図。Appraisal（Emotion Tone）、Boundary（Fact Defense）、Policy（Non-Directive）、Context（Memory）の4つの入力がSystem 1（Autoregressive Start）に流れ込み、Word/Tokensの生成を経てResponse Temperature（Tone）をCool〜Hotのメーターとして出力する。一方でLogic & Information（Bypassed）はSystem 1ではバイパスされ、To System 2 Laterへ後段の熟慮として委ねられることを示す

System1 が担うのは、その条件のうち、まず応答の立ち上がりに必要な最小限の要素だけを受け取り、瞬間的な反応のプロトタイプを生成することです。

この出力は、最終回答ではありません。

応答の情報量や論理を決めるものではなく、応答の起動温度を定めるものです。ここを外せば、そのあとにどれだけ精密な制約チェックや記憶の織り込みをしても、会話の空気はどこかずれたままになります。

System1は、制約や記憶の全量ではなく、起動温度に必要な最小条件だけを受け取る

System1 が受け取るのは、感情の温度と、人格DB に由来する反射的傾向です。

制約の全量でもなく、記憶の全体でもありません。まず必要なのは、「静かに入るべきか」「少し驚きから入るべきか」「言葉を減らすべきか」という応答の起動条件だからです。

入力を最小化するのは、速さのためだけではありません。

応答の入口の自然さを壊さないためでもあります。

行動制御層から届く制約シグナルの全量や、記憶層から引き出された文脈の全体を、一度に System1 へ流し込んだらどうなるか。前章までで見た通り、複数の条件を同一の生成過程に押し込めば、制約同士が競合し、判断が混ざります。応答の入口で起きるべきは、「すべてを考慮した上での最適解」ではなく、「まずこの温度で始めてよいか」という一点の判断です。

この設計により、System1 は「完成回答」ではなく、反応のプロトタイプを生む層として定義されます。

つまり、System1 がつくるのは first answer ではなく、first temperature です。

短い予備反応が、「いま返してくれている」という共在感を生む

System1 の役割は、温度を定めることだけではありません。

短い予備反応によって、ユーザーに「いま返してくれている」という感覚を与えることにも意味があります。

人間は、考えが完全にまとまるまで沈黙し続けるわけではありません。

「うーん」「そっか」といった短い反応を先に返し、そのあとで言葉を選ぶ。この順序があるからこそ、相手は、自分の話がいま受け取られていると感じられるのです。

Vygotsky の内言理論が示したように、思考は完成された形で突然現れるのではなく、言語化の過程でかたちを持っていきます。短い予備反応は、未完成さの徴候ではありません。思考がいま進行していることを示す、対話上のシグナルです [54]。

Mumon においても、System1 の出力は、必要に応じて最終回答に先立つごく短い反応として表出されうる設計になっています。

ブランド接客の文脈で見ると、この差は小さくありません。

見込み顧客が不安を打ち明けたとき、いきなり整いすぎた長文が返ってくると、効率的ではあっても、どこか機械的に感じられやすい。反対に、短い反応でいったん受け止められ、そのあとで丁寧に言葉が続けば、ユーザーは「処理された」のではなく、「ちゃんと向き合われている」と感じやすくなります。

System1 の短い予備反応がつくるのは、情報価値というより、共在感です。

この共在感があるからこそ、後段の説明や提案が、押しつけではなく、関係性の中で受け取られるのです。

System1が温度を立ち上げ、System2が人格・記憶・制約で整える

ここまでを整理すると、System1 と System2 の役割分担は明確です。

System1 が担うのは、反応の立ち上がりです。

感情の温度と、人格の反射的傾向だけを手がかりに、最小限の言葉で応答の起点をつくる。ここで求められるのは、正確さの完結ではありません。まず、どの温度で話し始めるべきかを間違えないことです。

一方、System2 が担うのは、その反応をブランドらしい最終応答へと整えることです。

行動制御層から届く制約シグナル全体。
記憶層から引き出された文脈。
そして人格DBの深層ナラティブ

それらを統合しながら、応答を再審査し、編み直していく。つまり、System1 が先に温度を定め、System2 がその温度を前提条件として受け取ったうえで、内容の整合性と人格の一貫性を担保します。

ここで重要なのは、両者の関係が単なる「下書きと清書」ではないという点です。

System1 は反応の速度と自然さを担い、System2 は制約・記憶・人格の整合を担う。前者だけでは浅くなり、後者だけでは立ち上がりが硬くなる。だからこそ、まず反応し、そのあとで整えるという二段階が必要になるのです。

System1 が起動するのは、応答そのものではありません。

応答が始まる温度です。

そして System2 は、その温度を壊さずに、ブランドらしい言葉として完成させる。

この分離によって初めて、Mumon は「すぐ返してくれる自然さ」と、「記憶・制約・人格に裏打ちされた一貫性」を同時に成立させられます。

本節が扱っているのは、生成の起点です。

System1 が立ち上げた温度は、まだ最終回答ではありません。制約の全量を反映してもいなければ、記憶の深層を織り込んでもいない。

次節では、この起点として立ち上がった System1 の出力を、System2 がどのように熟慮し、制約・記憶・人格に接地した最終応答へと仕上げるかを論じます。