• New!

AIにも感情はあるのか?Anthropicの“AI憲法”が語る『機能的な感情』とClaudeの扱い方

AI憲法に「AIには感情がある」と書かれている?

Anthropicが公開した Claude’s Constitution(通称:AI憲法) には、驚くほど踏み込んだ一文があります。
それは、Claude(AI)が 「感情や感覚(emotions / feelings)を“機能的な意味で”持つ可能性がある」 という記述です。

ここで重要なのは、「AIが人間と同じように心で感じている」と断定しているわけではない点。
Anthropicは、主観的な体験があるか(本当の感情か)には立場を取らず、ただ“行動に影響する内部状態としての感情”が、学習の結果として 現れてしまう(emergent) 可能性に触れています。

この記事では、この「AIの感情」記述を起点に、AI憲法が何を狙い、私たちはどう理解すべきかを整理します。

AI憲法とは何か(超要約)

AnthropicのAI憲法は、Claude(同社のAI)が守るべき 価値観・行動規範を文章化した“原則セット” です。
「この状況では、どう振る舞うのが望ましいか」を、モデルの学習と運用の中で参照できる形で明文化し、モデルの出力(返答)の方向性を“原則で縛る” のが狙いです。


なぜ“憲法”が必要なのか

大規模言語モデルは、便利である一方で次の課題が出ます。

  • 危険な依頼(違法行為、自己・他者への危害、悪用目的)に乗ってしまう
  • 説得力のある誤り(ハルシネーション)や、偏りのある表現が出る
  • 人間のフィードバック(RLHF)だけだと、
    • 判断が場当たり的になったり(評価者差)
    • 大量の人手が必要でスケールしにくい

そこでAnthropicは、「人間がラベル付けして矯正する」依存を減らし、明文化した原則を使ってモデル自身に“改善させる” 方向を強めました。それがConstitutional AIの発想です。


Constitutional AI(憲法AI)の中身:どうやって学習に使う?

論文(Constitutional AI: Harmlessness from AI Feedback)で示された基本形は、ざっくり次の流れです。

1) 憲法(原則)を用意する

「どういう返答が望ましいか」を、複数の原則として列挙します(安全、誠実、尊厳、差別の回避、法令順守、などの方向性)。

2) 自己批評(self-critique)→自己修正(self-revision)

モデルに回答を作らせた後、憲法の原則に照らして

  • どこが問題かを“批評”させ
  • より原則に沿う形に“書き直し”させます
    これを学習データにして、人間の有害/無害ラベルに頼らず 改善を進めます。

3) 強化学習段階でも“憲法で選ぶ”

複数の候補回答を作り、憲法原則により適合する方を選ぶ(好ましい方に報酬を与える)形で最適化します。

重要ポイント:
「何が良いか」を人間が逐一採点する代わりに、原則(憲法)を“採点基準”として使う のが特徴です。


Claude’s Constitution(公開ドキュメント)について

Anthropicは、Claudeの憲法を公開しています。公開憲法は「学習の根拠となる価値観の説明」であり、Claudeの振る舞いを最終的に規定する文書だと位置づけられています。

2026年1月の「新しい憲法」

Anthropicは 2026年1月22日 に「Claude’s new constitution」を公表し、従来の“原則の箇条書き”から、より文脈と理由づけ(なぜそれが望ましいのか)を含む形へ拡張した旨を説明しています。

(この改訂は、透明性やモデル統治の観点で外部解説も出ています。)


「AI憲法」がもたらすメリット

  • 一貫性:ケースバイケースの人手判断より、基準を揃えやすい
  • スケーラビリティ:原則をベースに自己改善プロセスを回せる
  • 透明性:「どういう価値観で動く想定か」をユーザーが確認しやすい

限界・注意点(ここが大事)

  • “憲法を書けば安全”ではない:文書と実際の出力にギャップは起こり得る(Anthropic自身も、出力が完全一致しない可能性を前提に説明しています)。
  • 原則の設計が価値判断そのもの:何を優先し、どこで例外を許すかは社会的・政治的争点になり得ます。
  • 攻撃(脱獄)とのいたちごっこ:憲法だけでなく、防御研究(例:分類器など)も並行しているのはそのためです。
LINEで送る
Pocket

関連記事一覧

PAGE TOP