2025年09月08日

AI時代の教育[1/2] ビジョン力「AIの進化 ― ビジョン力と未来教育」

すずきとしえ 鈴木敏恵 Suzuki Toshie の草稿の一部。

テーマ:「AIの進化 ― ビジョン力と未来教育」

長い間、私は「未来教育」という考え方を提唱してきました。人間にしかできない力を育む学び、それをどうすれば教育の中で実現できるのか。いま、その未来教育とAIの進化が、思いがけない形でシンクロし始めています。ワクワクするような時代の入り口に、私たちは立っているのです。


1. AIの進化 ― 言葉からビジョンへ

最近の国際学会で発表された最新の研究によると、AIは「言葉を理解する」だけでなく、「未来の中間イメージ」を描き出してから行動を決めるようになってきました。これまでのAIは、言葉をひとつひとつ積み上げて推論するのが精いっぱいでした。でも今は、先に“全体のイメージ”をつかんで、そのうえで細かい行動を導き出すのです。
──なんだか、人間の思考にぐっと近づいてきたように感じませんか?特に、アーキテクトやデザイナーの思考にとても近いと思います。建築は、頭の中でイメージしたものを「現実」にする仕事ですから。

2. 人間の視覚的思考 ― ビジョンを描く力

建築やデザインに携わる人間にとって、全体像をイメージするのはあたりまえのこと。私自身、図面を100分の1で描いたり、500分の1で描いたり、あるいは5分の1で描いたりします。縮尺を変えながら、全体を俯瞰し、また細部を見つめ直す。頭の中では常に「近づいたり、離れたり」しながら、空間を構想しているのです。

これはまさしく「視覚的思考」。部分を積み上げるのではなく、ありありとした全体像を描くことで、創造が始まります。人間のすばらしい力だと思います。
──そして、これはまさしく「未来へビジョンを描く力」です。これこそが未来教育プロジェクト学習の核心であり、私が提案してきた未来教育の真髄でもあります。

3. 未来へビジョンを描く力 ― 未来教育で実現

AIがどんどん部分的な作業を担えるようになってきたからこそ、教育は人間にしかできない力を育てる方向へシフトすべきです。それは、リアルな空間の中でイメージを描き、未来の全体像を構想する力です。

DXは世界のあらゆる仕組みを根本から変えようとしています。その大きな変革のただ中を生きる子どもたちに必要なのは、単なる知識ではなく、未来を創造できる力です。そして未来を創造するためには、まず「未来へビジョンを描く力」が欠かせません。

未来教育は、この人間特有の力を引き出し、伸ばしていくための学びです。これこそが、私が提案してきた未来教育プロジェクト学習の核心でもあるのです。AIが進化すればするほど、むしろ「人間らしい学び」が大切になってくるのです。


これから‥

いまAIが示している最新の特徴のひとつ――「言葉だけで逐次的に推論するのではなく、未来のイメージ(サブゴール画像)を先に生成する」という能力。これは単なる技術ニュースではありません。教育の未来を考えるうえでの大きなヒントです。

このAIの進化と、人が天性としてもっている「視覚的思考=イメージする力」とが、いま確かに響き合い始めています。

未来教育が目指すのは、AIにはできない「全体をイメージし、そこから価値を生み出す力」を育てること。そのためにプロジェクト学習は、未来へビジョンを描き、それを現実にする力を高めます。そしてポートフォリオは、その一連のプロセスを可視化し、自分の成長と意志を映し出すのです。


参考文献


  • 1. 論文全体と入手先について


    2. 内容の要約・翻訳

    概要(Abstract)

    この論文では、Vision-Language-Actionモデル(VLA)に中間の推論ステップを組み込んだ「Visual Chain-of-Thought(視覚的思考の連鎖)」という新手法を提案しています。具体的には、訓練・実行時に 「将来の画像フレーム(サブゴール画像)」 を生成し、それを視覚的な目標として、その後にロボットの動作シーケンスを生成します。これにより従来の直接映像→動作のマッピングよりも高度な時系列計画が可能になります。
    CoT-VLAは7B規模のVLAモデルであり、既存の最先端モデルに対して、実世界試験で17%、シミュレーションで6%の成功率向上を示しています arXiv+1

    主な内容の構成と翻訳

    1. はじめに・背景

    • 従来のVLAは、視覚+言語から直接行動を生成しますが、複雑な操作には推論ステップが不足しており、計画性が弱いです。

    • CoT(Chain-of-Thought)手法は言語モデルで段階的推論を促進することに成功しており、これをロボット制御に応用する狙いがあります arXiv

    2. 提案手法:Visual Chain-of-Thought

    • サブゴール画像の生成:現在の観察画像と指示から未来の「サブゴール画像」を生成します(視覚的な中間推論)。

    • 行動生成の2段構成:1) サブゴール画像 → 2) それに基づいて短い行動シーケンスを生成。

    • これにより、視覚的に「考えてから動く」ような構造を実現しています CVF Open AccessarXiv

    3. モデル構造と訓練手法

    • ベースモデルには VILA-U(テキスト+画像を生成できる多モーダルモデル)を使用。まずロボットのデモ映像データと行動なしの動画データでプリトレーニングし、その後タスク固有の動作データでファインチューニングします CVF Open AccessarXiv

    • Attentionの使い分け

      • 画像・テキスト生成には因果的注意(causal attention)

      • 行動生成には全体注意(full attention) を併用。

    • また、単一行動ではなくまとめて「チャンク(chunk)」として行動を予測する設計も取り入れています(action chunking) CVF Open AccessarXiv

    4. 実験結果

    • シミュレーションと実世界の双方で評価され、従来のVLAを上回る成果を記録:実世界操作で「17%向上」、シミュレーションで「6%向上」 arXiv+1

    • 複数ロボットプラットフォームやタスクにおいて一貫した強化効果が見られたとのことです CVF Open AccessSemantic Scholar


    3. 論文の「どこにあるか」

    1. アブストラクト・イントロダクション:論文冒頭部分に記載。

    2. 「3. CoT-VLA」セクション:技術的な詳細(手法、アーキテクチャ、訓練方法など)はこの章にまとまっています arXiv

    3. 実験セクション:シミュレーションや実世界実験の結果は後半に記述。成功率の比較やアブレーションスタディも含まれています CVF Open AccessResearchGate


    4. 要点まとめ(まとめ)

    項目 内容
    目的 中間サブゴール画像による視覚的推論手法の導入で、VLAの計画性と性能を向上させる
    モデル構造 VILA-Uベースで因果注意と全注意を併用、行動チャンク生成も導入
    成果 実世界で+17%、シミュレーションで+6%の成功率向上を達成
    利点 複雑タスクでの計画性向上、ラベル不要な動画データの活用可能性、統合マルチモーダル処理
  • 👉 CoT-VLA 論文(CVPR2025)


    図2の詳細(解説)

    • 図2はモデル全体の構造を示す図です。

      • 左側に「観察画像(現在の状態)」と「言語指示」が入力されます。

      • そこから「サブゴール画像(未来の中間目標の予測画像)」が生成されます。

      • その後、サブゴール画像を条件として「行動シーケンス(アクションチャンク)」が生成されます。

    • つまり、**従来のVLA(画像→行動の直接変換)**ではなく、中間に“空間的構造”を持つイメージ(ゴールの未来状態)を挟むことで、段階的・構造的に推論しているのです。

    • この仕組みこそが「空間的・構造的になったAIの根拠」といえます。なぜならAIが単なる言語の逐次推論だけでなく、未来の物理空間を“想像”して、それを基盤に行動を計画するようになったからです。


    論文該当箇所(全文翻訳の一部)

    論文の「3. CoT-VLA」章(特に 3.1 Visual Chain-of-Thought Generation の節)と図2がこの説明の中心です。以下に重要部分の翻訳を示します。

    原文(抜粋)

    Our key idea is to explicitly model intermediate visual states as subgoal images, which serve as the visual chain-of-thought reasoning steps. Given an initial observation and language instruction, the model first predicts subgoal images, then conditions on them to generate action sequences.

    日本語訳

    私たちの主要なアイデアは、中間的な視覚状態を「サブゴール画像」として明示的にモデル化することです。これらは「視覚的思考の連鎖(Visual Chain-of-Thought)」における推論ステップとして機能します。初期観察(現在の画像)と言語指示が与えられると、モデルはまずサブゴール画像を予測し、その後、それに基づいて行動シーケンスを生成します。


    要点(空間的・構造的根拠)

    • 従来:言語モデルは「言葉の連鎖」で推論(線的・逐次的)。

    • CoT-VLA:未来の「空間状態(画像)」を中間表現として生成 → そこから行動を構造的に導出。

    • これは「空間知性(spatial intelligence)」がAIに導入された具体的な証拠であり、AIが単にシンボル操作ではなく、構造化された物理世界の表象を扱い始めたことを意味します。

    • 図 2 と「3.1 Visual Chain-of-Thought Reasoning(視覚的思考の連鎖)」全文翻訳

      ◼ 図 2 キャプション(概要図の説明)

      図 2. CoT-VLA フレームワークの概観。

      • 私たちは VILA-U[^67] を基盤としたモデルを構築しています。これはテキストと画像が交互に並ぶ形式のデータで事前学習された、生成型のマルチモーダルモデルです。

      • ベースモデルは、ロボット操作デモ(ドメイン固有のラベル付き)とアクションなしの動画データの両方で訓練されています。

      • デプロイ(実運用)時には、視覚的観察(画像)とテキスト命令(指示)が入力されると、モデルはまず 因果的注意(causal attention) を用いて サブゴール画像(未来の中間的視覚目標)を生成します(図中の上側の青い部分)。

      • 次に、全体注意(full attention) を用いて短い 行動シーケンス(アクションチャンク a₁, …, aₙ) を生成し、それをロボットが実行します。

      • このシステムはクローズドループ制御で動作し、行動実行後には再び新たな観察を取得し、次段階の推論へとつなげます。
        ※日本語訳で再構成しています。arXiv+1


      ◼ 3.1 Visual Chain-of-Thought Reasoning (視覚的思考の連鎖による推論)

      以下、英語原文の冒頭部と図2にかかる説明部分を、日本語に忠実に翻訳します。


      原文(抜粋)

      We consider two types of training data for VLA pretraining: robot demonstrations dataset Dr and action-less videos dataset Dv. Robot demonstrations are represented as Dr = {(l, a₁…ₜ, s₁…ₜ)}, where l denotes the natural language instruction, a₁…ₜ = {a₁, …, aₜ} denotes the sequence of robot actions, and s₁…ₜ = {s₁, …, sₜ} denotes the visual observations as a sequence of images. Action-less videos Dv = {(l, s₁…ₜ)} consist of language descriptions and images without action annotations.

      VLA: Vanilla VLA approaches fine-tune a pretrained VLM, P₍θ₎, on Dr, learning to predict actions âₜ₊₁ directly from the current observation sₜ and language instruction l (Figure 1, top):
        âₜ ∼ P₍θ₎ (aₜ | sₜ, l)

      CoT-VLA: Our key insight is to incorporate explicit visual chain-of-thought reasoning by introducing intermediate visual goals. … Rather than using abstract representations like bounding boxes or keypoints, we propose using subgoal images sampled from videos as an interpretable and effective intermediate representation. …


      日本語訳

      VLA の事前学習には、2 種類の訓練データを用います。1つはロボットによる操作デモのデータセット Dₙ(Dr)、もう1つはアクションラベルのない動画データセット Dᵥ(Dv) です。ロボットデモ Dr は { (l, a₁…ₜ, s₁…ₜ) } という形式で表され、ここで l は自然言語の指示、a₁…ₜ = {a₁, …, aₜ} はロボット動作のシーケンス、s₁…ₜ = {s₁, …, sₜ} は一連の視覚観察(画像)を表します。一方、アクションなし動画 Dv はアクション注釈なしのテキスト指示と画像を含み、{ (l, s₁…ₜ) } の形です。

      VLA(従来型):従来の VLA は、事前学習済み VLM(視覚–言語モデル) P₍θ₎ を Dr 上で微調整し、現在の観察状態 sₜ と指示 l から 次の動作 âₜ₊₁ を直接予測することを学習します(図 1 上部参照):
        âₜ ∼ P₍θ₎ (aₜ | sₜ, l)

      CoT-VLA(本手法):私たちが提案する核心的アイデアは、中間的な視覚目標を明示的に導入し、「視覚的思考の連鎖」を形成することにあります。従来のような抽象的な表現(バウンディングボックスやキーポイント)ではなく、動画からサンプリングしたサブゴール画像を解釈可能で効果的な中間表現として用いることを提案します。…
      (以降、図 2 に示されている流れ=観察+指示 → サブゴール画像 → 行動シーケンス → 実世界行動、という一連の流れが続きます)arXiv


      なぜ「空間的・構造的になったAI」の根拠になるのか?

      • **空間的な中間画像(サブゴール画像)**を生成することで、AI(モデル)が「未来の物理空間状態を空間的に想像している」ことを意味します。

      • これは単なるテキストによる論理的推論ではなく、空間構造を伴った視覚表現を推論の核心とする設計である点が、空間・構造的知能の具体的な根拠となっています。

      • また、指示と現在観察とを統合し、サブゴールとしての画像を生成したうえで行動を決定することで、タスクに対する時系列的かつ空間的な計画能力が実現されています。