HCLSM: Hierarchical Causal Latent State Machines for Object-Centric World Modeling

arxiv_cs_lg·2026/4/1 13:33·8

HCLSM: オブジェクト中心の世界モデリングのための階層的因果潜在状態機械

HCLSM: Hierarchical Causal Latent State Machines for Object-Centric World Modeling

Summary

HCLSMは、オブジェクト中心の世界モデリングのための新しいアーキテクチャです。

これは、スロットアテンションによるオブジェクト分解、選択的状態空間モデルやスパーストランスフォーマーを用いた階層的な時間ダイナミクス、グラフニューラルネットワークによる因果構造学習という3つの原則に基づいています。

2段階の訓練プロトコルを採用し、PushTロボット操作ベンチマークで高い予測精度を達成しました。

カスタムTritonカーネルによりSSMスキャンが38倍高速化され、将来の自律エージェント開発に大きな影響を与える可能性があります。

Technical Impact

HCLSMは、従来のフラットな潜在表現の限界を克服し、オブジェクト、因果構造、時間ダイナミクスを階層的に扱うことで、より洗練された世界モデルを構築します。

開発スタックにおいては、特にロボティクスやシミュレーション環境における次世代の自律エージェントの基盤技術となる可能性を秘めています。

モデルアーキテクチャ: スロットアテンション、SSM、スパーストランスフォーマー、グラフニューラルネットワークといった最先端のコンポーネントを統合し、複雑な環境理解と予測能力を向上させます。
パフォーマンス最適化: TritonカーネルによるSSMの高速化は、計算負荷の高い世界モデルの訓練と推論の効率を大幅に改善し、実用化への道を拓きます。
データ効率: 2段階訓練プロトコルは、空間的分解と動的予測を分離することで、より効率的かつ堅牢な学習を可能にします。
開発スタックへの影響: PyTorchベースで実装されており、既存のMLフレームワークとの統合は容易です。

しかし、Tritonカーネルの利用は、特定のハードウェア最適化（NVIDIA GPUなど）を必要とする可能性があり、デプロイメントの考慮事項となるでしょう。

この研究は、より汎用的で高性能な世界モデルの設計パターンを提供し、将来のAIシステム、特に物理世界とインタラクトするエージェントの開発に大きな影響を与えるでしょう。

HCLSMSlot AttentionSpatial Broadcast DecodingSelective State Space ModelsSparse TransformersCompressed TransformersGraph Neural NetworksTritonPyTorchPushTOpen X-Embodiment

元記事を読む