arxiv_cs_lg·2026/4/3 20:00·8

Soft MPCritic：償却型モデル予測価値反復

Summary

soft MPCritic は、強化学習（RL）とモデル予測制御（MPC）を組み合わせた新しいフレームワークです。計算上の課題を克服し、スケーラビリティと実用性を高めることを目指しています。

この手法は、MPPI を用いたサンプルベースの計画と、Q関数 の学習を組み合わせ、償却型ウォームスタート戦略 により計算効率を向上させます。

これにより、複雑な制御タスクにおいて、堅牢で短期間の計画を通じて効果的に学習し、MPCポリシーを合成するための実用的な青写真を提供します。

Technical Impact

soft MPCritic は、強化学習（RL） とモデル予測制御（MPC） の統合における長年の課題であった計算コストとスケーラビリティの問題に対処します。これにより、これまで困難だった大規模な制御タスクへの適用が可能になります。

MPPI（Model Predictive Path Integral Control） とQ関数 の学習を組み合わせることで、計画と価値学習の整合性を高め、実質的な計画期間を延長します。これは、複雑な動的システムにおける意思決定の質を向上させる可能性があります。

償却型ウォームスタート戦略 の導入は、バッチ処理されたMPPI ベースの価値ターゲット計算において、以前の計画結果を再利用することで、計算効率を大幅に向上させます。これは、リアルタイムまたは準リアルタイムのアプリケーションにとって非常に重要です。

複数の動的モデルのアンサンブルを使用するシナリオベースの計画 は、モデルの不確実性に対するロバスト性を高め、より信頼性の高い制御ポリシーの生成に貢献します。

このフレームワークは、ロボティクス 、自動運転 、産業オートメーション など、高度な制御が求められる分野の開発スタックにおいて、より高性能でスケーラブルな制御アルゴリズムの実装を可能にする「青写真」として機能します。

Reinforcement learning (RL)Model predictive control (MPC)soft MPCriticModel predictive path integral control (MPPI)Q-functionFitted value iteration