大規模言語モデルによる探索誘導を用いたモデルフリー強化学習空調制御の学習効率の向上
Improving Learning Efficiency of Model-Free Reinforcement Learning for HVAC Control via Large Language Model-Guided Exploration

2026年03月13日

持続可能な社会の実現に向けて、建物の空調システムにおけるエネルギー消費の削減と居住者の快適性向上を両立させる高度な制御技術の確立が急務となっている。従来の固定ルールに基づく制御では動的な環境変化への柔軟な対応が難しく、代替案として期待されるモデルフリー強化学習も、実用的な性能に到達するまでに膨大な試行錯誤を要し、学習初期の効率性と安全性が実環境への導入における大きな障壁となっていた。
本研究は、強化学習の収束期間を劇的に短縮し、導入初期から安全かつ効率的な空調制御を可能にする新たな枠組みの構築を目的とする。
この課題に対し、大規模言語モデル(LLM)が持つ常識的推論を「教師」として利用し、その行動模倣をSoft Actor-Critic(SAC)アルゴリズムに統合するとともに、Q-filterを用いて学習の進捗に応じ模倣から自律制御へ適応的に移行する手法「LLM-Guided SAC」を提案した。
シミュレーション実験の結果、実用性能への到達時間をシンガポールの夏季環境で約1/6、東京の冬季環境で約1/27にまで短縮し、最終的には教師役であるLLMを超える制御性能を達成した。
本成果は、物理的制約の強い制御タスクにおいてもLLMの汎用的知識が学習を劇的に加速させることを実証しており、AIを活用した次世代エネルギー管理システムの社会実装を大きく前進させるものである。
Establishing advanced control technologies that balance energy efficiency and occupant comfort in building HVAC systems is a pressing challenge for achieving a sustainable society. Conventional rule-based methods struggle to adapt to dynamic environmental changes, and while model-free reinforcement learning (RL) offers a flexible alternative, its requirement for extensive trial-and-error poses significant barriers to real-world deployment regarding initial efficiency and safety. This study aims to develop a framework that drastically reduces RL convergence time, enabling safe and efficient climate control from the earliest stages of deployment. To address this, we propose “LLM-Guided SAC,” a method that integrates the commonsense reasoning of Large Language Models (LLMs) as a “teacher” for imitation within the Soft Actor-Critic framework, utilizing a Q-filter to adaptively transition from imitation to autonomous control. In simulation experiments, the proposed method reduced the time required to reach practical performance levels to approximately 1/6 under Singapore summer conditions and 1/27 under Tokyo winter conditions, eventually surpassing the control performance of the teacher LLM itself. These findings demonstrate that LLM-derived knowledge can significantly accelerate learning even in physically constrained control tasks, marking a major step toward the practical social implementation of AI-driven energy management systems.

Toki Miyake, Hiroaki Murakami, Keiichiro Taniguchi, Yoshihiro Kawahara

関連論文/Related Publications
T. Miyake, H. Murakami, K. Taniguchi and Y. Kawahara, “Accelerating Model-Free Reinforcement Learning for HVAC Control with an LLM as a Policy Teacher,” 2026 IEEE International Conference on Pervasive Computing and Communications Workshops and other Affiliated Events (PerCom Workshops), Pisa, Italy, March 2026.

連絡先/Contact
toki@akg.u-tokyo.ac.jp