LLMによる触覚解釈に基づくロボットマニピュレーションの行動選択
Action Selection in Robotic Manipulation Based on Tactile Interpretation Using LLM

2025年12月01日

LLMによる触覚解釈に基づくロボットマニピュレーションの行動選択/Action Selection in Robotic Manipulation Based on Tactile

近年、Large Language Models (LLM) や Vision Language Models (VLM) の発展に伴い、自然言語指示によるロボットマニピュレーションが注目されている。これらは視覚情報を主とするが、視覚が制限される状況や繊細な力加減が必要なタスクにおいては、視覚情報だけでなく力触覚情報の統合が不可欠である。従来、力触覚情報の統合には大量のロボットデータ収集とエンコーダの学習が必要であり、そのコストが大きな課題であった。
そこで本研究では、パラメータの変更を伴う学習を行わず、LLMが持つ物理・常識的知識を活用することで、少量のデータでも力触覚情報を解釈・推論できるのではないかと仮説を立てた。具体的には、LLMが力触覚情報を理解し、適切な行動選択を行うためのプロンプト設計手法の構築を目指した。
検証には、カメラ画像のみでは傾きの判別が難しく、閉める際に引っかかりが生じやすい「引き出しを閉めるタスク」をシミュレーション環境で採用した。検証の結果、LLMは力触覚情報の時系列データから変化や異常を捉え、物理現象と言語を結びつけて状況を説明可能であることが判明した。手法としては、Few-shot学習や力触覚データのグラフ画像入力が有効であることを確認した。さらに、直接行動を決定させるのではなく、一度状況を判別させてから行動選択を行わせる段階的な推論プロセスを経ることで、LLMの状況判別精度とマニピュレーションの成功率が向上することを示した。
本研究は、学習コストの高いモデル更新を行わずとも、LLMの推論能力とプロンプトエンジニアリングによって、視覚情報だけでは解決困難なタスクにおけるロボットの適応能力を向上できることを明らかにしたものである。

In recent years, with the advancement of Large Language Models (LLMs) and Vision Language Models (VLMs), robot manipulation driven by natural language instructions has garnered significant attention. While these systems primarily rely on visual information, the integration of force-tactile information is indispensable for tasks involving restricted vision or requiring delicate force control. Conventionally, integrating such information required massive data collection and encoder training, posing a significant cost challenge.
Therefore, this study hypothesized that force-tactile information could be interpreted and reasoned upon using small amounts of data by leveraging the physical and commonsense knowledge inherent in LLMs, without performing training that involves parameter updates. Specifically, we aimed to establish a prompt design methodology that enables LLMs to understand force-tactile inputs and select appropriate actions.
For verification, we adopted a simulated “drawer closing task,” a scenario where detecting tilt via camera images is difficult and mechanical jamming frequently occurs. The results demonstrated that LLMs can detect changes and anomalies from time-series force-tactile data and explain the situation by linking physical phenomena with language. We confirmed the effectiveness of techniques such as Few-shot learning and the input of force-tactile data as graph images. Furthermore, we showed that a stepwise reasoning process—identifying the situation before selecting an action—significantly improves both the LLM’s situation discrimination accuracy and the manipulation success rate compared to direct action selection.This research elucidates that robot adaptability in tasks difficult to solve with vision alone can be enhanced through LLM reasoning capabilities and prompt engineering, without the need for high-cost model updates.

Takuei Tsumura, Mitsuhiro Kamezaki, Mashu Ishige, Hiroaki Murakami, Ryota Sakuma, Yoshihiro Kawahara

関連論文/Related Publications
津村 拓鋭, 亀﨑 允啓, 石毛 真修, 村上 弘晃, 佐久間 亮太, 川原 圭博, “LLMによる触覚解釈に基づくロボットマニピュレーションの行動選択,” 情報処理学会 第87回全国大会, 5R-01. March 2025 (学生奨励賞).

連絡先/Contact
tsumura@akg.t.u-tokyo.ac.jp