News·Unclaimed·

SARM2: Multi-Task Stage Aware Reward Modeling for Self Improving Robotic Manipulation

arXiv:2606.10305v1 Announce Type: new Abstract: Fine-tuning vision-language-action (VLA) policies for long-horizon manipulation still relies heavily on behavior cloning, which requires costly high-quality demonstrations and keeps policies near the demonstration distribution. Reward models can reduc

via RSS