Lu Wang

Publications

View by:

- Text2Grad: Reinforcement Learning from Natural Language Feedback
  
  Hanyang Wang, Lu Wang, Chaoyun Zhang, Tianjun Mao, Si Qin, Qingwei Lin 林庆维, Saravan Rajmohan, Dongmei Zhang
  
  ICLR 2026 | May 2025
  
  Publication
- Pretrain Value, Not Reward: Decoupled Value Policy Optimization
  
  Chenghua Huang, Lu Wang, Fangkai Yang, Pu Zhao, Zhixu Li, Qingwei Lin 林庆维, Dongmei Zhang, S. Rajmohan, Qi Zhang
  
  ICLR 2026 | February 2025
  
  Publication

- Text2Grad: Reinforcement Learning from Natural Language Feedback
  
  Hanyang Wang, Lu Wang, Chaoyun Zhang, Tianjun Mao, Si Qin, Qingwei Lin 林庆维, Saravan Rajmohan, Dongmei Zhang
  
  ICLR 2026 | May 2025
  
  Publication
- Pretrain Value, Not Reward: Decoupled Value Policy Optimization
  
  Chenghua Huang, Lu Wang, Fangkai Yang, Pu Zhao, Zhixu Li, Qingwei Lin 林庆维, Dongmei Zhang, S. Rajmohan, Qi Zhang
  
  ICLR 2026 | February 2025
  
  Publication

- Text2Grad: Reinforcement Learning from Natural Language Feedback
  
  Hanyang Wang, Lu Wang, Chaoyun Zhang, Tianjun Mao, Si Qin, Qingwei Lin 林庆维, Saravan Rajmohan, Dongmei Zhang
  
  ICLR 2026 | May 2025
  
  Publication
- Pretrain Value, Not Reward: Decoupled Value Policy Optimization
  
  Chenghua Huang, Lu Wang, Fangkai Yang, Pu Zhao, Zhixu Li, Qingwei Lin 林庆维, Dongmei Zhang, S. Rajmohan, Qi Zhang
  
  ICLR 2026 | February 2025
  
  Publication