NeurIPS 2023

Workshop

Fri 12:50

#28: Canonical Design for Language Agents using Natural Language Reward Models
Silviu Pitis · Ziang Xiao · Alessandro Sordoni

Workshop

Eureka: Human-Level Reward Design via Coding Large Language Models
Jason Ma · William Liang · Guanzhi Wang · De-An Huang · Osbert Bastani · Dinesh Jayaraman · Yuke Zhu · Linxi Fan · Animashree Anandkumar

Workshop

Eureka: Human-Level Reward Design via Coding Large Language Models
Jason Ma · William Liang · Guanzhi Wang · De-An Huang · Osbert Bastani · Dinesh Jayaraman · Yuke Zhu · Linxi Fan · Animashree Anandkumar

Workshop

Reward Model Ensembles Help Mitigate Overoptimization
Thomas Coste · Usman Anwar · Robert Kirk · David Krueger

Workshop

Vision-Language Models are Zero-Shot Reward Models for Reinforcement Learning
Juan Rocamonde · Victoriano Montesinos · Elvis Nava · Ethan Perez · David Lindner

Workshop

Vision-Language Models are Zero-Shot Reward Models for Reinforcement Learning
Juan Rocamonde · Victoriano Montesinos · Elvis Nava · Ethan Perez · David Lindner

Oral

Thu 13:50

Direct Preference Optimization: Your Language Model is Secretly a Reward Model
Rafael Rafailov · Archit Sharma · Eric Mitchell · Christopher D Manning · Stefano Ermon · Chelsea Finn

Poster

Wed 8:45

Video Prediction Models as Rewards for Reinforcement Learning
Alejandro Escontrela · Ademi Adeniji · Wilson Yan · Ajay Jain · Xue Bin Peng · Ken Goldberg · Youngwoon Lee · Danijar Hafner · Pieter Abbeel

Workshop

Reward Model Underspecification in Language Model Alignment
Jacob Eisenstein · Jonathan Berant · Chirag Nagpal · Alekh Agarwal · Ahmad Beirami · Alexander D'Amour · Krishnamurthy Dvijotham · Katherine Heller · Stephen Pfohl · Deepak Ramachandran

Poster

Thu 15:00

Direct Preference Optimization: Your Language Model is Secretly a Reward Model
Rafael Rafailov · Archit Sharma · Eric Mitchell · Christopher D Manning · Stefano Ermon · Chelsea Finn

Poster

Thu 8:45

Reward-Directed Conditional Diffusion: Provable Distribution Estimation and Reward Improvement
Hui Yuan · Kaixuan Huang · Chengzhuo Ni · Minshuo Chen · Mengdi Wang

Poster

Tue 15:15

Fine-Grained Human Feedback Gives Better Rewards for Language Model Training
Zeqiu Wu · Yushi Hu · Weijia Shi · Nouha Dziri · Alane Suhr · Prithviraj Ammanabrolu · Noah Smith · Mari Ostendorf · Hannaneh Hajishirzi

Main Navigation

29 Results