NeurIPS 2024

Workshop

Toward Large Language Models that Benefit for All: Benchmarking Group Fairness in Reward Models
Kefan Song · Jin Yao · Shangtong Zhang

Poster

Wed 16:30

Diff-eRank: A Novel Rank-Based Metric for Evaluating Large Language Models
Lai Wei · Zhiquan Tan · Chenghai Li · Jindong Wang · Weiran Huang

Poster

Thu 11:00

Graph-based Uncertainty Metrics for Long-form Language Model Generations
Mingjian Jiang · Yangjun Ruan · Prasanna Sattigeri · Salim Roukos · Tatsunori Hashimoto

Workshop

Better Bias Benchmarking of Language Models via Multi-factor Analysis
Hannah Powers · Ioana Baldini · Dennis Wei · Kristin P Bennett

Workshop

Sat 17:27

Better Bias Benchmarking of Language Models via Multi-factor Analysis
Hannah Powers · Ioana Baldini · Dennis Wei · Kristin P Bennett

Workshop

THaMES: An End-to-End Tool for Hallucination Mitigation and Evaluation in Large Language Models
Mengfei Liang · Archish Arun · Zekun Wu · CRISTIAN VILLALOBOS · Jonathan Lutch · Emre Kazim · Adriano Koshiyama · Philip Treleaven

Workshop

Multilingual Hallucination Gaps in Large Language Models
Cléa Chataigner · Afaf Taik · Golnoosh Farnadi

Poster

Thu 11:00

Metric Flow Matching for Smooth Interpolations on the Data Manifold
Kacper Kapusniak · Peter Potaptchik · Teodora Reu · Leo Zhang · Alexander Tong · Michael Bronstein · Joey Bose · Francesco Di Giovanni

Workshop

Sat 17:27

Multilingual Hallucination Gaps in Large Language Models
Cléa Chataigner · Afaf Taik · Golnoosh Farnadi

Workshop

Does Maximizing Neural Regression Scores Teach Us About The Brain?
Rylan Schaeffer · Mikail Khona · Sarthak Chandra · Mitchell Ostrow · Brando Miranda · Sanmi Koyejo

Workshop

Position: Maximizing Neural Regression Scores May Not Identify Good Models of the Brain
Rylan Schaeffer · Mikail Khona · Sarthak Chandra · Mitchell Ostrow · Brando Miranda · Sanmi Koyejo

Main Navigation

23 Results