NeurIPS 2024

Poster

Wed 11:00

The PRISM Alignment Dataset: What Participatory, Representative and Individualised Human Feedback Reveals About the Subjective and Multicultural Alignment of Large Language Models
Hannah Rose Kirk · Alexander Whitefield · Paul Rottger · Andrew M. Bean · Katerina Margatina · Rafael Mosquera-Gomez · Juan Ciro · Max Bartolo · Adina Williams · He He · Bertie Vidgen · Scott Hale

Poster

Wed 16:30

Era3D: High-Resolution Multiview Diffusion using Efficient Row-wise Attention
Peng Li · Yuan Liu · Xiaoxiao Long · Feihu Zhang · Cheng Lin · Mengfei Li · Xingqun Qi · Shanghang Zhang · Wei Xue · Wenhan Luo · Ping Tan · Wenping Wang · Qifeng Liu · Yike Guo

Workshop

CopyBench: Measuring Literal and Non-Literal Reproduction of Copyright-Protected Text in Language Model Generation
Tong Chen · Akari Asai · Niloofar Mireshghallah · Sewon Min · James Grimmelmann · Yejin Choi · Hannaneh Hajishirzi · Luke Zettlemoyer · Pang Wei Koh

Poster

Wed 16:30

Text-space Graph Foundation Models: Comprehensive Benchmarks and New Insights
Zhikai Chen · Haitao Mao · Jingzhe Liu · Yu Song · Bingheng Li · Wei Jin · Bahare Fatemi · Anton Tsitsulin · Bryan Perozzi · Hui Liu · Jiliang Tang

Poster

Wed 11:00

Visual CoT: Advancing Multi-Modal Language Models with a Comprehensive Dataset and Benchmark for Chain-of-Thought Reasoning
Hao Shao · Shengju Qian · Han Xiao · Guanglu Song · ZHUOFAN ZONG · Letian Wang · Yu Liu · Hongsheng Li

Workshop

THaMES: An End-to-End Tool for Hallucination Mitigation and Evaluation in Large Language Models
Mengfei Liang · Archish Arun · Zekun Wu · CRISTIAN VILLALOBOS · Jonathan Lutch · Emre Kazim · Adriano Koshiyama · Philip Treleaven

Workshop

Had enough of experts? Elicitation and evaluation of Bayesian priors from large language models
David Antony Selby · Kai Spriestersbach · Yuichiro Iwashita · Dennis Bappert · Archana Warrier · Sumantrak Mukherjee · Muhammad Asim · Koichi Kise · Sebastian Vollmer

Poster

RWKU: Benchmarking Real-World Knowledge Unlearning for Large Language Models
Zhuoran Jin · Pengfei Cao · Chenhao Wang · Zhitao He · Hongbang Yuan · Jiachun Li · Yubo Chen · Kang Liu · Jun Zhao

Poster

Wed 11:00

Humor in AI: Massive Scale Crowd-Sourced Preferences and Benchmarks for Cartoon Captioning
Jifan Zhang · Lalit Jain · Yang Guo · Jiayi Chen · Kuan Zhou · Siddharth Suresh · Andrew Wagenmaker · Scott Sievert · Timothy T Rogers · Kevin Jamieson · Bob Mankoff · Robert Nowak

Oral

Fri 15:30

MedCalc-Bench: Evaluating Large Language Models for Medical Calculations
Nikhil Khandekar · Qiao Jin · Guangzhi Xiong · Soren Dunn · Serina Applebaum · Zain Anwar · Maame Sarfo-Gyamfi · Conrad Safranek · Abid Anwar · Andrew Zhang · Aidan Gilson · Maxwell Singer · Amisha Dave · Anrew Taylor · Aidong Zhang · Qingyu Chen · Zhiyong Lu

Poster

Wed 11:00

DrivingDojo Dataset: Advancing Interactive and Knowledge-Enriched Driving World Model
Yuqi Wang · Ke Cheng · Jiawei He · Qitai Wang · Hengchen Dai · Yuntao Chen · Fei Xia · ZHAO-XIANG ZHANG

Poster

Fri 11:00

JailbreakBench: An Open Robustness Benchmark for Jailbreaking Large Language Models
Patrick Chao · Edoardo Debenedetti · Alexander Robey · Maksym Andriushchenko · Francesco Croce · Vikash Sehwag · Edgar Dobriban · Nicolas Flammarion · George J. Pappas · Florian Tramer · Hamed Hassani · Eric Wong

Main Navigation

513 Results