NeurIPS 2024

Workshop

Sun 10:30

On Domain Generalization Datasets as Proxy Benchmarks for Causal Representation Learning
Olawale Salaudeen · Nicole Chiou

Workshop

AgentStudio: A Toolkit for Building General Virtual Agents
Longtao Zheng · Zhiyuan Huang · Zhenghai Xue · Xinrun Wang · Bo An · Shuicheng Yan

Workshop

Sat 12:00

A Statistical Approach to Quantifying LLM Human Alignment
Harbin Hong · Liu Leqi · Sebastian Caldas

Workshop

On Domain Generalization Datasets as Proxy Benchmarks for Causal Representation Learning
Olawale Salaudeen · Nicole Chiou · Sanmi Koyejo

Poster

Thu 11:00

The Scandinavian Embedding Benchmarks: Comprehensive Assessment of Multilingual and Monolingual Text Embedding
Kenneth Enevoldsen · Márton Kardos · Niklas Muennighoff · Kristoffer Nielbo

Poster

Wed 16:30

BenchX: A Unified Benchmark Framework for Medical Vision-Language Pretraining on Chest X-Rays
Yang Zhou · Tan Faith · Yanyu Xu · Sicong Leng · Xinxing Xu · Yong Liu · Rick Siow Mong Goh

Poster

Fri 11:00

Unleashing Multispectral Video's Potential in Semantic Segmentation: A Semi-supervised Viewpoint and New UAV-View Benchmark
Wei Ji · Jingjing Li · Wenbo Li · Yilin Shen · Li cheng · Hongxia Jin

Poster

Fri 16:30

Me, Myself, and AI: The Situational Awareness Dataset (SAD) for LLMs
Rudolf Laine · Bilal Chughtai · Jan Betley · Kaivalya Hariharan · Mikita Balesni · Jérémy Scheurer · Marius Hobbhahn · Alexander Meinke · Owain Evans

Poster

Wed 16:30

AgentBoard: An Analytical Evaluation Board of Multi-turn LLM Agents
Ma Chang · Junlei Zhang · Zhihao Zhu · Cheng Yang · Yujiu Yang · Yaohui Jin · Zhenzhong Lan · Lingpeng Kong · Junxian He

Poster

Wed 16:30

ReactZyme: A Benchmark for Enzyme-Reaction Prediction
Chenqing Hua · Bozitao Zhong · Sitao Luan · Liang Hong · Guy Wolf · Doina Precup · Shuangjia Zheng

Poster

Fri 11:00

INQUIRE: A Natural World Text-to-Image Retrieval Benchmark
Edward Vendrow · Omiros Pantazis · Alexander Shepard · Gabriel Brostow · Kate Jones · Oisin Mac Aodha · Sara Beery · Grant Van Horn

Oral

Wed 16:10

AgentBoard: An Analytical Evaluation Board of Multi-turn LLM Agents
Ma Chang · Junlei Zhang · Zhihao Zhu · Cheng Yang · Yujiu Yang · Yaohui Jin · Zhenzhong Lan · Lingpeng Kong · Junxian He

Main Navigation

81 Results