NeurIPS 2024

Poster

Thu 11:00

Benchmarking Uncertainty Disentanglement: Specialized Uncertainties for Specialized Tasks
Bálint Mucsányi · Michael Kirchhof · Seong Joon Oh

Poster

Wed 16:30

UnlearnCanvas: Stylized Image Dataset for Enhanced Machine Unlearning Evaluation in Diffusion Models
Yihua Zhang · Chongyu Fan · Yimeng Zhang · Yuguang Yao · Jinghan Jia · Jiancheng Liu · Gaoyuan Zhang · Gaowen Liu · Ramana Kompella · Xiaoming Liu · Sijia Liu

Poster

Thu 11:00

Mercury: A Code Efficiency Benchmark for Code Large Language Models
Mingzhe Du · Anh Tuan Luu · Bin Ji · Qian Liu · See-Kiong Ng

Poster

Thu 11:00

CausalChaos! Dataset for Comprehensive Causal Action Question Answering Over Longer Causal Chains Grounded in Dynamic Visual Scenes
Paritosh Parmar · Eric Peh · Ruirui Chen · Ting En Lam · Yuhan Chen · Elston Tan · Basura Fernando

Poster

Wed 11:00

VERIFIED: A Video Corpus Moment Retrieval Benchmark for Fine-Grained Video Understanding
Houlun Chen · Xin Wang · Hong Chen · Zeyang Zhang · Wei Feng · Bin Huang · Jia Jia · Wenwu Zhu

Poster

Wed 16:30

AgentBoard: An Analytical Evaluation Board of Multi-turn LLM Agents
Ma Chang · Junlei Zhang · Zhihao Zhu · Cheng Yang · Yujiu Yang · Yaohui Jin · Zhenzhong Lan · Lingpeng Kong · Junxian He

Poster

Wed 11:00

DART-Eval: A Comprehensive DNA Language Model Evaluation Benchmark on Regulatory DNA
Aman Patel · Arpita Singhal · Austin Wang · Anusri Pampari · Maya Kasowski · Anshul Kundaje

Affinity Event

Enhancing Language Models’ Performance on Mathematical Datasets A Multi-Agent Approach
Santhoshi Ravichandran · Ashwini Rajaram · Priya Nama Venkatesh

Poster

Wed 11:00

HEST-1k: A Dataset For Spatial Transcriptomics and Histology Image Analysis
Guillaume Jaume · Paul Doucet · Andrew Song · Ming Yang Lu · Cristina Almagro Pérez · Sophia Wagner · Anurag Vaidya · Richard Chen · Drew Williamson · Ahrong Kim · Faisal Mahmood

Poster

Thu 11:00

Elucidating the Design Space of Dataset Condensation
Shitong Shao · Zikai Zhou · Huanran Chen · Zhiqiang Shen

Poster

Thu 16:30

BetterBench: Assessing AI Benchmarks, Uncovering Issues, and Establishing Best Practices
Anka Reuel-Lamparth · Amelia Hardy · Chandler Smith · Max Lamparth · Malcolm Hardy · Mykel J Kochenderfer

Poster

Fri 11:00

Beyond Aesthetics: Cultural Competence in Text-to-Image Models
Nithish Kannen Senthilkumar · Arif Ahmad · Marco Andreetto · Vinodkumar Prabhakaran · Utsav Prabhu · Adji Bousso Dieng · Pushpak Bhattacharyya · Shachi Dave

Main Navigation

467 Results