NeurIPS 2023

Workshop

Fri 11:25

LLM Routing with Benchmark Datasets
Tal Shnitzer · Anthony Ou · Mírian Silva · Kate Soule · Yuekai Sun · Justin Solomon · Neil Thompson · Mikhail Yurochkin

Workshop

FinGPT: Instruction Tuning Benchmark for Open-Source Large Language Models in Financial Datasets
Neng Wang · Hongyang Yang · Christina Wang

Poster

Wed 15:00

BEDD: The MineRL BASALT Evaluation and Demonstrations Dataset for Training and Benchmarking Agents that Solve Fuzzy Tasks
Stephanie Milani · Anssi Kanervisto · Karolis Ramanauskas · Sander Schulhoff · Brandon Houghton · Rohin Shah

Oral

Wed 14:15

BEDD: The MineRL BASALT Evaluation and Demonstrations Dataset for Training and Benchmarking Agents that Solve Fuzzy Tasks
Stephanie Milani · Anssi Kanervisto · Karolis Ramanauskas · Sander Schulhoff · Brandon Houghton · Rohin Shah

Affinity Workshop

Linguistic Colonialism in the Age of Large Language Models: A Need for Diverse and Inclusive Regional Language Considerations
Sundaraparipurnan Narayanan

Poster

Thu 15:00

$\mathbf{\mathbb{E}^{FWI}}$ : Multiparameter Benchmark Datasets for Elastic Full Waveform Inversion of Geophysical Properties
Shihang Feng · Hanchen Wang · Chengyuan Deng · Yinan Feng · Yanhua Liu · Min Zhu · Peng Jin · Yinpeng Chen · Youzuo Lin

Poster

Thu 15:00

XES3G5M: A Knowledge Tracing Benchmark Dataset with Auxiliary Information
Zitao Liu · Qiongqiong Liu · Teng Guo · Jiahao Chen · Shuyan Huang · Xiangyu Zhao · Jiliang Tang · Weiqi Luo · Jian Weng

Poster

Thu 15:00

LAMM: Language-Assisted Multi-Modal Instruction-Tuning Dataset, Framework, and Benchmark
Zhenfei Yin · Jiong Wang · Jianjian Cao · Zhelun Shi · Dingning Liu · Mukai Li · Xiaoshui Huang · Zhiyong Wang · Lu Sheng · LEI BAI · Jing Shao · Wanli Ouyang

Poster

Tue 8:45

SubseasonalClimateUSA: A Dataset for Subseasonal Forecasting and Benchmarking
Soukayna Mouatadid · Paulo Orenstein · Genevieve Flaspohler · Miruna Oprescu · Judah Cohen · Franklyn Wang · Sean Knight · Maria Geogdzhayeva · Sam Levang · Ernest Fraenkel · Lester Mackey

Affinity Workshop

Linguistic Colonialism in the Age of Large Language Models: A Need for Diverse and Inclusive Regional Language Considerations
Sundaraparipurnan Narayanan

Workshop

LocoMuJoCo: A Comprehensive Imitation Learning Benchmark for Locomotion
Firas Al-Hafez · Davide Tateo · Jan Peters

Poster

Thu 15:00

On Occlusions in Video Action Detection: Benchmark Datasets And Training Recipes
Rajat Modi · Vibhav Vineet · Yogesh Rawat

Main Navigation

43 Results