NeurIPS 2023

Skip to yearly menu bar Skip to main content

205 Results

Workshop		Randomized Benchmarking of Local Zeroth-Order Optimizers for Variational Quantum Systems Lucas Tecot · Cho-Jui Hsieh
Workshop		MCU: A Task-centric Framework for Open-ended Agent Evaluation in Minecraft Haowei Lin · Zihao Wang · Jianzhu Ma · Yitao Liang
Workshop		Towards a Situational Awareness Benchmark for LLMs Rudolf Laine · Alexander Meinke · Owain Evans
Workshop	Fri 13:00	Benchmark Probing: Investigating Data Leakage in Large Language Models Chunyuan Deng · Yilun Zhao · Xiangru Tang · Mark Gerstein · Arman Cohan
Workshop		A Multimodal Dataset and Benchmark for Radio Galaxy and Infrared Host Detection Nikhel Gupta
Workshop		Beyond Text: A Deep Dive into Large Language Models' Ability on Understanding Graph Data Yuntong Hu · Zheng Zhang · Liang Zhao
Workshop		Mini-BEHAVIOR: A Procedurally Generated Benchmark for Long-horizon Decision-Making in Embodied AI Emily Jin · Jiaheng Hu · Zhuoyi Huang · Ruohan Zhang · Jiajun Wu · Fei-Fei Li · Roberto Martín-Martín
Workshop		Mini-BEHAVIOR: A Procedurally Generated Benchmark for Long-horizon Decision-Making in Embodied AI Emily Jin · Jiaheng Hu · Zhuoyi Huang · Ruohan Zhang · Jiajun Wu · Fei-Fei Li · Roberto Martín-Martín
Workshop		AssemblyCA: A Benchmark of Open-Endedness for Discrete Cellular Automata Keith Patarroyo · Abhishek Sharma · Sara Walker · Lee Cronin
Workshop		DeepSurveySim: Simulation Software and Benchmark Challenges for Astronomical Observation Scheduling M Voetberg · Brian Nord
Workshop		minimax: Efficient Baselines for Autocurricula in JAX Minqi Jiang · Michael Dennis · Edward Grefenstette · Tim Rocktäschel
Workshop		Haldane Bundles: A Dataset for Learning to Predict the Chern Number of Line Bundles on the Torus Cody Tipton · Elizabeth Coda · Davis Brown · Alyson Bittner · Caitlin Hutten · Grayson Jorgenson · Tegan Emerson · Henry Kvinge