firstbacksecondback
81 Results
Poster
|
Wed 16:30 |
AsEP: Benchmarking Deep Learning Methods for Antibody-specific Epitope Prediction ChuNan Liu · Lilian Denzler · Yihong Chen · Andrew Martin · Brooks Paige |
|
Poster
|
Wed 11:00 |
RedPajama: an Open Dataset for Training Large Language Models Maurice Weber · Dan Fu · Quentin Anthony · Yonatan Oren · Shane Adams · Anton Alexandrov · Xiaozhong Lyu · Huu Nguyen · Xiaozhe Yao · Virginia Adams · Ben Athiwaratkun · Rahul Chalamala · Kezhen Chen · Max Ryabinin · Tri Dao · Percy Liang · Christopher Ré · Irina Rish · Ce Zhang |
|
Workshop
|
TemporalBench: Benchmarking Fine-grained Temporal Understanding for Multimodal Video Models Mu Cai · Reuben Tan · Jianrui Zhang · Bocheng Zou · Kai Zhang · Yao Feng · Fangrui Zhu · Jing Gu · Yiwu Zhong · Yuzhang Shang · Yao Dou · Jaden Park · Jianfeng Gao · Yong Jae Lee · Jianwei Yang |
||
Poster
|
ComBack: A Versatile Dataset for Enhancing Compiler Backend Development Efficiency Ming Zhong · FANG LYU · Lulin Wang · Hongna Geng · Lei Qiu · Huimin Cui · Xiaobing Feng |
||
Poster
|
Thu 11:00 |
OSWorld: Benchmarking Multimodal Agents for Open-Ended Tasks in Real Computer Environments Tianbao Xie · Danyang Zhang · Jixuan Chen · Xiaochuan Li · Siheng Zhao · Ruisheng Cao · Jing Hua Toh · Zhoujun Cheng · Dongchan Shin · Fangyu Lei · Yitao Liu · Yiheng Xu · Shuyan Zhou · Silvio Savarese · Caiming Xiong · Victor Zhong · Tao Yu |
|
Poster
|
Thu 16:30 |
GTBench: Uncovering the Strategic Reasoning Capabilities of LLMs via Game-Theoretic Evaluations Jinhao Duan · Renming Zhang · James Diffenderfer · Bhavya Kailkhura · Lichao Sun · Elias Stengel-Eskin · Mohit Bansal · Tianlong Chen · Kaidi Xu |
|
Poster
|
Wed 16:30 |
4DBInfer: A 4D Benchmarking Toolbox for Graph-Centric Predictive Modeling on RDBs Minjie Wang · Quan Gan · David Wipf · Zheng Zhang · Christos Faloutsos · Weinan Zhang · Muhan Zhang · Zhenkun Cai · Jiahang Li · Zunyao Mao · Yakun Song · Jianheng Tang · Yanlin Zhang · Guang Yang · Chuan Lei · Xiao Qin · Ning Li · Han Zhang · Yanbo Wang · Zizhao Zhang |
|
Poster
|
Wed 16:30 |
MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs Zhongshen Zeng · Yinhong Liu · Yingjia Wan · Jingyao Li · Pengguang Chen · Jianbo Dai · Yuxuan Yao · Rongwu Xu · Zehan Qi · Wanru Zhao · Linling Shen · Jianqiao Lu · Haochen Tan · Yukang Chen · Hao Zhang · Zhan Shi · Bailin Wang · Zhijiang Guo · Jiaya Jia |
|
Poster
|
Thu 11:00 |
DACO: Towards Application-Driven and Comprehensive Data Analysis via Code Generation Xueqing Wu · Rui Zheng · Jingzhen Sha · Te-Lin Wu · Hanyu Zhou · Tang Mohan · Kai-Wei Chang · Nanyun Peng · Haoran Huang |
|
Poster
|
Thu 16:30 |
Easy2Hard-Bench: Standardized Difficulty Labels for Profiling LLM Performance and Generalization Mucong Ding · Chenghao Deng · Jocelyn Choo · Zichu Wu · Aakriti Agrawal · Avi Schwarzschild · Tianyi Zhou · Tom Goldstein · John Langford · Animashree Anandkumar · Furong Huang |
|
Poster
|
Fri 16:30 |
CRAG - Comprehensive RAG Benchmark Xiao Yang · Kai Sun · Hao Xin · Yushi Sun · Nikita Bhalla · Xiangsen Chen · Sajal Choudhary · Rongze Gui · Ziran Jiang · Ziyu Jiang · Lingkun Kong · Brian Moran · Jiaqi Wang · Yifan Xu · An Yan · Chenyu Yang · Eting Yuan · Hanwen Zha · Nan Tang · Lei Chen · Nicolas Scheffer · Yue Liu · Nirav Shah · Rakesh Wanga · Anuj Kumar · Scott Yih · Xin Dong |
|
Poster
|
Fri 11:00 |
Shopping MMLU: A Massive Multi-Task Online Shopping Benchmark for Large Language Models Yilun Jin · Zheng Li · Chenwei Zhang · Tianyu Cao · Yifan Gao · Pratik Jayarao · Mao Li · Xin Liu · Ritesh Sarkhel · Xianfeng Tang · Haodong Wang · Zhengyang Wang · Wenju Xu · Jingfeng Yang · Qingyu Yin · Xian Li · Priyanka Nigam · Yi Xu · Kai Chen · Qiang Yang · Meng Jiang · Bing Yin |