Skip to yearly menu bar Skip to main content

Workshop Sat, Dec 6, 2025 • 8:00 AM – 5:00 PM PST Exhibit Hall F

The First Workshop on Efficient Reasoning

cheng Luo · Xinyu Yang · Simran Arora · Weijia Shi · Hanshi Sun · Songlin Yang · Luca Zancato · Jiawei Zhao

Project Page [ OpenReview]

Abstract

Recent progress in large reasoning models (LRMs), like OpenAI o1 and Deepseek R1, has been pivotal for tackling complex applications, from mathematical and code reasoning to advanced symbolic and agentic planning. Their success often relies on test-time scaling, which involves increasing the generation length or depth. However, these approaches incur significant efficiency bottlenecks during training and inference. To overcome these limitations, further advancements are needed in data, algorithms, and systems applicable across various domains, as exemplified by work such as s1, Z1, and verl. The proposed workshop will bring together researchers and practitioners to rethink efficient reasoning under tight compute, memory, latency, throughput, and cost budgets, with the goal of translating theoretical breakthroughs into practical, deployable solutions.

Video

Chat is not available.

Schedule

Timezone: America/Los_Angeles

8:15 AM

Introduction and Opening Remarks

Video

9:00 AM

Jonas Geiping: The Promise of Recurrent Depth for Efficient Reasoning

Video

10:00 AM

Arman Cohan: Frameworks for Better Understanding Alignment Evaluation and Scientific Reasoning in Large Language

Video

10:30 AM

Oral Paper Talk: M1: Towards Scalable Test-Time Compute with Mamba Reasoning Models

Video

10:45 AM

Oral Paper Talk: Generalized Parallel Scaling with Interdependent Generations

Video

11:00 AM

Wei Xu: Beyond Logic and Math: Probabilistic Reasoning for Real-World Decision Making

Video

11:30 AM

Wang Zhang: What's Now and Next for veRL?

Video

12:00 PM

Poster Session 1

1:00 PM

Yi Wu: AReaL: an Efficient and Flexible Framework for Agentic RL

Video

1:30 PM

Yuandong Tian: open the blackbox of neural network and use the insights for efficient reasoning

Video

2:00 PM

Panel Discussion between Yuandong Tian, ziyun wei, Liliang Ren, xin dong

Video

2:30 PM

Hao Zhang: Reasoning with Confidence

Video

3:00 PM

Niklas Muennighoff: Test-time scaling

Video

3:30 PM

Oral Paper Talk: When Reasoning Meets Its Laws

Video

3:45 PM

Oral Paper Talk: In-the-Flow Agentic System Optimization for Effective Planning and Tool Use

Video

4:00 PM

Beidi Chen: Beyond FLOPs: Opportunities and Challenges of Test-Time Scaling on Modern Hardware

Video

4:30 PM

Best Paper Awards

Video

4:30 PM

Poster Session 2

Towards a Mechanistic Understanding of Robustness in Finetuned Reasoning Models

Aashiq Muhamed · Xuandong Zhao · Mona Diab · Virginia Smith · Dawn Song

DiFFPO: Training Diffusion LLMs to Reason Fast and Furious via Reinforcement Learning

HANYANG ZHAO · Dawen Liang · Wenpin Tang · David Yao · Nathan Kallus

One Sample to Rule Them All: Extreme Data Efficiency in RL Scaling

Yiyuan Li · Zhen Huang · Yanan Wu · Weixun Wang · Xuefeng Li · Yijia Luo · Pengfei Liu · Wenbo Su · Bo Zheng

DIVERSED: Relaxed Speculative Decoding via Dynamic Ensemble Verification

Ziyi Wang · Siva Rajesh Kasa · Ankith M S · SANTHOSH KASA · Jiaru Zou · Nan Jiang · Sumit Negi · Ruqi Zhang · Qifan Song

Agentic NL2SQL to Reduce Computational Costs

Dominik Jehle · Lennart Purucker · Frank Hutter

Understanding and Steering the Cognitive Behaviors of Reasoning Models at Test-Time

Zhenyu Zhang · Xiaoxia Wu · Zhongzhu Zhou · Qingyang Wu · Yineng Zhang · Pragaash Ponnusamy · Harikaran Subbaraj · Jue WANG · Shuaiwen Song · Ben Athiwaratkun

Causal Reflection with Language Models

Abi Aryan · Zac Yung-Chun Liu

Fractional Reasoning via Latent Steering Vectors Improves Inference Time Compute

Sheng Liu · Tianlang Chen · Pan Lu · Haotian Ye · Yizheng Chen · Lei Xing · James Zou

From Evidence to Trajectory: Abductive Reasoning Path Synthesis for Retrieval-Augmented Generation Agents Development

Muzhi Li · Jinhu Qi · Yihong Wu · Minghao Zhao · Liheng Ma · Yifan Li · Xinyu Wang · Yingxue Zhang · Ho-fung Leung · Irwin King

Compute as Teacher: Turning Inference Compute Into Reference-Free Supervision

Dulhan Jayalath · Shashwat Goel · Thomas Foster · Parag Jain · Suchin Gururangan · Cheng Zhang · Anirudh Goyal · Alan Schelten

Influence Functions for Efficient Data Selection in Reasoning

Prateek Humane · Paolo Cudrano · Daniel Z Kaplan · Matteo Matteucci · Supriyo Chakraborty · Irina Rish

SATBench: Benchmarking LLMs Logical Reasoning via Automated Puzzle Generation from SAT Formulas

Anjiang Wei · Yuheng Wu · Yingjia (Alisa) Wan · Tarun Suresh · Huanmi Tan · Zhanke Zhou · Sanmi Koyejo · Ke Wang · Alex Aiken

OptimalThinkingBench: Evaluating Over and Underthinking in LLMs

Pranjal Aggarwal · Seungone Kim · Jack Lanchantin · Sean Welleck · Jason Weston · Ilia Kulikov · Swarnadeep Saha

Universal Properties of Activation Sparsity in Modern Large Language Models

Filip Szatkowski · Patryk Będkowski · Alessio Devoto · Jan Dubiński · Pasquale Minervini · Mikołaj Piórczyński · Simone Scardapane · Bartosz Wójcik

Optimal Self-Consistency for Efficient Reasoning with Large Language Models

Austin Feng · Marius Alonso · Ambroise Odonnat · Vasilii Feofanov · Ievgen Redko

Optimizing Reasoning Efficiency through Prompt Difficulty Prediction

Bo Zhao · Berkcan Kapusuzoglu · Kartik Balasubramaniam · Sambit Sahu · Supriyo Chakraborty · Genta Winata

The Sequential Edge: Inverse-Entropy Voting Beats Parallel Self-Consistency at Matched Compute

Aman Sharma · Paras Chopra

Improving LLM Reasoning under Uncertainty with Coach-Player Multi-agent

Heewon Park · Minhae Kwon

SeqFusion: Scalable Long-Context Reasoning through Parallel Fragment Fusion and Memory-Augmented Attention

Yanxuan Yu · Dong Liu

Efficiency for Reasoning and Reasoning for Efficiency

Joie Zhang · Qiyao Wei · Howard Yen · Xi Ye · Danqi Chen

The Impact of Quantization on Large Reasoning Model Reinforcement Learning

Medha Kumar · Tristan Webb · Xin Wang · Zifei Xu

Uncovering Graph Reasoning in Decoder-only Transformers with Circuit Tracing

Xinnan Dai · Chung-Hsiang Lo · Kai Guo · Shenglai Zeng · Dongsheng Luo · Jiliang Tang

NaturalThoughts: Selecting and Distilling Reasoning Traces for General Reasoning Tasks

Yang Li · Youssef Emad · Karthik Padthe · Jack Lanchantin · Weizhe Yuan · Thao Nguyen · Jason Weston · Shang-Wen Li · Dong Wang · Ilia Kulikov · Xian Li

Breadcrumbs Reasoning: Memory-Efficient Reasoning with Compression Beacons

Giovanni Monea · Yair Feldman · Shankar Padmanabhan · Kianté Brantley · Yoav Artzi

Training Dynamics Impact Quantization Degradation

Albert Catalan-Tatjer · Niccolò Ajroldi · Jonas Geiping

TimeAlign: Contamination-Aware Evaluation for Resource-Constrained Foundation Models

Jasraj Hari Krishna Budigam

Diffusion Language Models Know the Answer Before Decoding

Pengxiang Li · Yefan Zhou · Dilxat Muhtar · Lu Yin · Shilin Yan · Li Shen · Yi Liang · Soroush Vosoughi · Shiwei Liu

Amortized Latent Steering: Low-Cost Alternative to Test-Time Optimization

Nathan Egbuna · Saatvik Gaur · Kevin Zhu · Sunishchal Dev · Ashwinee Panda · Maheep Chaudhary

Deep Think with Confidence

Yichao Fu · Xuewei Wang · Yuandong Tian · Jiawei Zhao

How Does RL Induce Skill Composition? A Case Study Using Countdown

Simon Park · Simran Kaur · Sanjeev Arora

Probe-Rewrite-Evaluate: A Workflow for Reliable Benchmarks and Quantifying Evaluation Awareness

Lang Xiong · Nishant Bhargava · Jeremy Chang · Jianhang Hong · Haihao Liu · Vasu Sharma · Kevin Zhu

Long-Context Modeling with Dynamic Hierarchical Sparse Attention for On-Device LLMs

Siheng Xiong · Yae Jee Cho · Joe Zou · Faramarz Fekri

CGES: Confidence-Guided Early Stopping for Efficient and Accurate Self-Consistency

Ehsan Aghazadeh · Ahmad Ghasemi · Hedyeh Beyhaghi · Hossein Pishro-Nik

Prosperity before Collapse: How Far Can Off-Policy RL Reach with Stale Data on LLMs?

Haizhong Zheng · Jiawei Zhao · Beidi Chen

How Weight Pruning Destroys Chain-of-Thought Reasoning in Language Reasoning Models: A Model Similarity and Faithfulness Correlation Analysis

Avinash Kumar Sharma · Tushar Shinde

Just Enough Thinking: Efficient Reasoning with Adaptive Length Penalties Reinforcement Learning

Violet Xiang · Chase Blagden · Rafael Rafailov · Nathan Lile · Sang Truong · Chelsea Finn · Nick Haber

Reasoning Models Can Be Accurately Pruned via Chain-of-Thought Reconstruction

Ryan Lucas · Kayhan Behdin · Zhipeng Wang · Qingquan Song · Shao Tang · Rahul Mazumder

ProtFunAgent: Agentic LLM Cascades for Low-Resource Protein Function Gap-Filling via Homology RAG and Ontology-Constrained Decoding

Sajib Acharjee Dip · John Choy · Liqing Zhang

LSPO: Length-aware Dynamic Sampling for Policy Optimization in LLM Reasoning

Weizhe Chen · Sven Koenig · Bistra Dilkina

MultiGA: Leveraging Multi-Source Seeding in Genetic Algorithms

Isabelle Ng · Tharindu Cyril Weerasooriya · Haitao Zhu · Wei Wei

Efficient Parallel Samplers for Recurrent-Depth Models and Their Connections to Diffusion Language Models

Jonas Geiping · Xinyu Yang · Guinan Su

AdaptDistill: Improving Small Language Models with Skill-Aware Teaching

Yinghui He · Abhishek Panigrahi · Yong Lin · Sanjeev Arora

Decomposing Reasoning Efficiency in Large Language Models

Daniel Kaiser · Arnoldo Frigessi · Ali Ramezani-Kebrya · Benjamin Ricaud

Finding the Sweet Spot: Trading Quality, Cost, and Speed During Inference-Time LLM Reflection

Jack Butler · Nikita Kozodoi · Zainab Afolabi

Reasoning-Intensive Regression

Diane Tchuindjo · Omar Khattab

AutoL2S: Auto Long-Short Reasoning for Efficient Large Language Models

Feng Luo · Yu-Neng Chuang · Guanchu Wang · Hoang Anh Duy Le · Shaochen (Henry) Zhong · Hongyi Liu · Jiayi Yuan · Yang Sui · Vladimir Braverman · Vipin Chaudhary · Xia Hu

Learning to Reason Across Parallel Samples for LLM Reasoning

Jianing Qi · Xi Ye · Hao Tang · Zhigang Zhu · Eunsol Choi

Short-to-Long Distillation: Learning Long-Context Policies from Short-Context Supervision

Yuejiang Liu · Yuxi Qian · Yilun Du · Chelsea Finn

Compute When Worth It: Risk Control for Reasoning on a Compute Budget

Anushri Suresh · Bowei Zhang · Rishi More · William Jurayj · Ben Van Durme · Eric Nalisnick · Daniel Khashabi

Multi-Head Low-Rank Attention

Songtao Liu · Hongwu Peng · Zhiwei Zhang · Zhengyu Chen · Yue Guo

Mechanistic Interpretability of GPT-2: Lexical and Contextual Layers in Sentiment Analysis

Amartya Hatua

Information-Theoretic Bounds on Multi-Step Reasoning: When is Chain-of-Thought Provably Necessary?

Karthik Srikumar

From Long to Short: LLMs Excel at Trimming Own Reasoning Chains

Wei Han · Geng Zhan · Sicheng Yu · Chenyu Wang · Bryan Hooi

CaRT: Teaching LLM Agents to Know When They Know Enough

Grace Liu · Yuxiao Qu · Jeff Schneider · Aarti Singh · Aviral Kumar

Adaptive Dual Reasoner: Large Reasoning Models Can Think Efficiently by Hybrid Reasoning

YuJian Zhang · Keyu Chen · Zhifeng Shen · Ruizhi Qiao · Xing Sun

How Far Can SLMs Go Without `Thinking' in the LLM-as-a-Judge Paradigm?

Pratik Jayarao · Himanshu Gupta · Neeraj Varshney · Chaitanya Dwivedi

An Empirical Study of Attention and Diversity for Adaptive Visual Token Pruning in Multimodal Reasoning Models

Changwoo Baek · Jouwon Song · Sohyeon Kim · Kyeongbo Kong

Hierarchical Planning Agent for Web-Browsing Tasks

Elita Lobo · Xu Chen · Jingjing Meng · Nan Xi · Yang Jiao · Yanhui Guo · Zhishen Huang · Yan Gao

Mimicking the Physicist's Eye : A VLM-centric Approach for Physics Formula Discovery

Jiaqi Liu · Songning Lai · Pengze Li · Di Yu · Zhou wenjie · Yiyang Zhou · Peng Xia · Zijun Wang · Xi Chen · SHIXIANG TANG · LEI BAI · Wanli Ouyang · Mingyu Ding · Huaxiu Yao · Aoran Wang

What’s Missing in Vision-Language Models? Probing Their Struggles with Causal Order Reasoning

Zhaotian Weng · Haoxuan Li · Xin Wang · Kuan-Hao Huang · Jieyu Zhao

ORPO-Distill: Mixed-Policy Preference Optimization for Cross-Architecture LLM Distillation

Aasheesh Singh · Vishal Vaddina · Dagnachew Birru

Mode-conditioning unlocks superior test-time compute scaling

Chen Wu · Sachin Goyal · Aditi Raghunathan

Scheherazade: Evaluating Chain-of-Thought Math Reasoning in LLMs with Chain-of-Problems

Stephen Miner · Yoshiki Takashima · Sophia Han · Sam Kouteili · Ferhat Erata · Ruzica Piskac · Scott Shapiro

The Reasoning Depth vs. Width Dilemma: A Formal Model and Adaptive Inference Algorithm

Siddharth Karuturi · Mithil Shah

MetroRL: Enabling Memory‑Effective Training for On‑Policy RLHF via Adaptive Sequence Streaming

Wei Cui

The Virtues of Brevity: Avoid Overthinking in Parallel Test-Time Reasoning

Raul Dinardi · Yamamoto · Anna H Reali Costa · Artur Jordao

LOGCA: Layer-Optimized GPU-CPU Allocation for Efficient Resource Management in Large-Scale Models

Zichen Song

iOS as Acceleration

Alexander Kai Chen

When Reasoning Meets Its Laws

Junyu Zhang · Yifan Sun · Tianang Leng · Jingyan Shen · Liu Ziyin · Paul Liang · Huan Zhang

LoRA-Guided PPO for Cost-Aware and Compute-Efficient Agent Orchestration

Aneesh Durai · Joshua Hu · Kevaan Buch · Kevin Zhu · Vasu Sharma · Aishwarya Balwani

Scalability of reasoning models under compute constraints

Adarsha Balaji · Le Chen · Rajeev Thakur · Franck Cappello · Sandeep Madireddy

Efficient RL Training for Reasoning Models via Length-Aware Optimization

Danlong Yuan · Tian Xie · Shaohan Huang · Zhuocheng Gong · Huishuai Zhang · Chong Luo · Furu Wei · Dongyan Zhao

DHP: Discrete Hierarchical Planning for HRL Agents

Shashank Sharma · Janina A. Hoffmann · Vinay Namboodiri

Data Diversification Methods In Alignment Enhance Math Performance In LLMs

Berkan Dokmeci · Qingyang Wu · Ben Athiwaratkun · Ce Zhang · Shuaiwen Song · James Zou

PHLoRA: data-free Post-hoc Low-Rank Adapter extraction from full-rank checkpoint

Bhoomit Vasani · Jack FitzGerald · Anjie Fang · Sushmit Vaish

It Takes Two: Your GRPO Is Secretly DPO

Yihong Wu · Liheng Ma · Lei Ding · Muzhi Li · Xinyu Wang · Kejia Chen · Zhan Su · Zhanguang Zhang · Chenyang Huang · Yingxue Zhang · Mark Coates · Jian-Yun Nie

Demystifying and Enhancing the Efficiency of Interleaved Reasoning-Search LLM Agents

Tiannuo Yang · Zebin Yao · Bowen Jin · Lixiao Cui · Yusen Li · Gang Wang · xiaoguang Liu · Willie Neiswanger

Inpainting-Guided Policy Optimization for Diffusion Large Language Models

Siyan Zhao · Mengchen Liu · Jing Huang · Miao Liu · Chenyu Wang · Bo Liu · Yuandong Tian · Guan Pang · Sean Bell · Aditya Grover · Feiyu Chen

E1: Controlling the Effort of a Reasoning Model through Reinforcement Learning

Michael Kleinman · Matthew Trager · Wei Xia · Stefano Soatto

Can Explanations Improve Recommendations? A Joint Optimization with LLM Reasoning

Yuyan Wang · Pan Li · MINMIN CHEN

Local Coherence or Global Validity? Investigating RLVR Traces in Math Domains

Soumya Rani Samineni · Durgesh Kalwar · Vardaan Gangal · Siddhant Bhambri · Subbarao Kambhampati

Statistical Early Stopping for Reasoning Models

Yangxinyu Xie · Tao Wang · Soham Mallick · Yan Sun · Georgy Noarov · Mengxin Yu · Tanwi Mallick · Weijie Su · Edgar Dobriban

Hydra: A Modular Architecture for Efficient Long-Context Reasoning

Siddharth Chaudhary · Dev Patel · Maheep Chaudhary · Bennett Browning

M1: Towards Scalable Test-Time Compute with Mamba Reasoning Models

Junxiong Wang · Wen-Ding Li · Daniele Paliotta · Daniel Ritter · Sasha Rush · Tri Dao

Towards Label-Free Biological Reasoning Synthetic Dataset Creation via Uncertainty Filtering

Josefa Stoisser · Lawrence Phillips · Aditya Misra · Tom Lamb · Philip Torr · Marc Martell · Julien Fauqueur · Kaspar Märtens

Hard Examples Are All You Need: Maximizing GRPO Post-Training Under Annotation Budgets

Benjamin Pikus · Pratyush Tiwari · Burton Ye

BenchHub: A Unified Benchmark Suite for Holistic and Customizable LLM Evaluation

Eunsu Kim · Haneul Yoo · Guijin Son · Hitesh Patel · Amit Agarwal · Alice Oh

DAG-Math: Graph-Guided Mathematical Reasoning in LLMs

Yuanhe Zhang · Ilja Kuzborskij · Jason Lee · Chenlei Leng · Fanghui Liu

MeRF: Motivation-enhanced Reinforcement Finetuning for Large Reasoning Models

Junjie Zhang · Guozheng Ma · Shunyu Liu · Haoyu Wang · Jiaxing Huang · Ting-En Lin · Fei Huang · Yongbin Li · Dacheng Tao

TRACE: Transparent Reasoning and Attribution Chains for Extended Multimodal Contexts

Adithya S Kolavi

Software Engineering Agents for Embodied Controller Generation : A Study in Minigrid Environments

Timothé Boulet · Xavier Hinaut · Clément Moulin-Frier

In Good GRACEs: Principled Teacher Selection for Knowledge Distillation

Abhishek Panigrahi · Bingbin Liu · Sadhika Malladi · Sham Kakade · Surbhi Goel

SGDKV: Summarization Guided KV Cache Compression

Zeyu Liu · Woomin Song · Xuandi Fu · Sai Muralidhar Jayanthi · Vivek Govindan · Aram Galstyan · Sravan Babu Bodapati · Srikanth Ronanki

In-the-Flow Agentic System Optimization for Effective Planning and Tool Use

Zhuofeng Li · Haoxiang Zhang · Seungju Han · Sheng Liu · Jianwen Xie · Yu Zhang · Yejin Choi · James Zou · Pan Lu

DA-CoTD: Efficient Chain-of-Thought Reasoning with Difficulty-Aware CoT-Distillation

ABDUL WAHEED · Chancharik Mitra · Laurie Wang

EWoRA: Expert Weighted Low-Rank Adaptation for Reasoning over Heterogeneous Data

Harsh Kohli · Helian Feng · Lenon Minorics · Bhoomit Vasani · Xin (Cynthia) He · Ali Kebarighotbi

DTS: Enhancing Large Reasoning Models via Decoding Tree Sketching

Zicheng Xu · Guanchu Wang · Yu-Neng Chuang · Guangyao Zheng · Alexander Szalay · Zirui Liu · Vladimir Braverman

Data Scaling Isn't Enough: Towards Improving Compositional Reasoning in Video-Language Models

Kibum Kim · Kyle Min · Chanyoung Park

Extending AutoCompressors via Surprisal-Based Dynamic Segmentation

Srivishnu Ramamurthi · Richard Xu · Raine (Qirun) Ma · Dawson Park · David Guo · Charles Duong · Vasu Sharma · Sean O'Brien · Kevin Zhu

DMORE: Differentiable Mixture-of-Reasoning-Experts with Uncertainty-Guided Multi-Level Routing

Roman Sultimov · Aleksandr Volkov · Mariia Kovalchuk · Yury Maximov

Multi-agent LLMs with Offline Reinforcement Learning for Hierarchical Multi-turn Decision-making

Sangeun Park · Minhae Kwon

DISCO Balances the Scales: Adaptive Domain- and Difficulty-Aware Reinforcement Learning on Imbalanced Data

Yuhang Zhou · Jing Zhu · Shengyi Qian · Zhuokai Zhao · Xiyao Wang · Xiaoyu Liu · Ming Li · Paiheng Xu · Wei Ai · Furong Huang

MLM: Multi-linguistic LoRA Merging

Jung Lee · Taero Kim · Nikhil Verma

Episode-Level Multimodal KV Caching for Embodied Question Answering

HyoBin Ong · Minsu Jang

SpatialTraceGen: High-Fidelity Traces for Efficient VLM Spatial Reasoning Distillation

Gio Huh · Dhruv Sheth · Rayhan Zirvi · Frank Xiao

Correct Reasoning Paths Visit Shared Decision Pivots

Dongkyu Cho · Amy Zhang · Bilel Fehri · Sheng Wang · Rumi Chunara · Rui Song · Hengrui Cai

SpecReason: Fast and Accurate Inference-Time Compute via Speculative Reasoning

Rui Pan · Yinwei Dai · Zhihao Zhang · Gabriele Oliaro · Zhihao Jia · Ravi Netravali

SRT: Accelerating Reinforcement Learning via Speculative Rollout with Tree-Structured Cache

Chi-Chih Chang · Siqi Zhu · Zhichen Zeng · Haibin Lin · Xin Liu · Jiaxuan You · Mohamed Abdelfattah · Ziheng Jiang · Xuehai Qian

Off-Trajectory Reasoning: Can LRMs Collaborate on Reasoning Trajectory?

Aochong Li · Tanya Goyal

Distilling Multi-modal Large Language Models for Autonomous Driving

Deepti Hegde · Rajeev Yasarla · Herbert Cai · Shizhong Han · Apratim Bhattacharyya · Shweta Mahajan · Litian Liu · Risheek Garrepalli · Vishal Patel · Fatih Porikli

Are We Scaling the Right Thing? A System Perspective on Test-Time Scaling

Youpeng Zhao · Jinpeng Lv · Di Wu · Jun Wang

Harnessing Negative Signals: Reinforcement Distillation from Teacher Data for LLM Reasoning

Shuyao Xu · Cheng Peng · Jiangxuan Long · Weidi Xu · Wei Chu · Yuan Qi

The Effect of Dataset Diversification on Mathematical Problem Solving Performance

Jason Yuan

Reasoning in Superposition

Zheyang Xiong · Shivam Garg · Vaishnavi Shrivastava · Haoyu Zhao · Anastasios Kyrillidis · Dimitris Papailiopoulos

Efficient Reinforcement Finetuning via Adaptive Curriculum Learning

Taiwei Shi · Yiyang Wu · Linxin Song · Tianyi Zhou · Jieyu Zhao

SwiftSolve: A Self-Iterative, Complexity-Aware Multi-Agent Framework for Competitive Programming

Jonas Rohweder · Adhyayan V Singh · Aaron Shen · Brian Law · Ahmed Ismail · Sean O'Brien · Kevin Zhu

The Conductor and the Engine: A Path Towards Co-Designed Reasoning

Yuanxin (Michael) Wang · Pawel Filipczuk · Anisha Garg · Mohammad Amaan Irfan Dhada · Mohammad Hassanpour · David Bick · Ganesh Venkatesh

Think Straight, Stop Smart: Structured Reasoning for Efficient Multi-Hop RAG

Jihwan Bang · Jun-Tae Lee · Seunghan Yang · Sungha Choi

Resa: Transparent Reasoning Models via SAEs

Shangshang Wang · Julian Asilis · Ömer Faruk Akgül · Enes Bilgin · Ollie Liu · Deqing Fu · Willie Neiswanger

Efficient Test-Time Scaling via Self-Calibration

Chengsong Huang · Langlin Huang · Jixuan Leng · Jiacheng Liu · Jiaxin Huang

UniFormer: Unified and Efficient Transformer for Reasoning Across General and Custom Computing

Zhuoheng Ran · Chong Wu · Renjie Xu · Maolin Che · Hong Yan

Reversal Is Structural: Concept-Aware Post-Training Recovers Rare, Deep Mathematical Skills

Yassir Laaouach

AdaptInfer: Adaptive Token Pruning for Vision–Language Model Inference with Dynamical Text Guidance

Weichen Zhang · Zhui Zhu · Kebin Liu · Yunhao Liu

On the Role of Temperature Sampling in Test-Time Scaling

Yuheng Wu · Thierry Tambe

Generating Domain Specific Natural Language SAT Reasoning Datasets

Sunandita Patra · Keshav Ramani · Daniel Borrajo · Sriram Gopalakrishnan

RoiRL: Efficient, Self-Supervised Reasoning with Offline Iterative Reinforcement Learning

Aleksei Arzhantsev · Otmane Sakhi · Flavian Vasile

Multimodal Chain of Continuous Thought for Latent-Space Reasoning in Vision-Language Models

Tan-Hanh Pham · Chris Ngo

Don’t Let It Hallucinate: Premise Verification via Retrieval-Augmented Logical Reasoning

Yuehan Qin · Li Li · Yi Nian · Xinyan Yu · Yue Zhao · Xuezhe Ma

Hold Onto That Thought: Assessing KV Cache Compression On Reasoning

Minghui Liu · Aadi Palnitkar · Tahseen Rabbani · Hyunwoo Jae · Kyle Sang · Dixi Yao · Shayan Shabihi · Fuheng Zhao · Tian Li · Ce Zhang · Furong Huang · Kunpeng Zhang

Teaching Pretrained Language Models to Think Deeper with Retrofitted Recurrence

Sean McLeish · Leon Li · John Kirchenbauer · Dayal Singh Kalra · Brian Bartoldson · Bhavya Kailkhura · Avi Schwarzschild · Jonas Geiping · Micah Goldblum · Tom Goldstein

Lark: Biologically Inspired Neuroevolution for Multi-Stakeholder LLM Agents

Rikhil Tanugula · Dheeraj Chintapalli · Sunkalp Chandra

ConstrainedSQL: Training LLMs for Text2SQL via Constrained Reinforcement Learning

Weiqin Chen · Nhan H Pham · Michael Glass · Long Vu · Gaetano Rossiello · Dharmashankar Subramanian · Santiago Paternain

Learnable Adaptive KV-cache Compression

Erik Arakelyan · Boris Ginsburg

When Do Symbolic Solvers Enhance Reasoning in Large Language Models?

Zhiyuan He · Dingmin Wang

HybridCoT: Interleaving Latent and Text Chain-of-Thought for Efficient Reasoning

Zejiang Shen · Rulin Shao · Chenyu Wang · Songlin Yang · Vincent-Pierre Berges · Gargi Ghosh · Pang Wei Koh · Luke Zettlemoyer · Yoon Kim · Jason Weston · David Sontag · Scott Yih

When Visualizing is the First Step to Reasoning: MIRA, a Benchmark for Visual Chain-of-Thought

Yiyang Zhou · Haoqin Tu · Zijun Wang · Zeyu Wang · Niklas Muennighoff · Fan Nie · Chaorui Deng · Shen Yan · Haoqi Fan · Yejin Choi · James Zou · Cihang Xie · Huaxiu Yao · Qinghao Ye

Muon: Training and Trade-offs with Latent Attention and MoE

Sushant Mehta · Raj Dandekar · Rajat Dandekar · Sreedath Panat

Federation of Agents: A Semantics-Aware Communication Fabric for Large-Scale Agentic AI

Lorenzo Giusti · Ole Werner · Riccardo Taiello · Matilde Costa · Emre Tosun · Andrea Protani · Marc Molina · Rodrigo de Almeida · Paolo Cacace · Diogo Reis Santos · Luigi Serio

Why RL Updates Look Sparse: An Implicit Compass Drives Optimization Bias

Hanqing Zhu · Zhenyu Zhang · Hanxian Huang · DiJia Su · Zechun Liu · Jiawei Zhao · Igor Fedorov · Hamed Pirsiavash · Jinwon Lee · David Z. Pan · Zhangyang "Atlas" Wang · Yuandong Tian · Kai Sheng Tai

Beyond Static Cutoffs: One-Shot Dynamic Thresholding for Diffusion Language Models

Jucheng Shen · Yeonju Ro

WST: Weak-to-Strong Knowledge Transfer via Reinforcement Learning

Haosen Ge · Shuo Li · Huang

Sample, Align, Synthesize: Graph-Based Response Synthesis with ConGrs

Sayan Ghosh · Shahzaib Saqib Warraich · Dhruv Tarsadiya · Gregory Yauney · Swabha Swayamdipta

Nested-ReFT: Efficient Reinforcement Learning for Large Language Model Fine-Tuning via Off-Policy Rollouts

Maxime Heuillet · Yufei CUI · Boxing Chen · Audrey Durand · Prasanna Parthasarathi

Efficient Sparse Decoding for Test-Time Scaling with KV Cache Disaggregation and Asynchronism

Shuqing Luo · Yilin Guan · Hanrui Wang · Tianlong Chen

Activation Steering for Chain-of-Thought Compression

Seyedarmin Azizi · Erfan Baghaei Potraghloo · Souvik Kundu · Massoud Pedram

RAT: Bridging RNN Efficiency and Attention Accuracy via Chunk-based Sequence Modeling

Xiuying Wei · Anunay Yadav · Razvan Pascanu · Caglar Gulcehre

Scratchpad Thinking: Alternation Between Storage and Computation in Latent Reasoning Models

Sayam Goyal · Brad Peters · Maria Emilia Granda · Akshath Narmadha · Dharunish Yugeswardeenoo · Callum McDougall · Sean O'Brien · Ashwinee Panda · Kevin Zhu · Cole Blondin

Dual-Head Reasoning Distillation: Improving Classifier Accuracy with Train-Time-Only Reasoning

Jillian Xu · Dylan Zhou · Vinay Shukla · Yang Yang · Junrui Ruan · Shuhuai Lin · Wenfei Zou · Yinxiao Liu · Karthik Lakshmanan

ThinkBrake: Mitigating Overthinking in Tool Reasoning

Minjae Oh · Sangjun Song · Seungkyu Lee · Sungmin Jo · Yohan Jo

SituationalPriv: A Context-Aware Framework for Privacy Detection and Protection in Vision-Language Models

Zhaotian Weng · Haoxuan Li · Jieyu Zhao

Internal Value Functions: Leveraging Hidden States for Efficient Test-Time Scaling in Large Reasoning Models

Duc Khiem Pham · Sai Muralidhar Jayanthi · Saket Dingliwal · Bhavana Ganesh · Karthik Valmeekam · Xiangchen Song · Vivek Govindan · Beidi Chen · Sravan Babu Bodapati · Aram Galstyan

FrugalRAG: Learning to retrieve and reason for multi-hop QA

Abhinav Java · Srivathsan Koundinyan · Nagarajan Natarajan · Amit Sharma

A Cooperation Index for Model Pruning

Do-Hoon Kim · Jay Myung · Yung-Kyun Noh

Delta Activations: A Representation for Finetuned Large Language Models

Zhiqiu (Oscar) Xu · Amish Sethi · Mayur Naik · Ser Nam Lim

CATS: Category-Aware Token-level Steering for Training-Free Redundancy Reduction in Large Reasoning Models

Zhang Mengfei · Zhenglin Wang

Adaptive Guidance Accelerates Reinforcement Learning of Reasoning Models

Vaskar Nath · Elaine Lau · Anisha Gunjal · Manasi Sharma · Nikhil Barhate · Sean Hendryx

RaanA: A Fast, Flexible, and Data-Efficient Post-Training Quantization Algorithm

Yongyi Yang · Jianyang Gao · Wei Hu

Boundary Guidance for Efficient 3D CT Vision–Language Reasoning

Soo Kim

Demystifying Delays in Reasoning: A Pilot Temporal and Token Analysis of Reasoning Systems

Qi Qi · Reyna Abhyankar · Yiying Zhang

Analysis of Emergence of Reasoning in Language Models: Factors, Thresholds and Interpretations

Yen-Che Hsiao · Abhishek Dutta

Reasoning Models Better Express Their Confidence

Dongkeun Yoon · Seungone Kim · Sohee Yang · Sunkyoung Kim · Soyeon Kim · Yongil Kim · Eunbi Choi · Yireun Kim · Minjoon Seo

Less is Not Worse: Effective Reasoning Without Complete Reasoning Chains

Jaehui Hwang · Sangdoo Yun · Byeongho Heo · Dongyoon Han

Re-FORC: Adaptive Reward Forecasting for Efficient Chain-of-Thought Reasoning

Renos Zabounidis · Aditya Sharad Golatkar · Michael Kleinman · Alessandro Achille · Wei Xia · Stefano Soatto

Reasoning Under Pressure: LLMs in Competitive Pokémon Battles

Tadisetty Yashwanth · Dhatri C

Why GRPO Needs Normalization: A Local-Curvature Perspective on Adaptive Gradients

Cheng Ge · Heqi Yin · Hao Liang · Jiawei Zhang

SPG: Sandwiched Policy Gradient for Masked Diffusion Language Models

Chenyu Wang · Paria Rashidinejad · DiJia Su · Song Jiang · Sid Wang · Siyan Zhao · Cai Zhou · Zejiang Shen · Feiyu Chen · Tommi Jaakkola · Yuandong Tian · Bo Liu

Verbalized Algorithms

Supriya Lall · Christian Farrell · Hari Pathanjaly · Marko Pavic · Sarvesh Chezhian · Masataro Asai

Instance-Adaptive Inference-Time Scaling with Calibrated Process Reward Models

Young-Jin Park · Kristjan Greenewald · Kaveh Alimohammadi · Hao Wang · Navid Azizan

ARM: Adaptive Reasoning Model

Siye Wu · Jian Xie · yikai zhang · Aili Chen · Kai Zhang · Yu Su · Yanghua Xiao

Learning to See Before Seeing: Demystifying LLM Visual Priors from Language Pre-training

Junlin Han · Peter Tong · David Fan · Yufan Ren · Koustuv Sinha · Philip Torr · Filippos Kokkinos

Inference-Time Chain-of-Thought Pruning with Latent Informativeness Signals

Sophie Li · Nicholas Huang · Nayan Saxena · Nina Luo · Vincent Lin · Kevin Zhu · Sunishchal Dev

SparseVILA-R1: Decoupling Visual Sparsity for Efficient VLM Reasoning

Samir Khaki · Junxian Guo · Jiaming Tang · Shang Yang · Yukang Chen · Konstantinos N Plataniotis · Yao Lu · Song Han · Zhijian Liu

AGENTIQL: An Agent-Inspired Multi-Expert Framework for Text-to-SQL Generation

Omid Reza Heidari · Siobhan Reid · Yassine Yaakoubi

M-GRPO: Stabilizing Self-Supervised Reinforcement Learning for Large Language Models with Momentum-Anchored Policy Optimization

Bizhe Bai · Hongming Wu · Peng Ye · Tao Chen

Where do Reasoning Models make a Difference? Follow the Reasoning Leader for Efficient Decoding

Ming Li · Tianyi Zhou

Bayesian Social Deduction with Graph-Informed Language Models

Shahab Rahimirad · Guven Gergerli · Lucia Romero · Angela Qian · Matthew Olson · Simon Stepputtis · Joseph Campbell

Parallel-R1: Towards Parallel Thinking via Reinforcement Learning

Tong Zheng · Hongming Zhang · Wenhao Yu · Xiaoyang Wang · He Xing · Runpeng(Leo) Dai · Rui Liu · Huiwen Bao · Chengsong Huang · Heng Huang · Dong Yu

Efficient Long CoT Reasoning in Small Language Models

Zhaoyang Wang · Jinqi Jiang · Tian Qiu · Hui Liu · Xianfeng Tang · Huaxiu Yao

No Question, No Passage, No Problem: Investigating Artifact Exploitation and Reasoning in Multiple-Choice Reading Comprehension

Anthony Cui · Rohan R Butani · Theodore Oltean

The Zero-Step Thinking: An Empirical Study of Mode Selection as Harder Early Exit in Reasoning Models

Yuqiao Tan · Shizhu He · Kang Liu · Jun Zhao

Active Inference Control: Steering, Not Just Scaling, Language Model Reasoning

Josh Karthikeyan · Kai Fu · Derek Jiu · Ryan Lagasse · Kevin Zhu

DRPO: Efficient Reasoning via Decoupled Reward Policy Optimization

Yan Chen · Gang Li

Not All Thoughts Matter: Selective Attention for Efficient Reasoning

Hao Tang · Guoqing Zheng · Kanishk Gandhi · Harkirat Singh Behl · Vaishnavi Shrivastava · Mojan Javaheripi · Kevin Ellis · Shivam Garg · Dimitris Papailiopoulos

Confidence-Coverage Gating for Early Exit

Aaroosh Rustagi · Hsien Xin Peng · Khushal Murthy · Attrey Koul · Ryan Lagasse · Kevin Zhu

GEAR-X: Expanders for Next-Gen KV Cache Compression

Vivek Mirani · Garima Bansal · Pabitra Mitra · Arindam Biswas · Amaljith EV

Wide-In, Narrow-Out: Revokable Decoding for Efficient and Effective DLLM

Feng Hong · Geng Yu · Yushi Ye · haicheng huang · Huangjie Zheng · Ya Zhang · Yanfeng Wang · Jiangchao Yao

Free Draft-and-Verification: Toward Lossless Parallel Decoding for Diffusion Large Language Models

Shutong Wu · Jiawei Zhang

Reuse, Don't Recompute: Efficient Large Reasoning Model Inference via Memory Orchestration

Daivik Patel · Shrenik Patel

Thinking in Many Modes: How Composite Reasoning Elevates Large Language Model Performance with Limited Data

Zishan Ahmad · Saisubramaniam Gopalakrishnan

PREMISE: Scalable and Strategic Prompt Optimization for Efficient Mathematical Reasoning in Large Models

Ye Yu · Yaoning Yu · Haibo Jin · Haohan Wang

What Characterizes Effective Reasoning? Revisiting Length, Review, and Structure of CoT

Yunzhen Feng · Julia Kempe · Cheng Zhang · Parag Jain · Anthony Hartshorn

Reject Only Critical Tokens: Pivot-Aware Speculative Decoding

Amir Ziashahabi · Yavuz Faruk Bakman · Duygu Nur Yaldiz · Mostafa El-Khamy · Sai Praneeth Karimireddy · Salman Avestimehr

On the Rollout-Training Mismatch in Modern RL Systems

Feng Yao · Liyuan Liu · Dinghuai Zhang · Chengyu Dong · Jingbo Shang · Jianfeng Gao

LayerMerge: Modality-Agnostic Depth Pruning for Efficient Foundation Model Deployment

Arjun Choudhry · Chang Liu · Nina Żukowska · Yifu Cai · Mononito Goswami · Artur Dubrawski

Optimizing Memory vs. Accuracy in Reasoning Models Cannot Be Scale-Agnostic

Junhyuck Kim · Ethan Ewer · Taehong Moon · Jongho Park · Dimitris Papailiopoulos

Weak Discriminative Verification Enables Strong Test-time Scaling

Kyle Montgomery · Sijun Tan · Yuqi Chen · Siyuan Zhuang · Tianjun Zhang · Raluca Popa · Chenguang Wang

Chopping Trees: Semantic Similarity Based Dynamic Pruning for Tree-of-Thought Reasoning

Joongho Kim · Xirui Huang · Zarreen Reza · Gabriel Grand · Kevin Zhu · Ryan Lagasse

Reasoning Models Reason Inefficiently

Dipika Khullar · Ashwinee Panda

Mixture of Sparse Attention: Content-Based Learnable Sparse Attention via Expert-Choice Routing

Piotr Piękos · Róbert Csordás · Jürgen Schmidhuber

Efficient Reasoning at Fixed Test-Time Cost via Length-Aware Attention Priors and Gain-Aware Training

Rian Atri

EcoSpa: Efficient Transformer Training with Coupled Sparsity

Jinqi Xiao · cheng Luo · Lingyi Huang · Cheng Yang · Yang Sui · Huy Phan · Xiao Zang · Yibiao Ying · Animashree Anandkumar · Bo Yuan

Pull Requests with Bugs: Benchmarking Model Reasoning for Code Reviews

Laurence Liang

Scale-Dependent Elicitation of Reasoning in LLMs

Jake Ward

Towards Quantifying Bias in Large Language Models

Ali Nosratifiroozsalari · Alireza Afzal Aghaei · Ronald Davies · Rajiv Ramnath

Logit–Entropy Adaptive Stopping Heuristic for Efficient Chain-of-Thought Reasoning

Mohammad Atif Quamar · Mohammad Areeb

Calibrated Reasoning: An Explanatory Verifier for Dynamic and Efficient Problem-Solving

Anisha Garg · Engin Tekin · Yash More · David Bick · Ganesh Venkatesh

Feature-Level Knowledge Distillation from LMM for Enhanced Image Classification

Bumsu Jang · Heechul Jung

Stable Reinforcement Learning for Efficient Reasoning

Muzhi Dai · Shixuan Liu · Qingyi Si

Reasoning with Fewer Eyes: Efficient Visual Token Withdrawal for Multimodal Reasoning

Andrea Ramazzina · Tobias Haab · David Fitzek · Stefano Gasperini · Jonas Uhrig · Mario Bijelic

Generalized Parallel Scaling with Interdependent Generations

Harry Dong · David Brandfonbrener · Eryk Helenowski · Yun He · Mrinal Kumar · Han Fang · Yuejie Chi · Karthik Abinav Sankararaman

Pay-Per-Search Models are Abstention Models

Mustafa Omer Gul · Claire Cardie · Tanya Goyal

To See or To Read: User Behavior Reasoning in Multimodal LLMs

Tianning Dong · Luyi Ma · Varun Vasudevan · Jason Cho · Sushant Kumar · Kannan Achan

Efficient Post-Training for Industry-Specialized Reasoning in Small Language Models

Bill Cai · Sheldon Liu · Tatsuo Azeyanagi · Tomal Deb

Performative Thinking? The Brittle Correlation Between CoT Length and Problem Complexity

Vardhan Palod · Karthik Valmeekam · Kaya Stechly · Subbarao Kambhampati

Attention Guided Alignment in Efficient Vision-Language Models

Shweta Mahajan · Hoang Le · Hyojin Park · Farzad Farhadzadeh · Durga Malladi · Fatih Porikli

Rubrics as Rewards: Reinforcement Learning Beyond Verifiable Domains

Anisha Gunjal · Anthony Wang · Elaine Lau · Vaskar Nath · Yunzhong He · Bing Liu · Sean Hendryx

ProofSketch: Efficient Verified Reasoning for Large Language Models

Disha Sheshanarayana · Tanishka Magar

Coevolutionary Continuous Discrete Diffusion: Make Your Diffusion Language Model a Latent Reasoner

Cai Zhou · Chenxiao Yang · Yi Hu · Chenyu Wang · Chubin Zhang · Muhan Zhang · Lester Mackey · Tommi Jaakkola · Stephen Bates · Dinghuai Zhang

One-Pass to Reason: Token Duplication and Block-Sparse Mask for Efficient Fine-Tuning on Multi-Turn Reasoning

Ritesh Goru · Shanay Mehta · Prateek Jain

PosS:Position Specialist Generates Better Draft for Speculative Decoding

Langlin Huang · Chengsong Huang · Jixuan Leng · Di Huang · Jiaxin Huang

COMPACT: Common-token Optimized Model Pruning Across Channels and Tokens

Eugene Kwek · Wenpeng Yin

Learning to Reason via Mixture-of-Thought for Logical Reasoning

Tong Zheng · Lichang Chen · Sophia Han · R. Thomas McCoy · Heng Huang

Efficient Reinforcement Learning for Large Language Models with Intrinsic Exploration

Yan Sun · Jia Guo · Stanley Kok · Zihao Wang · zujie wen · Zhiqiang Zhang

ProRefine: Inference-time Prompt Refinement with Textual Feedback

Deepak Pandita · Tharindu Cyril Weerasooriya · ANKIT PARAG SHAH · Isabelle Ng · Christopher Homan · Wei Wei