NeurIPS 2024

Workshop

Attention Bias as an Inductive Bias: How to Teach Transformers Simple Arithmetic
Shaoxiong Duan · Yining Shi · Wei Xu

Workshop

Looped Transformers for Length Generalization
Ying Fan · Yilun Du · Kannan Ramchandran · Kangwook Lee

Workshop

Recurrent Transformers Trade-off Parallelism for Length Generalization on Regular Languages
Paul Soulos · Aleksandar Terzic · Michael Hersche · Abbas Rahimi

Poster

Fri 16:30

Position Coupling: Improving Length Generalization of Arithmetic Transformers Using Task Structure
Hanseul Cho · Jaeyoung Cha · Pranjal Awasthi · Srinadh Bhojanapalli · Anupam Gupta · Chulhee Yun

Main Navigation