Workshop

Attributing Model Behavior at Scale (ATTRIB)

Elisa Nguyen · Sadhika Malladi · Andrew Ilyas · Logan Engstrom · Sam Park · Tolga Bolukbasi

Project Page [ OpenReview]

Abstract

Recently-developed algorithmic innovations (e.g., transformers, diffusion models , state-space models) and large-scale datasets (e.g., Common Crawl, LAION) have given rise to machine learning models with impressive capabilities. As the cost of training such large models grows, and as systems based on them are used widely, it is increasingly important to understand how different design choices combine to induce observed behaviors. For example, we still do not fully understand how the composition of training datasets influences model behavior (e.g., how does training on code data affect reasoning capabilities in other domains?), how to attribute capabilities to subcomponents (e.g., can we identify which subnetwork of an LLM implements addition), and which algorithmic choices really drive performance (e.g., how can we best align models to human preferences?). Behavioral attribution is also important in light of recent concerns about harmful model behavior and several works suggest that these behaviors can be attributed to training data or model architecture and size.The core challenge in all of these questions is that of model behavior attribution.That is, the question of relating model behavior back to factors in the machine learning pipeline---such as the choice of training dataset or particular training algorithm---that produced this model. This workshop aims to bring together researchers and practitioners that advance our understanding of model behavior attribution in the contexts that span data, model understanding, and algorithmic interventions.

Video

Chat is not available.

Schedule

Timezone: America/Los_Angeles

9:00 AM

Welcome and Opening Remarks

Video

9:30 AM

Invited Talk

Video

10:00 AM

Invited Talk

Video

11:05 AM

Contributed talks

Video

1:00 PM

Panel: On Linear Representations and Pretraining Data Frequency in Language Models When Attention Sink Emerges in Language Models: An Empirical View Common Functional Decompositions Can Mis-attribute Differences in Outcomes Between Populations U-shape

Video

2:00 PM

Invited Talk

Video

2:30 PM

Invited Talk

Video

3:00 PM

Coffee break

3:30 PM

Poster session #2

4:30 PM

Invited Talk

Video

5:00 PM

Closing remarks

Loss-to-Loss Prediction: Language model scaling laws across datasets

David Brandfonbrener · Nikhil Anand · Nikhil Vyas · Eran Malach · Sham Kakade

You can remove GPT2's LayerNorm by fine-tuning

Stefan Heimersheim

Training on the Test Task Confounds Evaluation and Emergence

Ricardo Dominguez-Olmedo · Florian E. Dorner · Moritz Hardt

Toward Optimal Search and Retrieval for RAG

Alexandria Leto · Cecilia Aguerrebere · Ishwar Bhati · Theodore Willke · Mariano Tepper · Vy Vo

The Association Between Training Data and Text-to-Image Generation Capabilities

Preethi Seshadri · Yasaman Razeghi · Sameer Singh · Yanai Elazar

A Versatile Influence Function for Data Attribution with Non-Decomposable Loss

Junwei Deng · Weijing Tang · Jiaqi Ma

Adversarial Attacks on Data Attribution

Xinhe Wang · Pingbang Hu · Junwei Deng · Jiaqi Ma

U-shaped and Inverted-U Scaling behind Emergent Abilities of Large Language Models

Tung-Yu Wu · Melody Lo

BAKU: An Efficient Transformer for Multi-Task Policy Learning

Siddhant Haldar · Zhuoran Peng · Lerrel Pinto

Investigating Sensitive Directions in GPT-2: An Improved Baseline and Comparative Analysis of SAEs

Daniel Lee · Stefan Heimersheim

Data Attribution for Multitask Learning

Yiwen Tu · Ziqi Liu · Jiaqi Ma · Weijing Tang

Hessian Sets: Uncovering Feature Interactions in Image Classification

Ayushi Mehrotra · Dipkamal Bhusal · Nidhi Rastogi

Activation Monitoring: Advantages of Using Internal Representations for LLM Oversight

Oam Patel · Rowan Wang

Better Counterfactual Model Reasoning with Submodular Quadratic Component Models

Ari Karchmer · Seth Neel · Harshay Shah · Andrew Ilyas

Decoding Dark Matter: Specialized Sparse Autoencoders for Interpreting Rare Concepts in LLMs

Aashiq Muhamed · Jake Mendel · Lucius Bushnaq · Mona Diab · Virginia Smith

Investigating Language Model Dynamics using Meta-Tokens

Alok Shah · Khush Gupta · Keshav Ramji · Vedant Gaur

How Many Van Goghs Does It Take to Van Gogh? Finding the Imitation Threshold

Sahil Verma · Royi Rassin · Arnav Das · Gantavya Bhatt · Preethi Seshadri · Chirag Shah · Jeff A Bilmes · Hannaneh Hajishirzi · Yanai Elazar

Inconsistencies In Consistency Models: Better ODE Solving Does Not Imply Better Samples

Noël Vouitsis · Rasa Hosseinzadeh · Brendan Ross · Valentin Villecroze · Satya Krishna Gorti · Jesse Cresswell · Gabriel Loaiza-Ganem

Understanding Compute-Parameter Trade-offs in Sparse Mixture-of-Expert Language Models

Harshay Shah · Vimal Thilak · Dan Busbridge · Alaaeldin El-Nouby · Joshua Susskind · Samira Abnar

Attributing Mistakes to Individuals under Label Noise

Sujay Nagaraj · Yang Liu · Flavio Calmon · Berk Ustun

Pruning-based Data Selection and Network Fusion for Efficient Deep Learning

Humaira Kousar · Hasnain Irshad Bhatti · Jaekyun Moon

Algorithmic Phase Transitions in Large Language Models: A Mechanistic Case Study of Arithmetic

Alan Sun · Ethan Sun · Warren Shepard

Secret Seeds in Text-to-Image Diffusion Models

Katherine Xu · Lingzhi Zhang · Jianbo Shi

Influence-based Attributions can be Manipulated

Chhavi Yadav · Ruihan Wu · Kamalika Chaudhuri

Just Select Twice: Leveraging Low Quality Data to Improve Data Selection

Yifei Zhang · Yusen Jiao · Jiayi Chen · Jieyu Zhang · Frederic Sala

Generalization v.s. Memorization: Tracing Language Models’ Capabilities Back to Pretraining Data

Xinyi Wang · Antonis Antoniades · Yanai Elazar · Alfonso Amayuelas · Alon Albalak · Kexun Zhang · William Yang Wang

$\texttt{dattri}$: A Library for Efficient Data Attribution

Junwei Deng · Ting-Wei Li · Shiyuan Zhang · Shixuan Liu · Yijun Pan · Hao Huang · Xinhe Wang · Pingbang Hu · Xingjian Zhang · Jiaqi Ma

Link

Latent Concept-based Explanation of NLP Models

Xuemin Yu · Fahim Dalvi · Nadir Durrani · Marzia Nouri · Hassan Sajjad

Using Influence Functions to Unlearn Poisons

Wenjie Li · Jiawei Li · Christian Schroeder de Witt · Ameya Prabhu · Amartya Sanyal

Efficient Ensembles Improve Training Data Attribution

Junwei Deng · Ting-Wei Li · Shichang (Ray) Zhang · Jiaqi Ma

Fast Training Dataset Attribution via In-Context Learning

Milad Fotouhi · Taha Bahadori · Oluwaseyi Feyisetan · Payman Arabshahi · David Heckerman

Between the Bars: Gradient-based Jailbreaks are Bugs that induce Features

Kaivalya Hariharan · Uzay Girit

Visual Reasoning Requires Rethinking Vision-Language Beyond Scaling

Haider Al-Tahan · Quentin Garrido · Randall Balestriero · Diane Bouchacourt · Caner Hazirbas · Mark Ibrahim

Link

Interactive Semantic Interventions for VLMs: A Human-in-the-Loop Approach to Interpretability

Lukas Klein · Kenza Amara · Carsten Lüth · Hendrik Strobelt · Mennatallah El-Assady · Paul Jaeger

GPT-2 Through the Lens of Vector Symbolic Architectures

Johannes Knittel · Tushaar Gangavarapu · Hendrik Strobelt · Hanspeter Pfister

Understanding the Sources of Performance in Deep Drug Response Models

Nikhil Branson · Pedro Cutillas · Conrad Bessant

What's In My Big Data?

Yanai Elazar · Akshita Bhagia · Ian Magnusson · Abhilasha Ravichander · Dustin Schwenk · Alane Suhr · Evan Walsh · Dirk Groeneveld · Luca Soldaini · Sameer Singh · Hannaneh Hajishirzi · Noah Smith · Jesse Dodge

In Search of Forgotten Domain Generalization

Prasanna Mayilvahanan · Roland S. Zimmermann · Thaddäus Wiedemer · Evgenia Rusak · Attila Juhos · Matthias Bethge · Wieland Brendel

Quantifying Positional Biases in Text Embedding Models

Samarth Goel · Reagan Lee · Kannan Ramchandran

SCIURus: Shared Circuits for Interpretable Uncertainty Representations in Language Models

Carter Teplica · Yixin Liu · Arman Cohan · Tim G. J. Rudner

Attributing Statistics to Synthesis Quality in Correlation-Based Texture Models

Vasha DuTell · Anne Harrington · Zeyu Yun · Mark Hamilton · Christian Koevesdi · Edward Adelson · Bill Freeman · Ruth Rosenholtz

Weak-to-Strong Confidence Prediction

Yukai Yang · Tracy Zhu · Marco Morucci · Tim G. J. Rudner

Feature Responsiveness Scores: Model-Agnostic Explanations for Agency

Seung Hyun Cheon · Anneke Wernerfelt · Sorelle Friedler · Berk Ustun

Ablation is Not Enough to Emulate DPO: Attributing Toxicity Reduction to Neurons

Yushi Yang · Filip Sondej · Harry Mayne · Adam Mahdi

From Loops to Oops: Fallback Behaviors of Language Models Under Uncertainty

Maor Ivgi · Ori Yoran · Jonathan Berant · Mor Geva

Final-Model-Only Data Attribution with a Unifying View of Gradient-Based Methods

Dennis Wei · Inkit Padhi · Soumya Ghosh · Amit Dhurandhar · Karthikeyan Natesan Ramamurthy · Maria Chang

Data Valuation for Graphs

Simone Antonelli · Aleksandar Bojchevski

Unintentional Unalignment: Likelihood Displacement in Direct Preference Optimization

Noam Razin · Sadhika Malladi · Adithya Bhaskar · Danqi Chen · Sanjeev Arora · Boris Hanin

How much can we forget about Data Contamination?

Sebastian Bordt · Suraj Srinivas · Valentyn Boreiko · Ulrike Luxburg

A Comparative Study of Translation Bias and Accuracy in Multilingual Large Language Models for Cross-Language Claim Verification

Aryan Singhal · Veronica Shao · Gary Sun · Ryan Ding

Accumulated Local Effects for Link Prediction with Graph Neural Networks

Paulina Kaczyńska · Julian Sienkiewicz · Dominik Slezak

Generalized Group Data Attribution

Dan Ley · Suraj Srinivas · Shichang (Ray) Zhang · Himabindu Lakkaraju

Influence Functions for Scalable Data Attribution in Diffusion Models

Bruno Mlodozeniec · Runa Eschenhagen · Juhan Bae · Alexander Immer · David Krueger · Richard Turner

Approximations to worst-case data dropping: unmasking failure modes

Jenny Huang · David Burt · Tin Nguyen · Yunyi Shen · Tamara Broderick

What do Learning Dynamics Reveal about Generalization in LLM Reasoning?

Yijun Kang · Amrith Setlur · Dibya Ghosh · Jacob Steinhardt · Claire Tomlin · Sergey Levine · Aviral Kumar

GRADE: A Fine-grained Approach to Measure Sample Diversity in Text-to-Image Models

Royi Rassin · Aviv Slobodkin · Shauli Ravfogel · Yanai Elazar · Yoav Goldberg

Peter Parker or Spiderman? Disambiguating Multiple Class Labels

NUTHAN NAGA SAI MUMMANI · SIMRAN KETHA · Venkatakrishnan Ramaswamy

Detecting Origin Attribution for Text-to-Image Diffusion Models in RGB and Beyond

Katherine Xu · Lingzhi Zhang · Jianbo Shi

Quanda: An Interpretability Toolkit for Training Data Attribution Evaluation and Beyond

Dilyara Bareeva · Galip Ümit Yolcu · Anna Hedström · Niklas Schmolenski · Thomas Wiegand · Wojciech Samek · Sebastian Lapuschkin

Link

Evaluating Sparse Autoencoders on Targeted Concept Removal Tasks

Adam Karvonen · Can Rager · Samuel Marks · Neel Nanda

Small-to-Large Generalization: Training Data Influences Models Consistently Across Scale

Alaa Khaddaj · Logan Engstrom · Aleksander Madry

When Attention Sink Emerges in Language Models: An Empirical View

Xiangming Gu · Tianyu Pang · Chao Du · Qian Liu · Fengzhuo Zhang · Cunxiao Du · Ye Wang · Min Lin

Weak-to-Strong In-Context Optimization of Language Model Reasoning

Keshav Ramji · Alok Shah · Vedant Gaur · Khush Gupta

Towards a Mechanistic Explanation of Diffusion Model Generalization

Matthew Niedoba · Berend Zwartsenberg · Kevin Murphy · Frank Wood

Most Influential Subset Selection: Challenges, Promises, and Beyond

Yuzheng Hu · Pingbang Hu · Han Zhao · Jiaqi Ma

Towards Data-Centric RLHF: Simple Metrics for Preference Dataset Comparison

Judy Hanwen Shen · Archit Sharma · Jun Qin

Evaluating Synthetic Activations composed of SAE Latents in GPT-2

Nora Petrova · Giorgi Giglemiani · Chatrik Mangat · Jett Janiak · Stefan Heimersheim

Evolution of SAE Features Across Layers in LLMs

Benjamin Lerner · Daniel Balcells · Michael Oesterle · Ediz Ucar · Stefan Heimersheim

Accumulating Data Avoids Model Collapse

Joshua Kazdan · Apratim Dey · Rylan Schaeffer · Matthias Gerstgrasser · Rafael Rafailov · David Donoho · Sanmi Koyejo

The Mutual Relationship between Corpus Frequency and Linear Representations in Language Models

Jack Merullo · Sarah Wiegreffe · Yanai Elazar

Common Functional Decompositions Can Mis-attribute Differences in Outcomes Between Populations

Manuel Quintero · William Stephenson · Advik Shreekumar · Tamara Broderick

Evaluating Sparse Autoencoders for Controlling Open-Ended Text Generation

Aleksandar Makelov · Nathaniel Monson · Julius Adebayo

A hierarchical decomposition for explaining ML performance discrepancies

Harvineet Singh · Fan Xia · Adarsh Subbaswamy · Alexej Gossmann · Jean Feng

Converging to a Lingua Franca: Evolution of Linguistic Regions and Semantics Alignment in Multilingual Large Language Models

Hongchuan Zeng · Senyu Han · Lu Chen · Kai Yu

Do I Know This Entity? Knowledge Awareness in Language Models

Javier Ferrando · Oscar Obeso · Neel Nanda · Senthooran Rajamanoharan

Bias Analysis for Unconditional Image Generative Models

Xiaofeng Zhang · Simon Lacoste-Julien · Aaron Courville · Yash Goyal

Inductive Linguistic Reasoning with Large Language Models

Raghav Ramji · Keshav Ramji

ReLU's Revival: On the Entropic Overload in Normalization-Free Large Language Models

Nandan Kumar Jha · Brandon Reagen