NeurIPS 2024

Workshop

An Adversarial Perspective on Machine Unlearning for AI Safety
Jakub Łucki · Boyi Wei · Yangsibo Huang · Peter Henderson · Florian Tramer · Javier Rando

Workshop

Using Influence Functions to Unlearn Poisons
Wenjie Li · Jiawei Li · Christian Schroeder de Witt · Ameya Prabhu · Amartya Sanyal

Workshop

Learning From Convolution-based Unlearnable Datasets
Dohyun Kim · Pedro Sandoval-Segura

Workshop

Towards Natural Machine Unlearning
Zhengbao He · Tao Li · Xinwen Cheng · Zhehao Huang · Xiaolin Huang

Workshop

Hierarchical Unlearning Framework for Multi-Class Classification
Abraham Chan · Arpan Gujarati · Karthik Pattabiraman · Sathish Gopalakrishnan

Workshop

Model Manipulation Attacks Enable More Rigorous Evaluations of LLM Unlearning
Zora Che · Stephen Casper · Anirudh Satheesh · Rohit Gandikota · Domenic Rosati · Stewart Slocum · Lev McKinney · Zichu Wu · Zikui Cai · Bilal Chughtai · Furong Huang · Dylan Hadfield-Menell

Workshop

Sat 9:10

Keynote 2: Understanding How Knowledge Can Be Localized, Unlearned, or Verified in Foundation Models
Soheil Feizi

Workshop

Fairness Implications of Machine Unlearning: Bias Risks in Removing NSFW Content from Text-to-Image Models
Xiwen Wei · Guihong Li · Radu Marculescu

Workshop

TOFU: A Task of Fictitious Unlearning for LLMs
Pratyush Maini · Zhili Feng · Avi Schwarzschild · Zachary Lipton · J. Zico Kolter

Workshop

Efficient Local Unlearning for Gaussian Processes with Out-of-Distribution Data
Juliusz Ziomek · Ilija Bogunovic

Workshop

An Adversarial Perspective on Machine Unlearning for AI Safety
Jakub Łucki · Boyi Wei · Yangsibo Huang · Peter Henderson · Florian Tramer · Javier Rando

Workshop

Targeted Unlearning with Single Layer Unlearning Gradient
Zikui Cai · Yaoteng Tan · M. Salman Asif

Main Navigation

55 Results