Workshop

Machine Learning for Audio

Brian Kulis ⋅ Sadie Allen ⋅ Sander Dieleman ⋅ Shrikanth Narayanan ⋅ Rachel Manzelli ⋅ Alice Baird ⋅ Alan Cowen

Project Page

Abstract

The Machine Learning for Audio Workshop at NeurIPS 2023 will bring together audio practitioners and machine learning researchers to a venue focused on various problems in audio, including music information retrieval, acoustic event detection, computational paralinguistics, speech transcription, multimodal modeling, and generative modeling of speech and other sounds. Our team has previously held multiple audio-related workshops at top machine learning venues, and both the organizing team and invited speakers represent broad diversity in terms of gender identity, affiliation, seniority, and geography. We also plan to solicit workshop papers on the topic.

Video

Chat is not available.

Schedule

Timezone: America/Los_Angeles

6:30 AM

Opening remarks

Brian Kulis

Video

6:40 AM

Computer Audition Disrupted 2.0: The Foundation Models Era

Bjoern Schuller

Video

7:00 AM

Explainable AI for Audio via Virtual Inspection Layers

Johanna Vielhaben ⋅ Sebastian Lapuschkin ⋅ Grégoire Montavon ⋅ Wojciech Samek

Video

7:20 AM

Self-Supervised Speech Enhancement using Multi-Modal Data

Yu-Lin Wei ⋅ Rajalaxmi Rajagopalan ⋅ Bashima Islam ⋅ Romit Roy Choudhury

Video

7:40 AM

A multi-view approach for audio-based speech emotion recognition

Dimitra Emmanouilidou

Video

8:10 AM

Coffee break

8:50 AM

Audio Language Models

Neil Zeghidour

Video

9:10 AM

Zero-shot audio captioning with audio-language model guidance and audio context keywords

Leonard Salewski ⋅ Stefan Fauth ⋅ A. Sophia Koepke ⋅ Zeynep Akata

Video

9:30 AM

Lark: A Multimodal Foundation Model for Music

Rachel Bittner

Video

10:00 AM

Lunch break

11:30 AM

Poster & Demo Session

1:00 PM

Coffee break

1:30 PM

Uninformative Gradients: Optimisation pathologies in differentiable digital signal processing

Ben Hayes

Video

2:00 PM

EDMSound: Spectrogram Based Diffusion Models for Efficient and High-Quality Audio Synthesis

Ge Zhu ⋅ Yutong Wen ⋅ Marc-André Carbonneau ⋅ Zhiyao Duan

Video

2:20 PM

Towards Generalizable SER: Soft Labeling and Data Augmentation for Modeling Temporal Emotion Shifts in Large-Scale Multilingual Speech

Mohamed Osman ⋅ Tamer Nadeem ⋅ Ghada khoriba

Video

2:40 PM

Audio Personalization through Human-in-the-loop Optimization

Rajalaxmi Rajagopalan ⋅ Yu-Lin Wei ⋅ Romit Roy Choudhury

Video

3:00 PM

Multi-channel speech enhancement for moving sources

Shoko Araki

Video

EDMSound: Spectrogram Based Diffusion Models for Efficient and High-Quality Audio Synthesis

Ge Zhu ⋅ Yutong Wen ⋅ Marc-André Carbonneau ⋅ Zhiyao Duan

Explainable AI for Audio via Virtual Inspection Layers

Johanna Vielhaben ⋅ Sebastian Lapuschkin ⋅ Grégoire Montavon ⋅ Wojciech Samek

Audio classification with Dilated Convolution with Learnable Spacings

Ismail Khalfaoui Hassani ⋅ Timothée Masquelier ⋅ Thomas Pellegrini

Link

Creative Text-to-Audio Generation via Synthesizer Programming

Nikhil Singh ⋅ Manuel Cherep ⋅ Jessica Shand

Jointly Recognizing Speech and Singing Voices Based on Multi-Task Audio Source Separation

Ye Bai ⋅ Chenxing Li ⋅ Xiaorui Wang ⋅ Yuanyuan Zhao ⋅ Hao Li

Leveraging Content-based Features from Multiple Acoustic Models for Singing Voice Conversion

Xueyao Zhang ⋅ Yicheng Gu ⋅ Haopeng Chen ⋅ Zihao Fang ⋅ Lexiao Zou ⋅ Liumeng Xue ⋅ Zhizheng Wu

Diffusion Models as Masked Audio-Video Learners

Elvis Nunez ⋅ Yanzi Jin ⋅ Mohammad Rastegari ⋅ Sachin Mehta ⋅ Maxwell Horton

InstrumentGen: Generating Sample-Based Musical Instruments From Text

Shahan Nercessian ⋅ Johannes Imort

Link

Multi-Resolution Audio-Visual Feature Fusion for Temporal Action Localization

Edward Fish ⋅ Jon Weinbren ⋅ Andrew Gilbert

Composing and Validating Large-Scale Datasets for Training Open Foundation Models for Audio

Marianna Nezhurina ⋅ Ke Chen ⋅ Yusong Wu ⋅ Tianyu Zhang ⋅ Haohe Liu ⋅ Yuchen Hui ⋅ Taylor Berg-Kirkpatrick ⋅ Shlomo Dubnov ⋅ Jenia Jitsev

Unsupervised Musical Object Discovery from Audio

Joonsu Gha ⋅ Vincent Herrmann ⋅ Benjamin F. Grewe ⋅ Jürgen Schmidhuber ⋅ Anand Gopalakrishnan

Data is Overrated: Perceptual Metrics Can Lead Learning in the Absence of Training Data

Tashi Namgyal ⋅ Alexander Hepburn ⋅ Raul Santos-Rodriguez ⋅ Valero Laparra ⋅ Jesús Malo

Link

Self-Supervised Speech Enhancement using Multi-Modal Data

Yu-Lin Wei ⋅ Rajalaxmi Rajagopalan ⋅ Bashima Islam ⋅ Romit Roy Choudhury

Improved sound quality human-inspired DNN-based audio applications

Chuan Wen ⋅ Sarah Verhulst

Audio Personalization through Human-in-the-loop Optimization

Rajalaxmi Rajagopalan ⋅ Yu-Lin Wei ⋅ Romit Roy Choudhury

Synthia's Melody: A Benchmark Framework for Unsupervised \\Domain Adaptation in Audio

Harry Coppock ⋅ Chia-Hsin Lin

Zero-shot audio captioning with audio-language model guidance and audio context keywords

Leonard Salewski ⋅ Stefan Fauth ⋅ A. Sophia Koepke ⋅ Zeynep Akata

AttentionStitch: How Attention Solves the Speech Editing Problem

Antonios Alexos ⋅ Pierre Baldi

MusT3: Unified Multi-Task Model for Fine-Grained Music Understanding

Martin Kukla ⋅ Minz Won ⋅ Yun-Ning Hung ⋅ Duc Le

Benchmarks and deep learning models for localizing rodent vocalizations in social interactions

Ralph Peterson ⋅ Aramis Tanelus ⋅ Aman Choudhri ⋅ Violet Ivan ⋅ Aaditya Prasad ⋅ David Schneider ⋅ Dan Sanes ⋅ Alex Williams

Towards Generalizable SER: Soft Labeling and Data Augmentation for Modeling Temporal Emotion Shifts in Large-Scale Multilingual Speech

Mohamed Osman ⋅ Tamer Nadeem ⋅ Ghada khoriba

The Song Describer Dataset: a Corpus of Audio Captions for Music-and-Language Evaluation

Ilaria Manco ⋅ Benno Weck ⋅ Seungheon Doh ⋅ Yixiao Zhang ⋅ Dmitry Bogdanov ⋅ Yusong Wu ⋅ Ke Chen ⋅ Philip Tovstogan ⋅ Emmanouil Benetos ⋅ Elio Quinton ⋅ George Fazekas ⋅ Juhan Nam ⋅ Minz Won

ScripTONES: Sentiment-Conditioned Music Generation for Movie Scripts

Vishruth Veerendranath ⋅ Vibha Masti ⋅ Utkarsh Gupta ⋅ Hrishit Chaudhuri ⋅ Gowri Srinivasa

Self-Supervised Music Source Separation Using Vector-Quantized Source Category Estimates

Stefan Lattner ⋅ Marco Pasini

Deep Generative Models of Music Expectation

Ninon Lizé Masclef ⋅ Andy Keller

mir_ref: A Representation Evaluation Framework for Music Information Retrieval Tasks

Christos Plachouras ⋅ Dmitry Bogdanov ⋅ Pablo Alonso-Jiménez

Link