Audio and acoustics

Publication

FastSAG: Towards Fast Non-Autoregressive Singing Accompaniment Generation

Jianyi Chen, Wei Xue, Xu Tan, Zhen Ye, Qi-fei Liu, Yi-Ting Guo

IJCAI 2024 | May 2024

Publication

ICASSP 2024 Speech Signal Improvement Challenge

Nicolae-Catalin Ristea, Ando Saabas, Ross Cutler, Babak Naderi, Sebastian Braun, Solomiya Branets

International Conference on Acoustics, Speech and Signal Processing (ICASSP) | May 2024

Publication

Adapting Frechet Audio Distance for Generative Music Evaluation

Azalea Gui, Hannes Gamper, Sebastian Braun, Dimitra Emmanouilidou

IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) | April 2024

Best student paper award at IEEE ICASSP 2024

Video

Publication

Profile-Error-Tolerant Target-Speaker Voice Activity Detection

Dongmei Wang, Xiong Xiao, Naoyuki Kanda, Midia Yousefi, Takuya Yoshioka, Jian Wu

ICASSP 2024 | April 2024

Publication

CoVoMix: Advancing Zero-Shot Speech Generation for Human-like Multi-talker Conversations

Leying Zhang, Yao Qian, Long Zhou, Shujie Liu (shujliu), Dongmei Wang, Xiaofei Wang, Midia Yousefi, Yanmin Qian, Jinyu Li, Lei He, Sheng Zhao, Michael Zeng

NeurIPS 2024 | April 2024

Project

Microsoft Research Blog

Research Focus: Week of April 1, 2024

April 3, 2024 | Hao Fang, Jason Eisner, Ben Van Durme, Yu Su, Millicent Ochieng, Maxamed Axmed, Kalika Bali, Soham Deshmukh, Benjamin Elizalde, Dimitra Emmanouilidou

In this issue: New research helps COMET embrace African languages; FeatUp improves deep features, a computer vision research cornerstone; LLMs in the Imaginarium: Tool Learning through Simulated Trial and Error; Benchmarking LLMs across languages and…

Publication

Training Audio Captioning Models without Audio

Soham Deshmukh, Benjamin Elizalde, Dimitra Emmanouilidou, Bhiksha Raj, Rita Singh, Huaming Wang

2024 International Conference on Acoustics, Speech, and Signal Processing | April 2024

Publication

Natural Language Supervision For General-Purpose Audio Representations

Benjamin Elizalde, Soham Deshmukh, Huaming Wang

2024 International Conference on Acoustics, Speech, and Signal Processing | April 2024

Project

Publication

WavLLM: Towards Robust and Adaptive Speech Large Language Model

Shujie Hu, Long Zhou, Shujie Liu, Sanyuan Chen, Hongkun Hao, Jing Pan, Xunying Liu, Jinyu Li, Sunit Sivasankaran, Linquan Liu, Furu Wei

March 2024

Project

CoVoMix

Advancing Zero-shot Speech Generation for Human-like Multi-talker Conversation We introduce CoVoMix: Conversational Voice Mixture Generation, a novel model for zero-shot, human-like, multi-speaker, multi-round dialogue speech generation. In addition, we devise a comprehensive set of metrics…