Audio and acoustics

Publication

Rethinking Speech-LLM Integration for ASR: Effective Joint Speech-Text Training by Interleaving

Ruchao Fan, Yiming Wang, Rui Zhao, Liliang Ren, Keqi Deng, Xiaoyang Chen, Ali Zare, Bo Ren, Yuxuan Hu, Junkun Chen, Yan Huang, Yelong Shen, Jinyu Li

July 2026

arXiv | July 2026

Publication

Preserving Speech-to-Text LLM Capabilities in Speech-to-Speech Generation

Yuxuan Hu, Heng Lu, Ruchao Fan, Yao Qian, Xiaofei Wang, Jian Xue, Heming Wang, Shuohang Wang, Young Jin Kim, Yelong Shen, Jinyu Li

June 2026

arXiv | June 2026

Publication

TF-MoE: Time-Frequency Mixture-of-Experts for Efficient Speech Separation

Qinzhe Hu, Chenda Li, Wangyou Zhang, Shujie Liu, Yan Lu, Yanmin Qian

Interspeech 2026 | June 2026

Publication

LLM can Read Spectrogram: Encoder-free Speech-Language Modeling

Ruchao Fan, Yiming Wang, Yuxuan Hu, Bo Ren, Yufei Xia, Xiaofei Wang, Yao Qian, Jinyu Li

June 2026

arXiv | June 2026

Publication

Real-time Speech Restoration using Data Prediction Mean Flows

Sebastian Braun

May 2026

arXiv | May 2026

Publication

A Comprehensive Ecosystem for Open-Domain Customized Video Generation

Jingxu Zhang, Yuqian Hong, Daneul Kim, Kai Qiu, Qi Dai, Jianmin Bao, Yifan Yang, Xiaoyan Sun, Chong Luo

ICASSP 2026 | May 2026

Publication

Virtual Speech Therapist: A Clinician-in-the-Loop AI Speech Therapy Agent for Personalized and Supervised Therapy

Shakeel A. Sheikh, Patrick Marmaroli, Md. Sahidullah, Slim Ouni, Fabrice Hirsch, Goncalo Leal, Bjorn W. Schuller

May 2026

arXiv | May 2026

Publication

Speech LLMs are Contextual Reasoning Transcribers

Keqi Deng, Ruchao Fan, Bo Ren, Yiming Wang, Jinyu Li

April 2026

arXiv | April 2026

Publication

RESPOND: Responsive Engagement Strategy for Predictive Orchestration and Dialogue

Meng-Chen Lee, Costas Panay, Javier Hernandez, Sean Andrist, Dan Bohus, Anatoly Churikov, Andrew D. Wilson

March 2026

Project

Publication

Counting Without Numbers &Finding Without Words

B. N. Patro

March 2026

arXiv | March 2026