Edit Models filters

Model Tree

Apps

Docker Model Runner

Inference Providers

OVHcloud AI Endpoints

HF Inference API

Misc

audio-text-to-text

Inference Endpoints

text-generation-inference

Eval Results (legacy)

text-embeddings-inference

4-bit precision

8-bit precision

Mixture of Experts

Carbon Emissions

Models

409

Base only

Active filters: audio-text-to-text

OpenMOSS-Team/MOSS-Audio-4B-Instruct

Audio-Text-to-Text • 5B • Updated Apr 14 • 31k • 62

OpenMOSS-Team/MOSS-Music-8B-Thinking

Audio-Text-to-Text • 9B • Updated about 1 month ago • 305 • 25

OpenMOSS-Team/MOSS-Music-8B-Instruct

Audio-Text-to-Text • 9B • Updated about 1 month ago • 925 • 17

OpenMOSS-Team/MOSS-Audio-8B-Thinking

Audio-Text-to-Text • 9B • Updated Apr 14 • 1.36k • 68

google/gemma-3n-E4B-it

Image-Text-to-Text • 8B • Updated Jul 14, 2025 • 21.7k • • 917

google/gemma-3n-E2B-it

Image-Text-to-Text • 5B • Updated Jul 14, 2025 • 429k • 302

microsoft/VibeVoice-ASR-HF

Audio-Text-to-Text • 8B • Updated Mar 9 • 388k • 138

Qwen/Qwen-Audio

Text Generation • 8B • Updated Nov 20, 2024 • 1.76k • 149

fixie-ai/ultravox-v0_4_1-mistral-nemo

Audio-Text-to-Text • 52.4M • Updated May 6, 2025 • 254 • 27

google/gemma-3n-E4B

Image-Text-to-Text • 8B • Updated Jul 14, 2025 • 3.11k • 139

mistralai/Voxtral-Small-24B-2507

Audio-Text-to-Text • 24B • Updated Dec 20, 2025 • 46.7k • 496

nvidia/audio-flamingo-3-hf

Audio-Text-to-Text • 8B • Updated Apr 13 • 182k • 186

stepfun-ai/Step-Audio-R1

Audio-Text-to-Text • 33B • Updated Dec 2, 2025 • 37 • 144

Vikhrmodels/Borealis-5b-it

Audio-Text-to-Text • Updated Dec 19, 2025 • 132 • 14

ACE-Step/acestep-transcriber

Audio-Text-to-Text • 11B • Updated Feb 3 • 8.08k • 58

textagent/Voxtral-Mini-3B-2507-ONNX

Audio-Text-to-Text • Updated Mar 12 • 14 • 2

tencent/Unified_Audio_Schema

Audio-Text-to-Text • 8B • Updated Apr 16 • 57 • 10

mispeech/midashenglm-0.6b-gguf

Audio-Text-to-Text • 0.6B • Updated Apr 17 • 82 • 1

mispeech/midashenglm-7b-1021-gguf

Audio-Text-to-Text • 8B • Updated Apr 16 • 104 • 1

RumiLabs/MOSS-Audio-8B-Thinking-MLX-hybrid

Audio-Text-to-Text • Updated 22 days ago • 1

Qwen/Qwen2-Audio-7B-Instruct

Audio-Text-to-Text • 8B • Updated Jan 12, 2025 • 622k • 534

Qwen/Qwen-Audio-Chat

Text Generation • 8B • Updated Jan 12, 2025 • 40.9k • 96

fixie-ai/ultravox-v0_2

Audio-Text-to-Text • 8B • Updated May 6, 2025 • 2.31k • 51

Qwen/Qwen2-Audio-7B

Audio-Text-to-Text • 8B • Updated Nov 20, 2024 • 5.79k • 171

fixie-ai/ultravox-v0_3

Audio-Text-to-Text • 8B • Updated May 6, 2025 • 2.57k • 17

sarvamai/shuka-1

Audio-Text-to-Text • 9B • Updated Mar 14, 2025 • 319 • 87

fixie-ai/ultravox-v0_4

Audio-Text-to-Text • 8B • Updated May 6, 2025 • 2.42k • 51

Menlo/Ichigo-llama3.1-s-base-v0.3

Audio-Text-to-Text • 8B • Updated Nov 19, 2024 • 3 • 4

fixie-ai/ultravox-v0_4-llama-3_1-70b

Audio-Text-to-Text • 50.3M • Updated May 6, 2025 • 13 • 4

Menlo/Ichigo-llama3.1-s-instruct-v0.3-phase-2

Audio-Text-to-Text • 8B • Updated Nov 19, 2024 • 6 • 5