技术文摘 - 程序员工具箱

ElevenLabs 推出 Scribe v2 Realtime：低延迟实时语音识别模型

来自：www.oschina.net 收录时间：2026-01-15

ElevenLabs 正式发布 Scribe v2 Realtime，据称这是当前市场上最先进的低延迟实时语音识别模型，专为实时场景设计，能够将语音即时转换为文字，为语音智能、会议笔记、实时字幕等应用提供基础能力。 Scribe v2 Realtime 采用流式优先架构，支持 PCM 与 μ-law 等多种音频格式，并具备预测转写、语音活动检测（VAD）、上下...

阅读更多