ASR 是 Automatic Speech Recognition 的缩写,中文通常称为 自动语音识别。
从技术角度讲,ASR 的核心目标是:
把人类说的语音信号,自动转换成可读、可处理的文字。
一、ASR 在做什么(本质)
ASR 解决的是三个连续问题:
听清楚你说了什么
- 输入是连续的音频波形(麦克风采集)
- 包含噪声、口音、语速变化、停顿等复杂因素
理解这些声音对应哪些词
- 将声音特征映射为音素、字、词
- 例如:
音频 → “我 / 想 / 开 / 会”
输出结构化文本
- 生成最终文字结果
- 可进一步用于搜索、总结、翻译、分析等
二、ASR 的典型应用场景
在工程实践中,ASR 是很多系统的“入口能力”:
- 会议实时转写
- 视频 / 直播字幕
- 语音助手(唤醒后第一步)
- 客服录音转文字
- 法庭、医疗、访谈记录
- 语音输入法
三、ASR 的基本技术架构(从传统到现代)
1. 传统 ASR(已基本淘汰)
早期系统采用三段式结构:
- 声学模型(HMM + GMM)
- 发音词典
- 语言模型(N-gram)
特点:
- 规则复杂
- 维护成本高
- 对口音、噪声非常敏感
2. 现代 ASR(主流)
目前几乎全部基于 深度学习 + 端到端模型:
常见模型路线:
- CTC(Connectionist Temporal Classification)
- Attention-based Encoder-Decoder
- Transducer(RNN-T)
- Transformer / Conformer
典型流程:
音频 → 特征提取(Mel / FBank)
→ 编码器(Transformer / Conformer)
→ 解码器
→ 文本
优点:
- 不需要显式词典
- 泛化能力强
- 更适合实时与多语言场景
四、ASR 解决不了什么(边界)
ASR 只负责“听写”,不负责:
- 谁在说话(这是 Speaker Diarization / 说话人分离)
- 说话的含义(这是 NLP / LLM)
- 情绪、态度(这是情感识别)
在会议系统中,通常是组合能力:
音频
├─ ASR(转文字)
├─ 说话人分离(谁说的)
└─ NLP / LLM(总结、要点、行动项)
五、常见的开源 ASR 项目(工程视角)
如果你考虑落地或实验:
- Whisper(OpenAI,效果好,延迟偏高)
- Whisper.cpp(C++ 实时优化版)
- Vosk(轻量、可实时)
- Kaldi(传统但可控)
- FunASR(阿里,中文友好)
- WeNet(工业级)
六、总结
ASR 是你“实时会议记录 + 多人讨论系统”的第一块基石。
后面你遇到的“无法区分谁在说话”,并不是 ASR 的问题,而是 缺少说话人识别 / 分离模块。
建议你的学习步骤是:
- ASR
- 说话人分离
- 准实时会议转写
