ASR介绍

半兽人 发表于: 2026-01-05 最后更新时间: 2026-01-05 14:04:12

{{totalSubscript}} 订阅， 192 游览

ASR 是 Automatic Speech Recognition 的缩写，中文通常称为 自动语音识别。

从技术角度讲，ASR 的核心目标是：
把人类说的语音信号，自动转换成可读、可处理的文字。

一、ASR 在做什么（本质）

ASR 解决的是三个连续问题：

听清楚你说了什么
- 输入是连续的音频波形（麦克风采集）
- 包含噪声、口音、语速变化、停顿等复杂因素
理解这些声音对应哪些词
- 将声音特征映射为音素、字、词
- 例如：
  音频 → “我 / 想 / 开 / 会”
输出结构化文本
- 生成最终文字结果
- 可进一步用于搜索、总结、翻译、分析等

二、ASR 的典型应用场景

在工程实践中，ASR 是很多系统的“入口能力”：

会议实时转写
视频 / 直播字幕
语音助手（唤醒后第一步）
客服录音转文字
法庭、医疗、访谈记录
语音输入法

三、ASR 的基本技术架构（从传统到现代）

1. 传统 ASR（已基本淘汰）

早期系统采用三段式结构：

声学模型（HMM + GMM）
发音词典
语言模型（N-gram）

特点：

规则复杂
维护成本高
对口音、噪声非常敏感

2. 现代 ASR（主流）

目前几乎全部基于 深度学习 + 端到端模型：

常见模型路线：

CTC（Connectionist Temporal Classification）
Attention-based Encoder-Decoder
Transducer（RNN-T）
Transformer / Conformer

典型流程：

音频 → 特征提取（Mel / FBank）
     → 编码器（Transformer / Conformer）
     → 解码器
     → 文本

优点：

不需要显式词典
泛化能力强
更适合实时与多语言场景

四、ASR 解决不了什么（边界）

ASR 只负责“听写”，不负责：

谁在说话（这是 Speaker Diarization / 说话人分离）
说话的含义（这是 NLP / LLM）
情绪、态度（这是情感识别）

在会议系统中，通常是组合能力：

音频
 ├─ ASR（转文字）
 ├─ 说话人分离（谁说的）
 └─ NLP / LLM（总结、要点、行动项）

五、常见的开源 ASR 项目（工程视角）

如果你考虑落地或实验：

Whisper（OpenAI，效果好，延迟偏高）
Whisper.cpp（C++ 实时优化版）
Vosk（轻量、可实时）
Kaldi（传统但可控）
FunASR（阿里，中文友好）
WeNet（工业级）

六、总结

ASR 是你“实时会议记录 + 多人讨论系统”的第一块基石。
后面你遇到的“无法区分谁在说话”，并不是 ASR 的问题，而是 缺少说话人识别 / 分离模块。

建议你的学习步骤是：

ASR
说话人分离
准实时会议转写

ASR

更新于 2026-01-05

半兽人

在线，11小时前登录

查看ASR更多相关的文章或提一个关于ASR的问题，也可以与我们一起分享文章。