ASR介绍

半兽人 发表于: 2026-01-05   最后更新时间: 2026-01-05 14:04:12  
{{totalSubscript}} 订阅, 33 游览

ASR 是 Automatic Speech Recognition 的缩写,中文通常称为 自动语音识别

从技术角度讲,ASR 的核心目标是:
把人类说的语音信号,自动转换成可读、可处理的文字。

一、ASR 在做什么(本质)

ASR 解决的是三个连续问题:

  1. 听清楚你说了什么

    • 输入是连续的音频波形(麦克风采集)
    • 包含噪声、口音、语速变化、停顿等复杂因素
  2. 理解这些声音对应哪些词

    • 将声音特征映射为音素、字、词
    • 例如:
      音频 → “我 / 想 / 开 / 会”
  3. 输出结构化文本

    • 生成最终文字结果
    • 可进一步用于搜索、总结、翻译、分析等

二、ASR 的典型应用场景

在工程实践中,ASR 是很多系统的“入口能力”:

  • 会议实时转写
  • 视频 / 直播字幕
  • 语音助手(唤醒后第一步)
  • 客服录音转文字
  • 法庭、医疗、访谈记录
  • 语音输入法

三、ASR 的基本技术架构(从传统到现代)

1. 传统 ASR(已基本淘汰)

早期系统采用三段式结构:

  • 声学模型(HMM + GMM)
  • 发音词典
  • 语言模型(N-gram)

特点:

  • 规则复杂
  • 维护成本高
  • 对口音、噪声非常敏感

2. 现代 ASR(主流)

目前几乎全部基于 深度学习 + 端到端模型

常见模型路线:

  • CTC(Connectionist Temporal Classification)
  • Attention-based Encoder-Decoder
  • Transducer(RNN-T)
  • Transformer / Conformer

典型流程:

音频 → 特征提取(Mel / FBank)
     → 编码器(Transformer / Conformer)
     → 解码器
     → 文本

优点:

  • 不需要显式词典
  • 泛化能力强
  • 更适合实时与多语言场景

四、ASR 解决不了什么(边界)

ASR 只负责“听写”,不负责:

  • 谁在说话(这是 Speaker Diarization / 说话人分离)
  • 说话的含义(这是 NLP / LLM)
  • 情绪、态度(这是情感识别)

在会议系统中,通常是组合能力:

音频
 ├─ ASR(转文字)
 ├─ 说话人分离(谁说的)
 └─ NLP / LLM(总结、要点、行动项)

五、常见的开源 ASR 项目(工程视角)

如果你考虑落地或实验:

  • Whisper(OpenAI,效果好,延迟偏高)
  • Whisper.cpp(C++ 实时优化版)
  • Vosk(轻量、可实时)
  • Kaldi(传统但可控)
  • FunASR(阿里,中文友好)
  • WeNet(工业级)

六、总结

ASR 是你“实时会议记录 + 多人讨论系统”的第一块基石
后面你遇到的“无法区分谁在说话”,并不是 ASR 的问题,而是 缺少说话人识别 / 分离模块

建议你的学习步骤是:

  • ASR
  • 说话人分离
  • 准实时会议转写
ASR
更新于 2026-01-05
在线,36分钟前登录

查看ASR更多相关的文章或提一个关于ASR的问题,也可以与我们一起分享文章