課程簡介

Speech Recognition 技術概述

  • 語音識別的歷史與演變
  • 聲學模型、語言模型與解碼
  • 現代架構:RNNs、transformers 與 Whisper

音頻預處理與轉錄基礎

  • 處理音頻格式與採樣率
  • 清理、修剪與分段音頻
  • 從音頻生成文本:實時與批量

Whisper 與其他 API 實作

  • 安裝與使用 OpenAI Whisper
  • 調用雲端 API(Google, Azure)進行轉錄
  • 比較性能、延遲與成本

語言、口音與領域適應

  • 處理多種語言與口音
  • 自定義詞彙與噪音容忍度
  • 法律、醫學或技術語言的處理

輸出格式與整合

  • 添加時間戳、標點符號與說話者標籤
  • 導出為文本、SRT 或 JSON 格式
  • 將轉錄整合到 apps 或數據庫中

Use Case 實作實驗室

  • 轉錄會議、訪談或播客
  • 語音轉文字指令系統
  • 視頻/音頻流的實時字幕

評估、限制與倫理

  • 準確性指標與模型基準測試
  • 語音模型中的偏見與公平性
  • 隱私與合規性考量

總結與下一步

最低要求

  • 對通用AI和機器學習概念的理解
  • 熟悉音頻或媒體檔案格式及工具

目標受眾

  • 處理語音數據的數據科學家和AI工程師
  • 開發基於轉錄應用的軟件開發者
  • 探索語音識別以實現自動化的組織
 14 時間:

人數


每位參與者的報價

Provisional Upcoming Courses (Require 5+ participants)

課程分類