課程簡介

語音識別技術概述

  • 語音識別的歷史和演變。
  • 聲學模型、語言模型和解碼。
  • 現代架構:RNNs、transformers和Whisper。

音頻預處理與轉錄基礎

  • 處理音頻格式和採樣率。
  • 清理、修剪和分段音頻。
  • 從音頻生成文本:即時與批處理。

Whisper和其他API的實踐

  • 安裝和使用OpenAI Whisper。
  • 調用雲API(Google、Azure)進行轉錄。
  • 比較性能、延遲和成本。

語言、口音和領域適應

  • 處理多種語言和口音。
  • 自定義詞彙和噪聲容忍度。
  • 法律、醫學或技術語言處理。

輸出格式與集成

  • 添加時間戳、標點符號和說話者標籤。
  • 導出爲文本、SRT或JSON格式。
  • 將轉錄集成到apps或數據庫中。

用例實施實驗室

  • 轉錄會議、採訪或播客。
  • 語音轉文本命令系統。
  • 爲視頻/音頻流提供即時字幕。

評估、侷限性與倫理

  • 準確性指標和模型基準測試。
  • 語音模型中的偏見和公平性。
  • 隱私和合規性考慮。

總結與下一步

最低要求

  • 瞭解一般的AI和機器學習概念。
  • 熟悉音頻或媒體文件格式和工具。

受衆

  • 處理語音數據的數據科學家和AI工程師。
  • 構建基於轉錄的應用程序的軟件開發人員。
  • 探索語音識別以實現自動化的組織。
 14 小時

人數


每位參與者的報價

即將到來的課程

課程分類