音声認識– tax –

音声認識とは、人間の発話音声をコンピュータがテキストデータに変換する技術です。音響モデルと言語モデルを組み合わせる従来型アーキテクチャから、Whisper(OpenAI)に代表されるEnd-to-End型の深層学習モデルへと技術の主流が移行し、多言語対応やノイズ耐性が大幅に向上しました。近年は数秒の音声サンプルから話者の声を複製するゼロショット音声合成との組み合わせなど、音声分野全体のAI活用が加速しています。

主要な応用領域として、コールセンターの通話書き起こしと対話分析、会議の自動議事録作成、医療現場でのカルテ音声入力、音声コマンドによるハンズフリー操作、リアルタイム字幕・多言語同時通訳などがあります。話者分離(ダイアライゼーション)や感情認識と組み合わせることで、誰が・何を・どのような感情で発話したかまでを構造化する高度なソリューションも実用化されています。

国内ではAmiVoice(アドバンスト・メディア)、MiiTel、Rimo Voice、Notta、Otolioなどが代表的なサービスとして法人市場に広く普及しています。近年は日本語音声基盤モデルKotoba Whisperや、ソフトバンクのSarashina音声API、Kotoba Technologiesの同時通訳技術など、国産音声AIの競争も活発化しています。

1234