音声認識– tax –

音声認識とは、人間の発話音声をコンピュータがテキストデータに変換する技術です。音響モデルと言語モデルを組み合わせる従来型アーキテクチャから、Whisper（OpenAI）に代表されるEnd-to-End型の深層学習モデルへと技術の主流が移行し、多言語対応やノイズ耐性が大幅に向上しました。近年は数秒の音声サンプルから話者の声を複製するゼロショット音声合成との組み合わせなど、音声分野全体のAI活用が加速しています。

主要な応用領域として、コールセンターの通話書き起こしと対話分析、会議の自動議事録作成、医療現場でのカルテ音声入力、音声コマンドによるハンズフリー操作、リアルタイム字幕・多言語同時通訳などがあります。話者分離（ダイアライゼーション）や感情認識と組み合わせることで、誰が・何を・どのような感情で発話したかまでを構造化する高度なソリューションも実用化されています。

国内ではAmiVoice（アドバンスト・メディア）、MiiTel、Rimo Voice、Notta、Otolioなどが代表的なサービスとして法人市場に広く普及しています。近年は日本語音声基盤モデルKotoba Whisperや、ソフトバンクのSarashina音声API、Kotoba Technologiesの同時通訳技術など、国産音声AIの競争も活発化しています。

12 3...4

対象業種	掲載数	絞り込み
全業種対応	26件 (68.4%)	音声認識×全業種対応で探す
金融	5件 (13.2%)	音声認識×金融で探す
医療	4件 (10.5%)	音声認識×医療で探す
IT	2件 (5.3%)	音声認識×ITで探す
小売	2件 (5.3%)	音声認識×小売で探す
製造	2件 (5.3%)	音声認識×製造で探す
飲食	2件 (5.3%)	音声認識×飲食で探す
エンタメ	1件 (2.6%)	音声認識×エンタメで探す
不動産	1件 (2.6%)	音声認識×不動産で探す
広告	1件 (2.6%)	音声認識×広告で探す
自動車	1件 (2.6%)	音声認識×自動車で探す
自治体	1件 (2.6%)	音声認識×自治体で探す
通信	1件 (2.6%)	音声認識×通信で探す

用途	掲載数	絞り込み
業務効率化	27件 (71.1%)	音声認識×業務効率化で探す
顧客対応	16件 (42.1%)	音声認識×顧客対応で探す
営業支援	9件 (23.7%)	音声認識×営業支援で探す
翻訳	8件 (21.1%)	音声認識×翻訳で探す
文書処理	7件 (18.4%)	音声認識×文書処理で探す
コンテンツ生成	6件 (15.8%)	音声認識×コンテンツ生成で探す
DX推進	5件 (13.2%)	音声認識×DX推進で探す
マーケティング	5件 (13.2%)	音声認識×マーケティングで探す
人材育成	4件 (10.5%)	音声認識×人材育成で探す
データ分析	3件 (7.9%)	音声認識×データ分析で探す
ヘルスケア	2件 (5.3%)	音声認識×ヘルスケアで探す
採用支援	2件 (5.3%)	音声認識×採用支援で探す
品質管理	1件 (2.6%)	音声認識×品質管理で探す
安全管理	1件 (2.6%)	音声認識×安全管理で探す
開発支援	1件 (2.6%)	音声認識×開発支援で探す

音声認識– tax –

Stand

LINE WORKS AiCall

LINE WORKS AiNote

CapCut

HeyGen

Synthesia

Felo瞬訳

Felo字幕

VoiceGPT

カイクラ