音声認識– tax –
音声認識とは、人間の発話音声をコンピュータがテキストデータに変換する技術です。音響モデルと言語モデルを組み合わせる従来型アーキテクチャから、Whisper(OpenAI)に代表されるEnd-to-End型の深層学習モデルへと技術の主流が移行し、多言語対応やノイズ耐性が大幅に向上しました。近年は数秒の音声サンプルから話者の声を複製するゼロショット音声合成との組み合わせなど、音声分野全体のAI活用が加速しています。
主要な応用領域として、コールセンターの通話書き起こしと対話分析、会議の自動議事録作成、医療現場でのカルテ音声入力、音声コマンドによるハンズフリー操作、リアルタイム字幕・多言語同時通訳などがあります。話者分離(ダイアライゼーション)や感情認識と組み合わせることで、誰が・何を・どのような感情で発話したかまでを構造化する高度なソリューションも実用化されています。
国内ではAmiVoice(アドバンスト・メディア)、MiiTel、Rimo Voice、Notta、Otolioなどが代表的なサービスとして法人市場に広く普及しています。近年は日本語音声基盤モデルKotoba Whisperや、ソフトバンクのSarashina音声API、Kotoba Technologiesの同時通訳技術など、国産音声AIの競争も活発化しています。
-
commubo
commuboは、自然会話AIプラットフォームを基盤とした生成AI型ボイスボットサービスです。シナリオ型の安定した応答と生成AIによる柔軟な会話対応をハイブリッドで活用し、企業の電話一次受付業務を自動化・高度化します。コールセンター向けパッケージやク... -
音響AI漏水検知
Hmcomm株式会社が提供する音響AI漏水検知は、音響解析AI技術を活用した水道管漏水検知ソリューションです。過去の漏水履歴や管路情報を用いた漏水リスク分析と、音響データのAI解析を組み合わせた漏水調査手法を提供しています。AIによる漏水音判定精度は... -
Voice Space
株式会社Stand Technologiesが提供する「Voice Space」は、最先端のAI技術を活用した総合AI音声サービスです。テキスト読み上げ機能では200以上の豊富な音声モデルの中からイメージに合った声を選択でき、日本語の自然なイントネーションでAI音声を生成し... -
AvaMo
株式会社オフショアカンパニーが提供する「AvaMo」は、AIタレント動画生成サービスです。テキストを入力するだけでAIタレントが出演する動画を自動生成でき、研修動画、広告・広報、マニュアル作成など幅広い用途に対応します。従来の動画制作では両立が難... -
ロカオプデスク
ロカオプデスクは、飲食店・美容サロン・クリニックなどの店舗向けAI電話受付サービスです。24時間365日、AIが電話に応対し、予約受付からよくある質問への回答、重要な連絡の担当者転送までを自動で行います。営業時間外や繁忙時間帯に取りこぼしていた予...
