OpenAI Whisperの使い方。無料のオープンソース版とAPI版で音声を文字起こしする手順

  • URLをコピーしました!

OpenAI Whisperは、音声を高い精度でテキストにする文字起こしモデルです。日本語を含む99言語に対応し、使い方は大きく2通りあります。自分のパソコンに入れて無料で動かす「オープンソース版」と、OpenAIのAPIに音声を送って手軽に使う「API版」です。

この記事では、まず無料で使えるオープンソース版の手順を中心に、API版の使い方、精度を上げるコツ、注意点までをまとめます。会議の議事録づくりに使いたい場合は、より実務的な流れを議事録をAIで作る方法でも解説しています。

目次

OpenAI Whisperとは

OpenAI Whisperの公式リポジトリ(GitHub)

Whisperは、OpenAIが2022年に公開した音声認識(文字起こし)モデルです。録音した音声ファイルを渡すと、その内容をテキストに変換します。雑音のある音声や複数言語にも強く、文字起こしのほか、外国語音声を英語に翻訳する使い方もできます。

ここで押さえておきたいのは、Whisperは議事録AIのような「ボタンで使える完成アプリ」ではなく、自分の仕組みに組み込む「エンジン」だということです。だからこそ無料で自由に使えますが、そのぶん使うには下記2通りのどちらかを選ぶ必要があります。

OpenAI Whisperでできること

Whisperは音声をテキストに変換するモデルなので、音声や動画がからむ作業の幅広い場面で使えます。主な使い方には次のようなものがあります。

  • 会議や打ち合わせの録音から、議事録のもとになる文字起こしを作る
  • インタビューや取材の音声を書き起こして、記事や原稿に仕上げる
  • 動画やセミナーの音声から、字幕ファイル(.srt、.vtt)を作る
  • ボイスメモや口述した内容をテキストに変換する
  • 外国語の音声を英語のテキストに翻訳する(translateの機能)
  • 日本語を含む99言語に対応し、多言語の素材を文字起こしする

Whisperの2つの使い方と選び方

WhisperはオープンソースとAPIの2通りで使えます。費用と必要なスキルが違うので、目的で選びます。

比べる点 オープンソース版 API版
費用 無料(自分のPCで動かす) 従量課金(音声の長さに応じて)
必要なスキル Pythonなどの環境構築が必要 APIキーがあれば簡単
機密性 音声を外部に送らない 音声をOpenAIに送信する
向いている人 無料で使いたい、社外に出せない音声を扱う 手早く実装したい、環境構築を避けたい

無料で済ませたい場合や、社外に出せない会議音声を扱う場合はオープンソース版、とにかく早く動かしたい場合はAPI版が向いています。

オープンソース版で無料で文字起こしする手順

オープンソース版は、自分のパソコンにインストールして動かすため、利用料はかかりません。初めてでも進められるよう、準備から実行までを順番に説明します。WindowsでもmacOSでも流れは同じです。

手順1 PythonとFFmpegを用意する

Whisperを動かすには、プログラミング言語のPython(バージョン3.8から3.11が動作確認済み)と、音声ファイルを読み込むためのFFmpegというソフトが必要です。PythonはPythonの公式サイトからインストールできます。FFmpegは、お使いのOSに合わせて次のコマンドで導入します。

# macOS(Homebrew)
brew install ffmpeg

# Windows(Chocolatey)
choco install ffmpeg

# Windows(Scoop)
scoop install ffmpeg

# Ubuntu / Debian
sudo apt update && sudo apt install ffmpeg

手順2 Whisper本体をインストールする

PythonとFFmpegが用意できたら、次のコマンドでWhisperをインストールします。文字起こしに必要なPyTorchなどのライブラリも、一緒に自動でインストールされます。

pip install -U openai-whisper

手順3 コマンドで文字起こしする

インストールが終われば、文字起こしはコマンド1行で実行できます。日本語の会議音声meeting.mp3を文字起こしする例です。

whisper meeting.mp3 --language Japanese --model turbo

--language Japaneseで言語を日本語に指定しておくと、誤判定が減ります。--modelは使うモデルを指定する部分で、ここでは速度と精度のバランスがよいturboを使っています。モデルの選び方は次章で説明します。実行すると、文字起こし結果が画面に表示されると同時に、テキスト(.txt)や字幕(.srt、.vtt)などの形式でファイルにも保存されます。

手順4 Pythonコードから使う(任意)

自社のツールや自動化の仕組みに組み込みたい場合は、コマンドではなくPythonコードからも呼び出せます。

import whisper

model = whisper.load_model("turbo")
result = model.transcribe("meeting.mp3", language="ja")
print(result["text"])

オープンソース版のメリットは、利用料が無料で、音声を外部に送らないため機密性が高いことです。一方で、最初の環境構築にやや手間がかかる点と、高精度のモデルを快適に動かすにはそれなりのマシンスペックが必要な点は、あらかじめ理解しておきましょう。

API版で手軽に文字起こしする手順

環境構築を避けたい場合は、OpenAIのAPIに音声ファイルを送る方法が簡単です。OpenAIのアカウントを作りAPIキーを取得したうえで、次のように呼び出します(Pythonの例)。

from openai import OpenAI
client = OpenAI()
with open("meeting.mp3", "rb") as f:
    result = client.audio.transcriptions.create(model="whisper-1", file=f)
print(result.text)

モデルは従来からのwhisper-1のほか、より高精度のgpt-4o-transcribe、費用を抑えたgpt-4o-mini-transcribeが選べます。料金は音声1分あたりおよそ1円前後が目安で、安価なモデルはその半分程度です。最新の料金とモデルは必ずOpenAIの公式ページで確認してください。なお、1回のリクエストでアップロードできるファイルサイズには上限があるため、長い会議音声は分割して送ります。

精度を上げて使いこなすコツ

Whisperは設定を少し工夫するだけで、文字起こしの精度と作業効率が大きく変わります。押さえておきたい4つのポイントを順に説明します。

言語をあらかじめ指定する

Whisperは何語の音声かを自動で判定できますが、日本語の音声なら言語を日本語に明示しておく方が確実です。指定しておくと、冒頭が短い音声や、英単語が混ざる会議などで起こりがちな言語の誤判定を防げます。オープンソース版なら--language Japanese、API版ならリクエストで言語を指定するだけなので、ひと手間かける価値があります。

用途に応じてモデルを使い分ける

オープンソース版には、最速のtinyから最高精度のlargeまで複数のモデルがあり、大きいモデルほど精度が上がるかわりに処理が重くなります。加えて、largeに近い精度を保ちながら高速に動くturboというモデルもあり、日本語の文字起こしでは実用的な既定値になります。発言内容をざっと把握したい下書き用途なら軽いモデルで十分ですが、そのまま清書や公開用に使うなら、turboやlargeを選んだ方が誤認識は減ります。まずはturboかsmallで試し、精度が物足りなければlargeに上げる、という進め方が無駄がありません。なお、大きいモデルや長い音声はCPUだけだと時間がかかるため、速く処理したいならGPU(NVIDIAのCUDA対応)がある環境が有利です。

長い音声は分割して処理する

数十分を超えるような長い音声は、いくつかに区切って処理すると安定します。一度に処理しようとすると時間がかかり、途中で精度が落ちることもあります。会議の議題ごと、あるいは10分から15分程度の単位で区切って文字起こしし、あとでつなげると、速く確実に仕上がります。とくにAPI版は1ファイルあたり25MBという上限があるため、長い音声はそもそも分割するか、圧縮した形式にして送る必要があります。

固有名詞は文字起こし後にまとめて直す

社名や製品名、人名、専門用語といった固有名詞は、文脈から補完する仕組み上どうしても取り違えが起きます。これを認識させようと何度もやり直すより、いったん最後まで文字起こししてから、後でまとめて置換する方が効率的です。よく出てくる用語の正しい表記をリストにしておき、一括置換で直すと、確認の手間も最小限で済みます。

Whisperを使うときの注意点

精度の高いWhisperにも、使う前に知っておきたい弱点と制約があります。次の3点は特に押さえておきましょう。

無音や雑音での誤出力に注意する

Whisperは、無音の区間や雑音の多い部分で、実際には話されていない言葉をもっともらしく出力することがあります。とくに音声の冒頭や末尾の無音部分で起きやすいことが知られています。出力されたテキストをそのまま正しいものとして扱わず、決定事項や数値など重要な箇所は、元の音声と照らし合わせて確認してください。録音時にできるだけ静かな環境を選ぶ、前後の無音を切り取っておく、マイクを話者に近づけるといった工夫で、こうした誤出力を減らせます。

機密情報の扱いに注意する

API版は、音声データをOpenAIのサーバーに送信して処理します。そのため、顧客情報や未公開の経営情報など、社外に出せない内容を含む音声を扱うときは注意が必要です。こうした音声は、データを外部に送らず自分の環境だけで処理できるオープンソース版を使うのが安全です。法人で運用する場合は、社内のデータ取り扱いルールに沿って、どちらの方式を使うかをあらかじめ決めておきましょう。

文字起こしはあくまで下処理と捉える

Whisperができるのは、音声をそのままテキストにするところまでです。出力された文字起こしは、発言が並んだだけの状態で、まだ議事録ではありません。決定事項やToDoの形に整理するには、この後にChatGPTなどのチャットAIで要約・整形する工程が必要です。Whisperで文字起こしし、チャットAIで議事録に仕上げる、という二段構えで考えると実用的です。

Whisperを使った実例

Whisperは無料で自由に使えるため、個人が自分の用途に合わせてツールを自作する例が数多く公開されています。実際にXで共有されている作例をいくつか紹介します。

YouTubeのレシピ動画をObsidianのノートに自動変換

YouTubeの「料理を後で作ろう」再生リスト43本、ローカルWhisper + Claude CLIでObsidianのレシピノートに全自動変換する仕組みを作った。環境構築で半日溶けたけど、ワンコマンドで動くようになった

@nobu666 の投稿(X)

完全オフラインで動く音声入力アプリ

Fable と一緒に完全オフラインで動く音声入力アプリを作りました。Whisper + 4B LLM構成で、M2 MB Air(24GB)でも軽快に動きつつ、書き起こし精度も高いです。@hatone さんが以前オススメしてた防音マイクのMutalk2 をゲットしたので、周りに一切聞かれない/残らない音声入力ライフゲットしました

@tomoaki_imai の投稿(X)

ローカルWhisperと有料サービスの精度比較

Whisperベースで自作したローカル音声入力(左)と月額1,600円の音声入力サブスクAqua Voice(右)の比較。精度もスピードも大差ないからAqua Voiceに課金する意味ないと思ってる。実行環境はM1 Max。WhisperのモデルサイズはMedium。

@lskhkz の投稿(X)

無料のローカル音声入力ツールを自作

お金かけずに音声入力したくてPythonで作ってみた。ローカルのwhisperで音声→文字にして、ローカルLLMで整形して出力するやつ。ショートカット押すだけで常時起動するようにして、動いてるか見えないから音も鳴らすようにした。やっぱ全部ローカルだとちょっと時間かかる

@asasa_nashi の投稿(X)

音声をリアルタイムに文字起こしして要約

10秒遅れぐらいにはなってしまうけど、システム音声やマイクからの音声をWhisperでリアルタイムで文字起こしして、切り抜き音声として再生できるようなツールを作ってみた。Gemma4で文字起こしを綺麗にしたり、要約する機能も付いているけど、GPUを多用するからLive2D+ゲーム中は使えないかな…

@VioWaveRoentgen の投稿(X)

OpenAI Whisperに関するよくある質問

Q. Whisperは無料で使えますか?

オープンソース版を自分のパソコンやサーバーにインストールして動かすぶんには、利用料はかかりません。FFmpegとPythonの環境さえ用意すれば、回数や時間の制限なく無料で文字起こしできます。一方API版は、OpenAIに音声を送って処理してもらうため従量課金で、料金は音声1分あたりおよそ1円前後(費用を抑えたモデルはその半分程度)が目安です。短時間の利用ならAPI版でも数十円から数百円程度に収まりますが、長時間や大量に処理するなら無料のオープンソース版が有利です。最新の料金は必ずOpenAIの公式ページで確認してください。

Q. 日本語に対応していますか?

対応しています。Whisperは日本語を含む99言語に対応しており、日本語の会議やインタビューでも実用的な精度で文字起こしできます。コマンドやリクエストで言語を日本語に指定すると、自動判定よりも誤認識が減り、特に冒頭が短い音声や複数言語が混ざる音声で安定します。ただし社名や専門用語などの固有名詞は取り違えることがあるため、仕上げの確認は人が行う前提で使います。

Q. APIとオープンソースのどちらを使うべきですか?

判断の軸は「手軽さ」「費用」「機密性」の3つです。環境構築をしたくない、すぐに動かしたいならAPI版が簡単です。利用料を無料に抑えたい、または会議音声など社外に出せないデータを扱うなら、音声を外部に送らないオープンソース版が向いています。迷う場合は、まず無料のオープンソース版を試し、処理速度や手間が見合わなければAPI版に切り替える、という順序が現実的です。

Q. リアルタイムで文字起こしできますか?

Whisper本体は、録音済みの音声ファイルをまとめて文字起こしする用途に向いています。会議の発言をその場でリアルタイムに表示したい場合は、OpenAIのRealtime APIを使うか、リアルタイム文字起こしに対応した会議ツール内蔵のAIや専用の議事録ツールを使う方が手軽です。録音したものを後から正確にテキスト化したいならWhisper、その場で見たいならリアルタイム対応のツール、と使い分けます。

Q. 議事録AIツールとWhisperは何が違いますか?

Whisperは音声をテキストに変換する「エンジン」で、議事録AIのようなツールは、その文字起こしから要約や話者の分離、決定事項の抽出までを画面の操作だけで完結できる「完成アプリ」です。Whisperは無料で自由度が高い反面、要約や整形は自分で別のAIにつなぐ必要があります。手軽さと仕上がりを重視するなら議事録AIツール、費用を抑えて自前の仕組みに組み込みたいならWhisper、という選び方になります。

まとめ

OpenAI Whisperは、無料のオープンソース版とお手軽なAPI版の2通りで使える文字起こしモデルです。費用をかけたくない、社外に出せない音声を扱うならオープンソース版、すぐ実装したいならAPI版を選びます。いずれの場合も、文字起こしはあくまで下処理で、議事録や要約に仕上げるには次の工程でAIに整理させるのが実用的です。具体的な流れは議事録をAIで作る方法を参考にしてください。

業務でのAI活用を組織に広げたい場合は法人向けのAI研修、個人で活用力を証明したい場合はAI人材検定も選択肢になります。

AI研修・AI顧問 助成金活用ガイドブック 2026年度版

2026年度・令和8年度版 ― 無料資料

AI研修・AI顧問
助成金活用ガイドブック

助成金3制度の比較・申請手順・実負担額シミュレーションまで、AI人材育成に使える制度を1冊にまとめています。

資料をダウンロードする

発行:一般社団法人 日本AI導入支援協会(J-AIX)

  • URLをコピーしました!

author

AI JOURNAL編集部は、一般社団法人日本AI導入支援協会が運営する、AI活用に挑戦するビジネスパーソンを応援するメディアチームです。編集部の運営体制・編集方針はこちら

コメント

コメントする


目次