Python Whisperで音声を文字起こしする方法｜やや高速化を考える

2025年1月27日 2025年12月16日

OpenAIが提供する「Whisper」は、音声認識を行うためのオープンソースモデルです。

Pythonを使うことで、音声ファイルから簡単に文字起こしが可能です。

Whisperをそのまま使うと解析速度が遅いため、faster-whisperを使って高速化します。

faster-whisperは、Transformerモデル用の高速推論エンジンであるCTranslate2を使用してOpenAIのWhisperモデルを再実装したものです。

以下はGoogle Colaboratoryを利用してCPU利用で、英語の音声を文字起こしするサンプルです。

!pip install git+https://github.com/openai/whisper.git
!pip install faster-whisper

# モジュールをインポート
from faster_whisper import WhisperModel

# cpuモデルをロード（base モデルを例として使用）
model = WhisperModel("base", device="cpu")

# 音声ファイルのパスを指定
audio_path = "/content/sample_data/test_xxx.mp3"

# 英語の音声の文字起こしを実行
segments, info = model.transcribe(audio_path, beam_size=5, language="en")

# 結果をテキストに変換
text = ""
for segment in segments:
    text += segment.text + "\n"

# 結果をファイルに書き込み
with open("/content/sample_data/output_6.txt", "w", encoding="utf-8") as file:
    file.write(text)

print("文字起こしが完了しました。")

朝倉卍丸

シングルモルトスコッチなどのお土産を持ってきた人を助けるのが好きです。サービスの分割が重要ですが、昔ながらの方法でやりたいこともありますよね。

よく読まれている記事

1: SQLで条件の0=0は全てが正であるを意味する

SQLの条件に0=0のような記述を見かけます。変わった書き方の条件ですが、これは「全てが正である」事を意味しており、結合条件の場合はCROSS JOINと同じです。下記の例で言えば、結合するsub ...

2: DISTINCTを使わないで重複排除を考える

SQLのDISTINCTはEXISTSとかGROUP BYでなんとかする事もできます。 DISTINCTは暗黙的なソートがされますが、何のDBを使うにせよ過去のバージョンならともかく、最近のバージョン ...

3: RFC 5322に準拠させた正規表現言語別

RFC5322で定義されている正規表現を、各言語の正規表現に変化させた形になります。完全な電子メール正規表現は存在しないので、結局のところ何かの公式基準に従っていたとしても、自分が携わるサービスのル ...

-プログラミング
-Python, Whisper

サービスプログラミング

2025/12/16

ブクログの本棚を埋め込む方法

ブクログの本棚を埋め込めるブログパーツの提供は2019年5月17日に終了しました。しかし、現在も埋め込み機能を利用しているブログが多数あるためAPIは提供されています。そのため、ブログパーツAPIを呼び出すことで本棚を表示する事ができます。 xxxxxにブクログのユーザーIDを入力し、yyyyyにカテゴリー番号を記載します。カテゴリー番号が必要なので、事前にブクログ側でカテゴリーを作成しておき、各種本を紐付けておきましょう。 <script type="text/javascript" src ...

プログラミング

2025/12/16

Java文字列比較3選

JavaではStringを内容と参照元で比較することができます。認証（equals()メソッド）、ソート（compareTo()メソッド）、参照一致（==演算子）などを利用します。 JavaでStringを比較する方法は大きく分けて三通りあります。 equals()メソッドを使用する演算子==を使用する compareTo()メソッドを使用する 1. equals() メソッドによる文字列比較 String equals()メソッドは、文字列の元の内容を比較します。文字列の値が等しいかどうかを比較しま ...

プログラミング

2025/12/16

JavaScriptで変数の存在判定｜undefinedの判定処理

undefinedの判定は変数をどのように考えるかで判定方法が異なります。変数自体が定義されていないかを判定する場合は「typeof x === 'undefined'」です。この書き方は変数の存在自体を確認するものです。存在以外の判定が出来ないから良くないと書かれますが、それは個別にやるべきことです。「x === undefined」この書き方は、評価された変数が存在するかを判定するものであり、変数自体が定義されてないと、ReferenceErrorが発生するのでコンソールエラーが発生して処理が ...

プログラミング

2025/12/16

コマンドラインを使ってtsファイルをmp4に変換

ffmpegを使えばts(動画ファイル)をmp4に変換出来るので、コマンドラインからも実行出来ます。 ffmpegはオープンソースのマルチメディアフレームワークであり、音声や動画の変換、録画、ストリーミング、編集など、さまざまなマルチメディア関連のタスクを実行することができます。 Macでffmpegを利用するためには、以下の手順に従ってインストールする必要があります。 Homebrewのインストール HomebrewはMac用のパッケージマネージャーで、ffmpegを簡単にインストールできます。まだイ ...

プログラミング

2025/12/16

PythonとWhisperを利用して音声ファイルの文字起こし｜さらにGoogle Colaboratoryで実行

OpenAIが提供している文字認識モデルWhisperを利用すると、Python環境での日本語の文字起こしが可能です。ローカルで実行するのが手間な場合Google Colaboratoryを利用して実行する事が出来ます。まず文字起こししたい音声ファイルを取得し、Google Colabのsample_data配下にドラッグ＆ドロップします。 sample_dataのフルパスはカーソルを当てた時右側に出る3点リーダーの「パスをコピー」をクリックすと分かるのですが、フルパスは"/content/sampl ...

適切に近いAIプロンプトを作成するフレームワーク

ZONe ENERGY ABSOLUTE VICTORY 勝レビュー｜今日の一杯エナジードリンク