Whisper導入に苦しむの巻

Whiperを使ってア音声の文字おこしをやってみた。

Twitterで紹介されていた

を軽い気持ちでやってみたら、ドツボにはまったの話しです。

ツイートで紹介されているように、音声ファイルを用意し、

GitHubからwhisperをインストールし、

import whisper
model = whisper.load_model("medium")
result = model.transcribe("〇〇〇〇〇.wav")
print(result["text"])

の4行をパパっと書いて、いざ『実行』

・・・・・

FileNotFoundError: [WinError 2] 指定されたファイルが見つかりません。

えぇ～・・・。

ここに行き、DeepLさんに頼りながら読んでいくと

It also requires the command-line tool ffmpeg to be installed on your system, which is available from most package managers:

なぁんだ。おけおけ。

よくわかんないけど、ffmpegが必要なのね。インストール『実行』っと。

 FileNotFoundError: [WinError 2] 指定されたファイルが見つかりません。

あ”・・・。やべぇ、これはハマるパターンかも。

涙目になりながら、日にちをまたいで調べまくった結果

ffmpeg,exeのpathが通ってない事が判明！！

ffmpegの導入とパスの通し方に助けられました。ありがとうございます。

非エンジニアにとって環境設定とか、Pathを通すとか色々と鬼門です。

その他、fp16の代わりにfp32を使えとかの良く分からない警告などもあって

最終的に次のコードで実行することが出来るようになりました。

import whisper
model = whisper.load_model("model")
result = model.transcribe("音声ファイルのパス",fp16=False,language='Japanese')
print(result["text"])