Whiperを使ってア音声の文字おこしをやってみた。
Twitterで紹介されていた
を軽い気持ちでやってみたら、ドツボにはまったの話しです。
ツイートで紹介されているように、音声ファイルを用意し、
GitHubからwhisperをインストールし、
import whisper
model = whisper.load_model("medium")
result = model.transcribe("〇〇〇〇〇.wav")
print(result["text"])
の4行をパパっと書いて、いざ『実行』
・・・・・
FileNotFoundError: [WinError 2] 指定されたファイルが見つかりません。
えぇ~・・・。
https://github.com/openai/whisper
ここに行き、DeepLさんに頼りながら読んでいくと
It also requires the command-line tool ffmpeg to be installed on your system, which is available from most package managers:
なぁんだ。おけおけ。
よくわかんないけど、ffmpegが必要なのね。インストール『実行』っと。
FileNotFoundError: [WinError 2] 指定されたファイルが見つかりません。
あ”・・・。やべぇ、これはハマるパターンかも。
涙目になりながら、日にちをまたいで調べまくった結果
ffmpeg,exeのpathが通ってない事が判明!!
まいまいさんのブログにたどりつき
ffmpegの導入とパスの通し方に助けられました。ありがとうございます。
非エンジニアにとって環境設定とか、Pathを通すとか色々と鬼門です。
その他、fp16の代わりにfp32を使えとかの良く分からない警告などもあって
最終的に次のコードで実行することが出来るようになりました。
import whisper
model = whisper.load_model("model")
result = model.transcribe("音声ファイルのパス",fp16=False,language='Japanese')
print(result["text"])