SpeechRecognitionを使った音声認識 – Pythonで始めるプログラミング
Pythonはその簡潔な構文と強力なライブラリのおかげで、多くの開発者に愛されています。その中でも、音声認識は非常に興味深く、有用なアプリケーションの一つです。ここでは、SpeechRecognition(外部リンク)ライブラリを使用した音声認識の基本について紹介します。
SpeechRecognitionのインストール
まず最初に、SpeechRecognitionライブラリをインストールする必要があります。インストールは非常に簡単で、以下のコマンドを実行するだけです。
pip install SpeechRecognition
さらに、必要に応じてPyAudio(外部リンク)もインストールしましょう。
pip install PyAudio
基本的な使用方法
ライブラリのインストールが完了したら、簡単なプログラムを書いてみましょう。以下は、音声を認識し、テキストに変換するサンプルコードです。
import speech_recognition as sr
recognizer = sr.Recognizer()
with sr.Microphone() as source:
print("何か話してください...")
audio = recognizer.listen(source)
try:
print("Google Speech Recognitionは次のように認識しました:")
text = recognizer.recognize_google(audio, language='ja-JP')
print(text)
except sr.UnknownValueError:
print("音声を認識できませんでした")
except sr.RequestError as e:
print(f"Google Speech Recognitionサービスにエラーが発生しました: {e}")
コードの詳細
- まず、
speech_recognition
モジュールをインポートします。 - 次に、
sr.Recognizer()
クラスのインスタンスを作成します。 sr.Microphone()
を使って音声入力のソースを設定します。- 音声を
recognizer.listen(source)
メソッドを使ってキャプチャします。 recognizer.recognize_google()
を使って音声をテキストに変換します。
まとめ
以上、SpeechRecognitionを使った基本的な音声認識の例をご紹介しました。Pythonを使って音声認識アプリケーションを開発するのは、それほど難しくありません。しかし、より高度な機能を実装するには、追加の学習が必要となります。さらに深く学びたい場合は、公式のドキュメント(外部リンク)を参照すると多くの情報が得られます。
Peter Norvig“プログラミングは、多くの小さな楽曲のようなものです。正しい工具を使えば、誰でもプログラマーになることができる。”