ウェイクワード スピーカー「Niwatori」
**M5StickVを使って、
スマートスピーカーを画像認識して、ウェイクワードをしゃべらせてみました。**
概要
カメラ画像に対して画像判別を行い、スマートスピーカーと認識されれば、ウェイクワードをスピーカーから再生します。
Google Homeを写すと「OK Google」としゃべり、
Clovaなら「ねえ Clova」、
Fire HD(amazonタブレット)なら「アレクサ」と言います。
M5StickV単体で動作します。
ウェイクワードのをしゃべる → しゃべってウェイクアップさせる → ニワトリと名付けました
何に役立つか
例えばメガネにこの仕組みを組み込んで、「しばらく見つめると、ウェイクワードを代わりに言ってくれる」など!
(ウェイクワードを言ったあとは、ユーザー自身の言葉で、「今日の天気は?」などと発話してください)
使ったもの
画像認識のモデルにはV-Trainingを使用。(撮影時に使うプログラムも用意されていて、とってもお手軽に使えました)
読み上げの部分はBrownieのコードを参考にさせていただきました。(そもそも、読み上げさせるというアイデア自体がBrownieの真似のようなものですが)
音声出力は、Open JTalk使用して予め用意した音声ファイルを再生しています。
そして、M5StickVだけでカメラ撮影、AIの推論、音声再生まで。M5StickVの機能をバッチリ活用したものになったと思います!
Wakeword Speaker "Niwatori" (Rooster)
Smart Speaker Image-recognition and speaking Wakeword system using M5StickV.