外部APIを叩く大半はほぼnode-redに集め、デバックをしやすくしました
- Python(pyaudio)で、音声をストリームで取得し、音声が止まった=一旦喋り終わった、としてGoogleのSpeech to Textでテキストに変換する
- Yahooさんのテキスト解析APIのキーフレーズ抽出にテキストを設定して、喋った言葉で重要な箇所だけ抜き取る(聞こえなかった場合の対策
- Yahooさんのテキスト解析APIの校正支援にテキストを設定して、日本語が正しく喋れてなかったらリアルタイムに注意する
- LIFULLさんのAPIに喋ったテキストを設定し、感情を取得する
- 1〜3の情報をカメラ上に重畳することで相手にも伝わるし、自分も恥ずかしい
- 喋った内容を逐次Kintoneに登録する
- 議事係はKintoneを見て議事録の参考に参照する
- 喋っていいた本人もKintoneを確認し、喋った文字を確認して自分の日本語のダメさに絶望する。文書校正の指摘あり
音声、言語、画像と複数の入出力を組み合わせ、それらを処理する API をうまく活用した作品であり、時代の要請にもマッチしています。話し手への話した内容へのフィードバックと、聞き手への情報の補強という重要な機能に、校正支援とキーフレーズ抽出の API をご利用いただきました。提供する側の私たちも想像していなかった利用法であり、未来を期待させる作品だと思います。