【事前準備】
[画像生成]
- 「DALL-E3」で女性キャラクター画像を生成
- 「picwish」で背景を切り抜き
- 「ペイント」で女性キャラクターと飲み屋風景を合成
[動画生成]
- 生成した画像より「Vidnoz」で喋るモーションを作成
- 生成した画像より「Pika」で手の動きなどのモーションを作成
【アプリケーション実行時】
[音声識別]
- ユーザ発話内容を「Gemini:SpeechRecognitionAPI」で文字起こし
[文章生成]
- 発話内容及びキャラクター設定より「GPT-4o」で会話内容を生成
[音声生成]
- 会話内容より「ElevenLabs」で発話音声を生成
[動画配信]
- 「音声識別」「文章生成」「音声生成」及び「動画コントロール」を「OBS Studio」にて処理し、動画配信を実行
【11月追加: Webアプリケーション化 + Agent機能追加】
- 人生お悩み相談室をWebアプリにして以下の機能を追加しました!
[Webアプリ化]
- AWS CDKでインフラ構築、フロントエンドはECS(Next js)でバックエンドはコンテナLambda(Fast API)を使用。
- ※ Google認証でのログインユーザーとIPアドレス制限をかけているため現状ログインは不可になっています。
[キャラクター追加]
- 2人のキャラクターを追加、真面目なOLとハンサムなサラリーマン。
[Agent機能]
- ユーザーの質問を受け取り、ツールを用いてタスクをこなす機能を追加。(zero-shot-react-descriptionのロジックを採用)
[Agentのツール]
- Google WorkSpaceに関わるツール
- Google認証時にスコープを許可することで以下のツールを使用可能。
- Googleカレンダー取得・予定登録ツール。
- Google Slide作成ツール。(Google Drive APIでログインユーザーのマイドライブに資料格納)
- Google認証時にスコープを許可することで以下のツールを使用可能。
- Web検索ツール
- DuckDuckGoを使用。
- SQL生成・実行ツール。
- GlueとAthenaで構築されている2023年のプロ野球選手のデータ基盤に対する、SQL作成・SQL実行(Athena API実行)ツール。
[デモ動画]
Web検索からの資料作成 https://youtu.be/sD0kzjQXM08?si=5Q9uHxdUt4OpoPc2
SQLでのデータ取得から資料作成 https://youtu.be/5CL7ucKSqgw?si=SEpLSBoc2iUZnB4S
SQLでのデータ取得から資料作成(動作ログ) https://youtu.be/PrDNZCTLT_8?si=qqYaJdPj15RIpMf5