Macで何かおこないときにSiriなどで一部操作は可能ですが、操作されるアプリ側も対応ができていなければユーザーが希望していること詳細なタスクはなかなかできません。
そこで、LangChain Agentを用いてApple Sciprtを作成することにより直接macを動かし、どのようなアプリに対しても操作を行えるようにしました。
例えば東京のホテルをエクセルにまとめてというと
ホテルを検索して。。
エクセルにまとめてくれます。
一方、多くの操作ができてしまうのでAIで危険な操作(何かしらを削除するなど)をしようとする際には一度ユーザーに問題がないかの確認をするようにしています。
このアシスタントAIではキャラクターとの会話を通じて「パートナーとしてお仕事をしている感」を大切にしています。 モーションパターンは8種類以上あり、アシスタントとして身近な存在に感じるよう親しみやすいビジュアルにしています。
実際には「◯◯をして!」とお願いしたときに処理が早いほうが便利と思われがちですが、それではキャラクターがいる効果を最大限に活かせません。 このアプリでは本来なら1秒で処理が終了するところを、敢えてレスポンスを遅くしてユーザーのアクションに対しての適切なリアクションを挟むことで親しみやすさを出しています。
アプリを立ち上げると呼ばれたペットのように水面から顔を出す可愛さ、 入力中に考えているモーションを出してキャラクターが自分の話をしっかり聞いてくれているという健気さ、 キャラクターが今なんの作業をしているのかの過程をメッセージやモーションで見せる報連相スキルの高さ・・・など、 忙しない現代社会のお仕事を支えるパートナーとして、しごできであり癒しでもあるキャラクターとして愛される設計にしています。
Macの操作はLangChain agents & Open AI APIで生成したApple Scriptで操作。webの場合はソースコードをChatGPTで再度並列に解釈しています。
LangChain agentsを使っているので、AI自身が次に何をするのか考えてスクリプトを作成&実行を繰り返します。
実行しようとしたスクリプトを解析して破壊的な処理が含まれているかを判定します。
ちなみに画像生成もできて、それはDall-E 3を使用しています。