私がスタックチャンに夢中になり始めたのと同じ頃に、M5Stack CoreS3が発売されました。CoreS3にはカメラが搭載されており、スタックチャンのようなロボットのAIカメラとして使えたら面白いと思い、ディープラーニングの実装に挑戦しました。あまりエッジAI開発に関する知識がない状態からスタートしたため情報収集や実験には時間がかかりましたが、幸運にも機械学習フレームワーク(nnabla)、Google Colab、PlatformIOといった優れた開発ツールに出会うことができ、実現に漕ぎつけました。私のような初心者がAI開発を始める際の障壁になりがちな環境構築も、Google Colabを利用することで難易度を下げることができたため、いろいろな人に使ってもらえるよう、ブログとGithubで手順やサンプルプログラムを公開しました。
The M5Stack CoreS3 was released around the same time that I started to get into Stackchan. CoreS3 is equipped with a camera, and I thought it would be interesting to use it as an AI camera for a robot like Stackchan, so I tried implementing deep learning. It took a long time to gather information and experiment because we started without much knowledge about edge AI development. Fortunately, I was able to come across excellent development tools such as a machine learning framework (nnabla), Google Colab, and PlatformIO, and I was able to make it a reality. Building an environment, which tends to be a barrier for beginners like me to start AI development, was made easier by using Google Colab, so I published the procedures and sample programs on my blog and Github so that various people can use it.
CoreS3にカメラによる推論を実装するまでの大まかな手順を図にしました。自分で用意した画像データで学習させ、得られた学習済みモデルを使ってスタンドアロンのCoreS3で推論させることができます。動画ではCoreS3のカメラに映った手の指がさしている方向(中央、上、下、右、左)を推論しています。詳細はブログ記事にまとめています。サンプルプログラムをGithubで公開しており、すぐに試すことができます。学習をGoogle Colabで行うことで、開発環境の構築で躓くこともありません。
I made a diagram of the rough steps to enable inference with the CoreS3 camera. You can train with your own image data and infer with standalone CoreS3 using the trained model obtained. In the video, the direction (center, top, bottom, right, left) pointed by the fingers of the hand reflected in the CoreS3 camera is inferred. Details are summarized in the blog post. A sample program is available on Github, so you can try it right away. By learning with Google Colab, you don't get stuck in building a development environment.