【ニュース・コラム】XBOX one向け ToFセンサーによる正当進化した新Kinectが発表。for Windowsは2014年発売予定。

このエントリーをはてなブックマークに追加

既に他の大手サイトの記事等で御存知のように、今週、Xboxの次世代機「Xbox one」が発表されました。また、これまでのPrimeSense社からライセンシングを受けていたXbox 360向けのKinect (およびKinect for Windows)とは違う、ToFセンサーベースの次世代Kinect(以下「新Kinect」)が、全てのXbox oneに標準搭載されることが発表されました。

以下、WIREDの特別特集動画で、新Kinectの機能がハンズオン形式で詳しく紹介されています。まずはそちらをご覧ください。

動画を見ればわかると思いますが、現行のKinectと比べたときに、新Kinectの主な差異点は以下のような点です。

Engadgetの以下の記事にも詳しく書かれています

Xbox Oneの新Kinectは大幅進化、表情や心拍も認識。6人同時に全身キャプチャ

  • DepthおよびRGB画像が、これまでのVGA(640×480)からHD画質の1080p(1920×1080)へ増加。また、フレームレートも60fpsへ増加
  • 画角(Field of View)が従来より60パーセント増加。またToF形式などより近いところでもデプス取得可能(Xbox360向けのPrimesenseのものは50cm以降しかDepthを撮影できない)。これにより、より狭い場所や部屋で使用可能に。
  • スケルトントラッキングの同時可能追跡人数が、6人まで増加(動画中最後で5人を追跡している様子有り)
  • 引き続き、赤外線ベースのDepth計測なので、暗い部屋でも撮れるが、(動画中前半で試しているように)暗い部屋でもなるべく綺麗にテクスチャが撮れるような処理が追加されている。
  • スケルトントラッキングにおいて、各ボーンの回転(Orientation)まで推定。
  • スケルトントラッキングにおいて、(推定した姿勢からの)筋肉と力のかかり具合の推定。
  • 顔部分からの心拍数計測(この技術の仕組みについての関連記事)。
  • (顔特徴点トラッキングによる)各種の表情認識。表情の種類(笑ってる、普通、驚いている)や、目や口の開閉や、眼鏡をかけているか、画面から目を話しているかどうか(画面への集中度認識)などの、認識 (※Kinect SDK 1.5から提供されているFace Tracking APIにより実現されていると思われる)。
  • マイクロフォンアレーによる音声認識精度が向上。
  • マイク、顔向き顔認識、をあわせることにより、誰がどこをむいて喋っているかの認識。

以上のように、Microsoft(Research)の本気とも言える、正当進化の数々がすべて詰まった新Kinectになるようです。

ゲーム用モーションコントローラから、テレビのためのモーションインターフェースへ

こうした新機能と性能改善もりだくさんのKinectの一番のポイントは「全てのXbox Oneに同梱される」という点です。これまでのXbox 360版は、オプション販売でしたので、(相当な数が売れたものの)標準搭載ではなく、かつXbox 360と統合された形ではありませんでした。しかし、今回は標準搭載ですので、「(ゲーム向けの)モーションコントローラ」が主な用途だったのが、Xbox Oneの全機能(テレビやSkypeやメディアチャンネルなどにおいて)「モーションインターフェース」としても機能するという点が大きいです。極論を言ってしまえば、ゲームをあんまりしない人でも、Xbox Oneをリビングに一台購入すれば、そのときのNUI(Natural User Interface)として、新Kinectを日常的に使用することとなります。

実際,発表の中でも、テレビコンソールとしての用途が強調されていました。以下の動画は、新Kinectを使った非接触インターフェースや、音声認識による命令により、テレビやSkypeへの切り替えを行っている様子のデモです

たとえば、1:29ごろ、演者が手をぐーっと開けると、それに従って画面がズームされるという、スケルトントラッキングを用いた操作のデモがあります。

また、2:23ごろに、「Xbox, watch ESPN (XBOX、ESPNチャンネルを見せて)」と演者が喋ると、ESPN(スポーツ専門チャンネル)にチャンネルが切り替わる様子があります。

このように、モーションコントローラからモーションインターフェース+音声認識コントローラへと、更なる汎用化を遂げたのが新Kinectと言えそうです。(※Human Computer Interactionの研究者は、ここまでやられてしまうと、非接触系に関しては、今後相当ビジョンの技術力がないと生き残れなくなりそうでは?)

アクティブステレオからToFに変わったことでどうなる?

ここからは、for Windowsが来年リリースされてから、お仕事や研究で新Kinectを使うことになるであろう、ビジョンに関連する技術者の方向けの話です。

動画でデプスを撮影できるセンサーには、PrimseSense社のようなアクティブステレオ方式と、今回新Kinectに採用されたToF形式の2つが代表的です。

ただ、以下の日浦先生のつぶやきにもあるように、ToFとアクティブステレオでは、とれるデプスの良さが一長一短なところがあります。

固定パターンステレオは奥行き精度(≠分解能)がTOFより高く,かわりに実質的な解像度(角分解能)が低い.TOF(のうち輝度変調法)は反射率の低い部分や傾いた面で精度が低下しやすいほか,相互反射の強い箇所で実際よりも計測値が奥へシフトする.

つまり、冒頭の動画のように、新Kinectは高解像度になってフレームレートがあがって、デプスが綺麗に見えるようになった気もしますが、ToFベースなのでデプスの精度そのものにはムラがあることが予想できます(他の手法との組み合わせで在る程度改善されている可能性もあることには注意。またPrimesenseも特許公開されているところ以外はデプス取得の仕組みが非公開なので、上の日浦先生の一般的に議論が必ずあてはまるとは言えない点も注意)。

また、ToF採用はスケルトントラッキングの機能向上には貢献しているでしょうが、新Kinectはデプスそのものが精度が上がってるとは限らないという点に注意ください。いずれにせよ、実際の新Kinectを触れるようになってからしか、実際の精度は確定しないので、あくまで予想である点にはご注意を。

まとめ

以上のように、Xbox Oneのユーザー向けには、主にモーションインターフェース性が向上したものとして、また、我々ディベロッパー向けにもNUIを実現するための各種機能が正当進化したものとして、新Kinectが登場することになりました。

3Dデプスデータを用いた研究開発に携わっている自分としても、今回の新Kinectのリリースにより、3D認識技術がより一般的に普及すると嬉しいと思います。


最近のコメント

コメント機能はDisqusから提供されています

リアクション

  1. jehoiachinderivecvからリブログして、コメントを追加しました:
    What dafaqcis this sht
  2. claque0derivecvからリブログしました
  3. nicolaswolff74derivecvからリブログして、コメントを追加しました:
    Versteh ich nicht
  4. derivecvの投稿です