Chapter 1

序論

近年、情報処理の分野において様々な研究がなされている。その中でも、計算機によって作られた仮想環境に人間が入り込み、様々な作業を行うVRなどは特に注目されている。VR環境では、人間がなんらかの行動をしたとき、計算機はそれに応じた環境を作成し人間に提示するということが必要であり、人間と計算機とのコミュニケーション手段としてのインターフェースの研究は重要視されている。

このような背景の中、人間と計算機とのコミュニケーション手段として、従来のキーボード、マウスといったインターフェースだけではなく音声、画像などを組み合わせたマルチモーダルインターフェース [1]が注目されている。これにより、人間が計算機と接する際に、文字に限定されずにより多くの表現方法をとることが可能になってきている。その中でも、画像を用いたインターフェースについては対象人物の顔(個人識別、表情識別)、体全体(動き、姿勢、性別)など多くの情報を得ることが可能となるため、非常に多くの研究がなされてきている。これは、その際に対象と非接触に情報を取得できるという利点があるためであり、人間はより自然に、人間同士のコミュニケーション時と変わりなく計算機とのインタラクションを取ることが可能となる。しかし、画像処理の分野のうち、顔を用いた個人識別、表情の認識などの静止画像を扱った研究では、多くの成果が挙げられ、実用的なシステムが開発されているが、動画像を扱った研究、その中でも、インターフェースとして使われる身振りの認識といった分野においては、実用的なシステムは挙げられていない。この理由として、動画像処理には十分な計算機能力が必要であるということがあげられる。インターフェースとして動画像を使用する際には、実時間処理が必要であり、例えば1/30秒以内で1フレーム分の処理を行なうには、かなりの計算機能力を必要とする。このため、動画像処理の分野での研究は静止画像に比べて遅れととってしまっている。しかし、近年の計算機能力の向上と共に、動画像処理を実時間で処理することが十分可能となり多くの研究が進められてきている。その中でも、インターフェースとして動画像を使用することが注目されつつある。この際、入力される動画像を認識することが必要となるが、入力される動きの情報量はカメラの位置に依存し、認識が困難になることもある。

従来の動作認識では、視点位置を固定していたため、対象となる動作はその固定された視点位置に依存したものとなってしまい、認識対象の動作が限定されてしまう。このことは、人間と計算機とのコミュニケーションとして動作認識を使用する際には、ユーザに不自然な動作を強いることになり好ましくない。そこで、本論文では、この問題を解決するために、あらかじめどのような動作を認識させるのかをシステムに学習される際、さまざまな視点位置からそれらの動作を撮影し、その情報からそれらの動作を認識する際の最適な視点を選択する手法を提案する。本手法では、入力された画像列から複数の特徴量を抽出し、それらの特徴量の変化から、その視点位置での評価値を求めることにより、対象動作を撮影した複数の視点位置の中から、計算機が自律的に最適視点位置を選択することを可能としている。

本手法を用いることによって、動作を認識を行う際にビデオカメラの位置によって動作が限定されることがなくなり、任意の動作を認識することが可能となるため、ユーザに計算機の存在を意識させずにより自然な人間と計算機とのインターフェースを構築することができるであろう。

[戻る]