序論
近年、情報処理の分野において様々な研究がなされている。その中でも、計算機 によって作られた仮想環境に人間が入り込み、様々な作業を行うVRなどは特に注 目されている。VR環境では、人間がなんらかの行動をしたとき、計算機はそれに 応じた環境を作成し人間に提示するということが必要であり、人間と計算機との コミュニケーション手段としてのインターフェースの研究は重要視されている。

このような背景の中、人間と計算機とのコミュニケーション手段として、従来 のキーボード、マウスといったインターフェースだけではなく音声、画像などを 組み合わせたマルチモーダルインターフェース [1]が注目されている。これにより、人間が計算 機と接する際に、文字に限定されずにより多くの表現方法をとることが可能になっ てきている。その中でも、画像を用いたインターフェースについては対象人物の 顔(個人識別、表情識別)、体全体(動き、姿勢、性別)など多くの情報を得ること が可能となるため、非常に多くの研究がなされてきている。これは、その際に対 象と非接触に情報を取得できるという利点があるためであり、人間はより自然に、 人間同士のコミュニケーション時と変わりなく計算機とのインタラクションを取 ることが可能となる。しかし、画像処理の分野のうち、顔を用いた個人識別、表 情の認識などの静止画像を扱った研究では、多くの成果が挙げられ、実用的なシ ステムが開発されているが、動画像を扱った研究、その中でも、インターフェー スとして使われる身振りの認識といった分野においては、実用的なシステムは挙 げられていない。この理由として、動画像処理には十分な計算機能力が必要であ るということがあげられる。インターフェースとして動画像を使用する際には、 実時間処理が必要であり、例えば1/30秒以内で1フレーム分の処理を行なうには、 かなりの計算機能力を必要とする。このため、動画像処理の分野での研究は静止 画像に比べて遅れととってしまっている。しかし、近年の計算機能力の向上と共 に、動画像処理を実時間で処理することが十分可能となり多くの研究が進められ てきている。その中でも、インターフェースとして動画像を使用することが注目 されつつある。この際、入力される動画像を認識することが必要となるが、入力 される動きの情報量はカメラの位置に依存し、認識が困難になることもある。

従来の動作認識では、視点位置を固定していたため、対象となる動作はその固定 された視点位置に依存したものとなってしまい、認識対象の動作が限定されてし まう。このことは、人間と計算機とのコミュニケーションとして動作認識を使用 する際には、ユーザに不自然な動作を強いることになり好ましくない。そこで、 本論文では、この問題を解決するために、あらかじめどのような動作を認識させ るのかをシステムに学習される際、さまざまな視点位置からそれらの動作を撮影 し、その情報からそれらの動作を認識する際の最適な視点を選択する手法を提案 する。本手法では、入力された画像列から複数の特徴量を抽出し、それらの特徴 量の変化から、その視点位置での評価値を求めることにより、対象動作を撮影し た複数の視点位置の中から、計算機が自律的に最適視点位置を選択することを可 能としている。

本手法を用いることによって、動作を認識を行う際にビデオカメラの位置によっ て動作が限定されることがなくなり、任意の動作を認識することが可能となるた め、ユーザに計算機の存在を意識させずにより自然な人間と計算機とのインター フェースを構築することができるであろう。


[戻る]