この実験では、動作認識を行う際の最適視点位置の選択方法として、全て の視点位置において対象動作の学習を行ったのちに、視点を選択するので はなく、ある1つの視点位置とその近傍の視点位置の学習結果から、より 高い視点評価値を示す視点位置を逐次的に選択していく手法を考え、その 手法の提案と評価実験を行う。
この実験で使用する動作は、実画像実験2と同様に実際にビデオカメラで 撮影した人間が行う動作であり、それぞれ、「頭を掻く」「腕を組む」 「手を挙げる」「口をおさえる」といったものである。これらの動作に対 し、視点は対象となる人間の横方向に正面からの角度を0度から360度まで 45度刻みで変化させ計8個配置した。また、それぞれの視点位置には0から 7までの番号を付加した。この様子をオブジェクトの上方から見たものを 図7.1に示す。

さらに、入力画像列の各画像を拡大したものを用意し、ビデオカメラのズー ム機能を擬似的に作り出した。それぞれの拡大率は順に1.0,1.2,1.5,2.0 とした。元の画像列のサイズは160x120であり、拡大率1.2の場合は、原画 像の中心1/1.2の領域を160x120に拡大したものを使用し、他の拡大率でも 同様の処理を行った。動作の例として、「頭を掻く」動作を視点位置1か らそれぞれの拡大率で撮影したものを図7.2に示す。

最適視点選択実験で得られた視点評価値を、表7.1、図7.3に示す。
| 視点位置 | 角度[度] | 拡大率1.0 | 拡大率1.2 | 拡大率1.5 | 拡大率2.0 |
|---|---|---|---|---|---|
| 0 | 0 | 1.126 | 1.155 | 1.148 | 1.126 |
| 1 | 45 | 1.169 | 1.162 | 1.148 | 1.130 |
| 2 | 90 | 1.171 | 1.176 | 1.134 | 1.120 |
| 3 | 135 | 1.161 | 1.165 | 1.155 | 1.116 |
| 4 | 180 | 1.097 | 1.101 | 1.095 | 1.096 |
| 5 | 225 | 1.096 | 1.094 | 1.094 | 1.094 |
| 6 | 270 | 1.087 | 1.088 | 1.085 | 1.081 |
| 7 | 315 | 1.097 | 1.093 | 1.095 | 1.094 |

最適視点選択実験の視点評価値の結果(表7.1、図7.3)から視点位置2、拡 大率1.2の時に視点評価値が最大値を取ることが分かる。また、このグラ フから、視点位置が複数あり、さらに各視点で複数の拡大率をもって動作 を撮影することが可能である時、全組み合わせで認識対象動作を学習せず に、まず、1つの組合わせと、その組み合わせの視点位置、もしくは拡大 率を1段階変化させた組み合わせて学習し、その視点評価値の高い方から さらに異なる組み合わせで学習するといった方法で最適視点位置を選択で きることが分かる。
例えば、A点(視点位置0、拡大率1.0)の場合とB点(視点位置1、拡大率1.0) の場合では、前者の視点評価値は1.126であり、後者の視点評価値は1.169 であるため、次にC点(視点位置2、拡大率1.0)の視点評価値を求める。す ると、その視点評価値は1.171であり、さらにD点(視点位置3、拡大率1.0) を求める。この視点評価値は1.161であるため、視点位置は2で最高になる と推測できる。また、今度はE点(視点位置2、拡大率1.2)の視点評価値を 求め1.176となり、F点(視点位置2、拡大率1.5)で視点評価値は1.134とな るため、最終的にE点(視点位置2、拡大率1.2)が最適視点となる。この様 子を図7.4に示す。

また、先に拡大率の最適値を求める方針でも同様に最適視点を選択するこ とが可能である。
この手法では視点評価値の最大値ではなく極大値を求めることになるため、 学習条件によっては、初期状態の選択の仕方が異なる結果を生じさせるこ とがありうる。しかし、得られる視点評価値として大きな差は生じないと いうことと、実際にシステムとして応用する際には、ビデオカメラの台数 や学習時間に限度があることから、本手法によって大幅に学習時間が削減 された最適視点選択が有効であると思われる。