バーチャルスタジオのための影の変形と合成

Deformation and Composition of Shadow for Virtual Studio

abstract

The virtual studio which composes images from a combination of computer graphics and real images is becoming an increasingly popular method of TV program production. However, the present condition is that images in TV programs of live broadcast which performs real-time composition with a human using a Chroma-key composition have no shadow of human. It is incongruous because the human seems to float above the floor of CG image. This paper proposes a new method to create the realistic composite images in real-time using the shadow extracted from the real images.

はじめに

デジタル技術の発展に伴い，近年のテレビ放送では，CG(Computer Graphics)や画像処理を駆使した番組制作が多くなってきている．特にCGで生成した仮想空間の映像に人物の映像を合成するバーチャルスタジオは，天気予報や教育・教養・スポーツ番組等で頻繁に利用されるようになってきた．

バーチャルスタジオでは，物理的に不可能なカメラワークが可能となり，実際のスタジオセットでは表現不可能な背景を仮想空間で実現・制作することができる．また，美術道具のほとんどを仮想物体に置き換えることが可能になり，コンピュータ上で仮想空間のデータを入れ替えることで様々な背景を同一のスタジオで実現することができる．さらに，実際のスタジオセットを使用した番組制作と比べて，スタジオスペースを必要とせず，セットの設営・撮影・撤収に要するスタジオの占有時間が少なくて済む．以上のことから，バーチャルスタジオを使用することにより，番組制作の効率化・コストの低減化を図ることができる．その一方で，幾何学的整合性・光学的整合性を保つのが難しく，仮想空間との合成に違和感を生じ，現実感の高い合成映像を制作することは容易ではないという問題があり，解決されることが望まれている．

映画やドラマ，スペシャル番組に使用されるバーチャルスタジオでは，収録時は簡単な仮想空間を用いて実時間合成を行い，収録後に時間をかけてコンピュータ処理した高品質な仮想空間との合成を行う．そのため，人物の影付け・陰影など詳細な部分まで提示された現実感の高い合成映像を制作することができる．

一方，天気予報など生放送番組に使用されるバーチャルスタジオでは，仮想空間と人物映像を実時間合成しているが，人物の影付けは行われていないのが現状である．影付けされていない合成映像は，人物が床から浮いたように見えるために違和感がある．そこで，人物の影が仮想空間の床に違和感なく提示されれば，現実感の高い合成映像が制作できると考えられる．

また，教育・語学番組で使用されるバーチャルスタジオでは，出演する人物の他， CGで生成されたキャラクターや仮想物体が多く使用されている．人物・CGキャラクター・仮想物体に影付けはされているが，人物の影が仮想物体上に提示されていない．そこで，仮想物体の形状に合わせて人物の影を変形させれば，さらに現実感の高い合成映像を制作することができると考える．

地上波デジタルテレビ放送に伴う多チャンネル化により，放送局はこれまで以上に数多くの番組を制作する必要がある．総務省は免許方針において，1週間の番組中，教育番組は10%以上，教養番組は20% 以上放送することを義務付けており，バーチャルスタジオの需要が高まると考えられる．今後，生放送番組において人物の影付けを行ない，仮想物体の形状に合わせて影を変形させることのできるバーチャルスタジオを構築することができれば，番組制作の幅が広がることは間違いない．そのためには，バーチャルスタジオに有効な人物の影付けを行う手法が必要である．

影付け表現を可能とする手法として，イメージベースドレンダリングとモデルベースドレンダリングがある．イメージベースドレンダリングを用いる手法は，様々なカメラ視点から撮影した実画像を蓄積しておき，カメラの方向・位置・人物の動きに合わせて適切な画像を読み出して影を生成する．この手法は，放送前に多くの画像を撮影する必要があるため，生放送番組では効率的ではない．一方，モデルベースドレンダリングを用いる手法は，シャドウボリューム法を用いて人物の三次元形状と光源位置から影モデルを生成する手法である．この手法は，人物の三次元形状復元の精度がレンダリングした影モデルの質に影響するだけでなく，形状測定に時間がかかる問題が挙げられる．また，動いている人物の三次元形状を実時間で正確に復元するのは困難であり，さらに，実写の影と同じ影の濃淡を再現することができない問題がある．

そこで本研究では，現実感の高い合成映像を制作するために， CGを用いた影モデルではなく実写の影を用いる．仮想空間の床に影を提示するために，撮影した画像を人物画像と影画像に分離し，床の色に合わせて影を合成する手法について提案する．次に，仮想物体上に影を提示するために，仮想物体の形状に合わせて影を変形させ合成する手法について提案する．提案手法により，仮想空間の床に影を提示するだけでなく，仮想物体上にも人物の影付けが可能となり，現実感の高い合成映像が制作できる．また，撮影前に面倒な準備を必要としないことから生放送番組に有効なバーチャルスタジオが実現できると考える．

提案手法

人物と影の分離と合成手法

影は，グリーンバック上に映り込むため，影の濃さは輝度の変化で表されるが，色相は変化しない．一般に， RGBの各原色で色相と輝度を扱うのは難しい．そこで，影の抽出を容易にするために，元画像の色情報を色相・彩度・輝度を表すHSV空間に変換して扱う．有彩色の色相は背景の色相と異なるため，色相情報を用いて抽出することができる．しかし，無彩色は色相を持たないため，人物領域の無彩色部分の抽出に色相を情報使用することができない. そこで，無彩色には彩度情報を用いる．グリーンバックを使用するため，背景の彩度の値は無彩色ではない. そこで，彩度の低い値を用いて人物領域の無彩色部分の抽出を行う．
本手法では，色相情報と彩度情報を用いて人物のみの画像を生成する．この画像を人物画像と呼ぶ．次に，輝度情報を用いて影のみの画像を生成する．この画像を影画像と呼ぶ．

元画像から人物画像を生成する手法を以下に述べる．
(1)元画像を色相・彩度画像に変換し，背景画像を色相画像に変換する．
(2)元画像の彩度画像より，彩度が低い部分は人物領域とみなし元画像の値を人物画像に代入する．
(3)彩度が高い部分においては，元画像の色相画像から背景の色相画像で差分をとる．
(4)差分値が大きければ，人物領域とみなし元画像の値を人物画像に代入する．差分値が小さければ，人物以外の領域とみなし，画素値255を人物画像に代入する．
(5)人物のエッジを正確に抽出するために，膨張・縮退処理を行なう.

元画像から影画像を生成する手法について述べる．
(1)元画像と背景画像をそれぞれ輝度画像に変換する．
(2)人物以外の領域において，元画像の輝度画像を背景の輝度画像で除算した値を影画像の生成に用いる．この値を輝度値の比率と呼ぶ．輝度値の比率が0以上1未満である場合は，影領域とみなし，その値を影画像に代入する．
(3)輝度値の比率が1より大きければ，影以外の領域とみなし，1を影画像に代入し，影画像を生成する．

影画像の生成に使用した輝度値の比率を使用し，合成画像を生成する手法について述べる．
輝度値の比率が0以上1未満である場合は，影領域とみなし，輝度値の比率に仮想空間の画像の値を乗算した値を合成画像に代入する．輝度値の比率が1より大きければ，影以外の領域とみなし，仮想空間の画像の値を代入し，合成画像を生成する．

影の変形と合成手法

仮想物体上に影を提示するには，仮想物体の形状に合わせて実写の影を変形させ画像を合成する必要がある．そこで，元画像から抽出した影画像を光源方向から見た影画像に変換し，その画像をテクスチャとして仮想物体に投影する手法を新たに提案する．

光源視点画像の生成手法
カメラ視点画像を光源視点画像に変換する手法について述べる．
(1)撮影した元画像から影画像を生成する．
(2)光源にカメラを置いたと仮定したときの光源視点画像面の点(ピクセル)を，ローカル座標からグローバル座標に変換する．次に，光源視点画像面の点と光源位置を結ぶ直線からスタジオの床面との交点を求める．
(3)算出した交点とカメラ位置を結ぶ直線からカメラ視点画像面との交点を求め，グローバル座標の算出した交点をローカル座標に変換する．
(4)変換したローカル座標のピクセル値を光源視点画像のピクセルに代入する．
(5)この操作を光源視点画像面の全ピクセルに対して行う．

仮想空間にある仮想物体上に影テクスチャを投影する手法について述べる．また，影テクスチャをマッピングする際に混合処理を行なう.

(1)光源視点画像を影テクスチャとする．
(2)仮想物体と仮想空間の床を描画し，仮想物体・仮想空間の床をポリゴンに分割する. 青色の点は分割した各ポリゴンの頂点を示している.
(3)仮想物体の各頂点と光源を結ぶ直線が影テクスチャ平面と交わる点を求め，ローカル座標系に変換する．
(4)この座標をテクスチャ座標とし，仮想物体に影テクスチャをマッピングすることで仮想物体の形状に合わせて影を変形させ合成することが可能となる. マッピングの際には混合処理を行うため，影テクスチャと仮想物体のカラー値が混合され，仮想物体の色に合わせて違和感なく影テクスチャを合成することができる.
(5)同様に，床面にある各ポリゴンの頂点と光源を結ぶ直線が影テクスチャ平面と交わる点をテクスチャ座標とし，床面に影テクスチャをマッピングすることで床面にも影を提示することが可能となる．

人物画像を合成する手法について述べる．
(1)撮影した元画像から人物画像を生成する．
(2)人物以外の領域に完全透明になるアルファ値を代入する．
(3)仮想空間を描き，テクスチャマッピングを行なった後に人物画像を合成する．この時，人物以外の領域を完全透明にして混合処理を行なう．

実験

提案手法の有効性を確認するための評価実験について述べる.
撮影・実験に用いた使用機材は，以下の通りである．
カメラ(Sony Digital Video Recorder DCR-TRV 900)
デスクトップパソコン(WindowsXP，Pentium4，2.80GHz)
グラフィックスカード(GeForce4MX)
キャプチャボード(GV--VCP 3/PCI)
DV(Sony Digital Video Cassette Recorder)

実験で使用するグリーンバックのみの背景画像を図1に示す．人物を撮影した画像を図2に示し，元画像として使用する．
色相・彩度情報を用いて人物画像，影画像を生成した(図3，図4).
仮想空間の画像(図5)と合成し，合成画像を生成する実験を行なった．輝度値の比率を利用して仮想空間の画像を代入し，合成画像を生成した(図6)．正確に人物の境界部分も合成され，仮想空間の床の色に合わせて違和感なく実写の影を合成することができ，提案手法の有効性を確認することができた．

合成映像生成に要する処理時間
スタジオで人物を撮影した映像をキャプチャし，合成映像を制作できるかどうか実験を行った．撮影した映像のキャプチャレートは29.4[fps]である．
合成映像を生成した結果，描画レートは15.24[fps]であり，提案手法を用いて違和感なく実写の影を実時間で合成することができた．

準備作業を行ない各ポリゴンにおけるテクスチャ座標を設定した(図7の青丸は各ポリゴンの頂点)後，合成画像を生成する実験を行なった．元画像(図1)から影画像(図4)を生成し，光源視点画像(図8)に変換を行なった．次に，仮想空間の画像(図7)に描かれている仮想物体にテクスチャマッピング行ない，合成画像を生成した(図9)．図9より，仮想物体の形状に合わせて影が違和感なく変形されており，仮想物体の色に合わせて違和感なく影を合成することができ，提案手法の有効性を確認することができた．

提案手法で合成した影が仮想物体上にどのように投影されるかを確認するために，スタジオに実物体を置いた場合に映った影と比較した．スタジオに実物体の白い箱を置いて撮影した画像を図10に示す．図9と図10より，実物体を置いた画像の影の映りこみと同様に仮想物体上に影が合成できることを確認した．また，仮想物体の影を比較した結果，スタジオと仮想空間の照明条件がほぼ一致することを確認した．

図１：背景画像　　図2：元画像

図3：人物画像　　図4：影画像

図5：仮想空間の画像　　図6：合成画像

図7：仮想空間の画像　　　図8：光源視点画像

図9：合成画像　　　　　　図10：実物体を置いた画像

参考文献

[1]山内結子, "実写べースバーチャルスタジオ"NHK技研R＆D No.68 2001.7
[2]Paul Debevec, "A Lighting Reproduction Approach to Live-Action Compositing "SIGGRAPH Conference Proceeding July,2002
[3]
[4]