Pixel2Mesh: Generating 3D Mesh Models from Single RGB Images
Nanyang Wang1 โ, Yinda Zhang2 โ, Zhuwen Li3 โ, Yanwei Fu4, Wei Liu5, Yu-Gang Jiang1 โ
1 Shanghai Key Lab of Intelligent Information Processing, School of Computer Science, Fudan University
2 Princeton University
3 Intel Labs
4 School of Data Science, Fudan University
5 Tencent AI Lab
Abstract.
์ด ๋ ผ๋ฌธ์ ๋จ์ผ ์ปฌ๋ฌ ์ด๋ฏธ์ง๋ก๋ถํฐ 3D ํ์์ ์ผ๊ฐํ ๋ฉ์ฌ(triangular mesh) ํํ๋ก ์์ฑํ๋ ์ข ๋จ ๊ฐ(end-to-end) ๋ฅ๋ฌ๋ ์ํคํ ์ฒ๋ฅผ ์ ์ํ๋ค. ์ด์ ์ ๋ฐฉ๋ฒ๋ค์ ์ฃผ๋ก 3D ํ์์ ๋ณผ๋ฅจ(volume) ๋๋ ํฌ์ธํธ ํด๋ผ์ฐ๋(point cloud) ํํ๋ก ํํํ์ผ๋, ์ด๋ฌํ ํ์์ ์ค์ ์ฌ์ฉ ๊ฐ๋ฅํ ๋ฉ์ฌ ๋ชจ๋ธ๋ก ๋ณํํ๋ ๊ฒ์ ์ฝ์ง ์๋ค.
๊ทธ๋์ ์ด ๋ ผ๋ฌธ์์ ์ ์ํ๋ ๋ฐฉ๋ฒ์ ์ฃผ์ ํน์ง์ ๋ค์๊ณผ ๊ฐ๋ค.
1. ๊ทธ๋ํ ๊ธฐ๋ฐ ์ปจ๋ณผ๋ฃจ์
์ ๊ฒฝ๋ง(Graph-based Convolutional Neural Network) ์ฌ์ฉ
: ๊ธฐ์กด ๋ฐฉ๋ฒ๊ณผ ๋ฌ๋ฆฌ, ์ด ๋คํธ์ํฌ๋ 3D ๋ฉ์ฌ๋ฅผ ๊ทธ๋ํ ๊ธฐ๋ฐ ์ปจ๋ณผ๋ฃจ์
์ ๊ฒฝ๋ง์ผ๋ก ํํํ์ฌ, ์ฌ๋ฐ๋ฅธ ํ์์ ์์ฑํ๋ค. ์ด ๊ณผ์ ์์ ์
๋ ฅ ์ด๋ฏธ์ง์์ ์ถ์ถํ ์ง๊ฐ์ ํน์ง(perceptual features)์ ํ์ฉํ๋ค.
2. ์ ์ง์ ์ธ ๋ณํ(progressive deformation)
: ์ด๊ธฐ ํ์์ธ ํ์์ฒด(ellipsoid)๋ฅผ ์ ์ง์ ์ผ๋ก ๋ณํํ๋ ๋ฐฉ์์ผ๋ก, ํ์์ด ์์ ์ ์ผ๋ก ๋ณํ๋ ์ ์๋๋ก ๊ฑฐ์น ๊ฒ ์์ํด์ ์ ์ ์ธ๋ฐํ๊ฒ(coarse-to-fine) ๋ณํ์ํค๋ ์ ๋ต์ ์ฑํํ๋ค.
3. ๋ฉ์ฌ ๊ด๋ จ ์์ค ํจ์(mesh-related losses) ์ ์
: ์ฌ๋ฌ ์์ค์์ ๋ฉ์ฌ์ ์๊ฐ์ ๋งค๋ ฅ๊ณผ ๋ฌผ๋ฆฌ์ ์ ํ์ฑ์ ๋ณด์ฅํ๊ธฐ ์ํด ๋ค์ํ ์์ค ํจ์๋ฅผ ์ค์ ํ๋ค.
4. ๋์ 3D ํ์ ์ถ์ ์ ํ๋
: ๋ค์ํ ์คํ์ ํตํด ์ด ๋ฐฉ๋ฒ์ด ๋ ๋์ ์ธ๋ถ ํํ๋ ฅ์ ๊ฐ์ง ๋ฉ์ฌ ๋ชจ๋ธ์ ์์ฑํ ๋ฟ ์๋๋ผ, ๊ธฐ์กด ์ต์ฒจ๋จ ๊ธฐ์ ๋ค์ ๋นํด 3D ํ์ ์ถ์ ์ ํ๋๊ฐ ๋์์ ๋ณด์ฌ์ค๋ค.
Introduction

3D ํ์์ ์ถ๋ก ํ๋ ๊ฒ์ด ์ธ๊ฐ์๊ฒ๋ ์์ฐ์ค๋ฌ์ด ๊ธฐ๋ฅ์ด์ง๋ง, ์ปดํจํฐ ๋น์ ์์๋ ๋งค์ฐ ์ด๋ ค์ด ๊ณผ์ ์ด๋ค.
์ต๊ทผ์๋ ๋จ์ผ ์ปฌ๋ฌ ์ด๋ฏธ์ง์์ 3D ํ์์ ์์ฑํ๋ ๋ฐ ๋ฅ๋ฌ๋ ๊ธฐ์ ์ด ์ฌ์ฉ๋์ด ์ข์ ์ฑ๊ณผ๋ฅผ ๋ด๊ณ ์์ง๋ง, ๊ธฐ์กด ๋ฐฉ๋ฒ๋ค์ 3D ํ์์ ๋ณผ๋ฅจ(volume)์ด๋ ํฌ์ธํธ ํด๋ผ์ฐ๋(point cloud) ํํ๋ก ํํํ๋ ๋ฐ ๊ทธ์น๊ณ ํํ ์ธ๋ถ ์ ๋ณด๋ฅผ ์์ด๋ฒ๋ฆฌ๋ ๋จ์ ์ด ์๋ค.
์ด ๋ ผ๋ฌธ์์๋ ๋จ์ผ ์ด๋ฏธ์ง๋ก๋ถํฐ 3D ์ผ๊ฐํ ๋ฉ์ฌ๋ฅผ ์ถ์ถํ๋ ์๋ก์ด ์๊ณ ๋ฆฌ์ฆ์ ์ ์ํ๋ค. ์ด ์ ๊ทผ ๋ฐฉ์์ ๋จ์ํ ๋ฉ์ฌ๋ฅผ ์์ฑํ๋ ๊ฒ์ด ์๋๋ผ, ํ๊ท ํ์์์ ๋ชฉํ ํ์์ผ๋ก ์ ์ง์ ์ผ๋ก ๋ณํํ๋ ๋ฐฉ์์ ์ฌ์ฉํ๋ค. ์ด ๋ฐฉ์์ ์ฅ์ ์ ๋ค์๊ณผ ๊ฐ๋ค :
1. ์์ฌ ๋ณํ(residual deformation) ์ ์์ธกํ๋ ๊ฒ์ด ๊ตฌ์กฐํ๋ ์ถ๋ ฅ์ ์์ธกํ๋ ๊ฒ๋ณด๋ค ์ ๊ฒฝ๋ง ํ์ต์ ๋ ํจ๊ณผ์ ์
2. ์ฌ๋ฌ ๋ณํ ๋จ๊ณ๋ฅผ ํตํด ์ ์ง์ ์ผ๋ก ์ธ๋ฐํ๊ฒ ํ์ ๋ค๋ฌ์ ์ ์์
3. ์ด๊ธฐ ๋ฉ์ฌ์ ๋ํ ์ฌ์ ์ง์(prior knowledge) ์ ์ธ์ฝ๋ฉํ ์ ์์ด ๋ค์ํ ํ์์ ์ ํฉํจ
ํนํ, ์ด ๋ ผ๋ฌธ์์๋ ํ ํด๋ก์ง๊ฐ ๊ณ ์ ๋ ํ์์ฒด(ellipsoid)(๊ตฌ๋ฉ์ด ์๋ ํ์ํ ๋ฉ์ฌ ๊ตฌ์กฐ)๋ฅผ ๋ณํํ์ฌ ์ฐจ๋, ๋นํ๊ธฐ, ํ ์ด๋ธ๊ณผ ๊ฐ์ ์ผ๋ฐ์ ์ธ ๊ฐ์ฒด์ ํ์์ ํจ๊ณผ์ ์ผ๋ก ๋ค๋ฃฐ ์ ์์์ ๋ณด์ฌ์ค๋ค.
์ด ๋ ผ๋ฌธ์์ ํด๊ฒฐํด์ผ ํ ์ฃผ์ ๊ณผ์ ๋ ๋ค์๊ณผ ๊ฐ๋ค :
1. ๋ฉ์ฌ ๋ชจ๋ธ ํํ ๋ฐฉ๋ฒ
: ๋ฉ์ฌ๋ ๋ณธ์ง์ ์ผ๋ก ๋ถ๊ท์นํ ๊ทธ๋ํ ๊ตฌ์กฐ์ด๋ฏ๋ก, 2D ์ด๋ฏธ์ง์์ ์ถ์ถํ ํน์ง์ ํจ๊ณผ์ ์ผ๋ก ํตํฉํ๊ธฐ ์ํด์๋ ๋ ๋ฐ์ดํฐ ํํ(2D ์ด๋ฏธ์ง์ 3D ๊ทธ๋ํ) ๊ฐ์ ์ ๋ณด ์ตํฉ์ด ํ์ => ์ด๋ฅผ ์ํด 1) graph-based fully convolutional network (GCN) ๋ฅผ ์ฌ์ฉํ์ฌ ๋ฉ์ฌ ๋ชจ๋ธ์ ๊ฐ ๊ผญ์ง์ (vertex) ์ ๋
ธ๋๋ก ํํํ๊ณ , ์ธ์ ๋
ธ๋ ๊ฐ ํน์ง ๊ตํ์ ํตํด 3D ์์น๋ฅผ ํ๊ทํ๋ ๋ฐฉ๋ฒ์ ์ฑํํ๋ค. 2)VGG-16 ์ ์ฌ ์ํคํ
์ฒ๋ฅผ ํตํด 2D ์ด๋ฏธ์ง์์ ํน์ง์ ์ถ์ถํ ๋ค, ๊ฐ GCN ๋
ธ๋๊ฐ ํด๋น 2D ์ด๋ฏธ์ง ์์น์์ ํน์ง์ ํ๋งํ๋๋ก ์ค๊ณํ๋ค. (<- ์ด ๋ถ๋ถ์ ๋ํด์๋ ์ ์ดํดํ์ง ๋ชปํ๋ค...!) => ์ฆ, VGG-16 ์ ๋ฅ๋ฌ๋ ๋ชจ๋ธ๋ก, ์ฌ๋ฌ ์ธต์ 2D ํฉ์ฑ๊ณฑ(convolution) ๊ณผ ํ๋ง(pooling) ์ฐ์ฐ์ ํตํด ์
๋ ฅ ์ด๋ฏธ์ง์ ๊ณ ์์ค ํน์ง์ ์ถ์ถํ๋ค. ์ด๋ ๊ฒ ์ถ์ถ๋ ํน์ง์ 3D ๋ฉ์ฌ ์ ์ ์ ์์น์ ํด๋นํ๋ ์ด๋ฏธ์ง ์ ๋ณด์ ๊ฒฐํฉํ์ฌ ๋ฉ์ฌ ๋ณํ ํ์ต์ ํ์ฉํ๋ค. ์ด๋ ๊ฒ ๋๋ฉด ๋ ์ ํํ๊ณ ์ธ๋ถ์ ์ธ 3D ๊ฐ์ฒด๋ฅผ ์์ฑํ ์ ์๋ค.
2. ๋ฒํ
์ค ์์น ์
๋ฐ์ดํธ
: ์ง์ ๋ง์ ๋ฒํ
์ค๋ฅผ ์์ธกํ๋ ๊ฒฝ์ฐ ์ค๋ฅ๊ฐ ๋ฐ์ํ ์ ์์ด, ๊ทธ๋ํ ์ธํ๋ง(graph unpooling) ๋ ์ด์ด๋ฅผ ๋์
ํ์ฌ ์ด๊ธฐ์๋ ์ ์ ๋ฒํ
์ค๋ก ์์ํด ์ ์ง์ ์ผ๋ก ์ถ๊ฐํ๋ฉด์ ์ธ๋ถ ์ ๋ณด๋ฅผ ์ถ๊ฐํ๋๋ก ์ค๊ณํ๋ค. ์ด๋ฅผ ํตํด ๋คํธ์ํฌ๊ฐ ๋ณด๋ค ๋์ ์์ฉ ์์ญ์ ๊ฐ์ง๊ณ ํ์ตํ ์ ์๋๋ก ํ๋ค. (<- ์ด ๋ถ๋ถ์ ๋ํด์ ์์ง ์ ์ดํดํ์ง ๋ชปํ๋ค...! ) => ์ ์ ๋ฒํ
์ค๋ก ์์ํ๋ฉด ๋คํธ์ํฌ๊ฐ ์ ์ฒด์ ์ธ ๊ธ๋ก๋ฒ ๊ตฌ์กฐ๋ฅผ ๋จผ์ ํ์ต. ์ดํ ์ธ๋ถ์ ์ธ ๋ฒํ
์ค๋ฅผ ์ถ๊ฐํ๋ฉด์ ๋ก์ปฌ ์ธ๋ถ ์ฌํญ์ ์ ์ง์ ์ผ๋ก ํ์ต.
3. ํ์ต์ ํ์ง ํฅ์
: ๊ทธ๋ํ ๊ตฌ์กฐ ๋๋ถ์ ์ธ์ ๋
ธ๋ ๊ฐ ๊ณ ์ฐจ ์์ค ํจ์๋ฅผ ์ ์ํ ์ ์์ด 3D ํ์์ ๊ท์ ํ ์ ์๋ค. ์๋ฅผ ๋ค์ด, ํ๋ฉด ํํ(smoothness) ์์ค, ์ฃ์ง ๊ท ์ผํ ์์ค, ๋ผํ๋ผ์์ ์์ค์ ์ ์ํ์ฌ ํ์ง ์ข์ ๋ฉ์ฌ ๋ชจ๋ธ์ ์์ฑํ๋๋ก ํ๋ค. (<- ์ด ๋ถ๋ถ์ ๋ํด์ ์์ง ์ ์ดํดํ์ง ๋ชปํ๋ค...! )
Related Work
1. Multi-view geometry (MVG) ๋ฐฉ๋ฒ
- ์ฃผ์ ์ ๊ทผ๋ฒ : Structure from Motion (SfM) ๊ณผ Simultaneous Localization and Mapping (SLAM).
- ์ ํ ์ฌํญ :
- ์ฌ๋ฌ ์์ ์ด ํ์ํ์ฌ ๋ณด์ด์ง ์๋ ๋ถ๋ถ์ ๋ณต์ํ ์ ์๊ณ , ์ถฉ๋ถํ ์์ ์ ์ป๊ธฐ ์ํด ์๊ฐ์ด ์ค๋ ๊ฑธ๋ฆผ
- ๋ฐ์ฌ๋ ํฌ๋ช
ํ ๋ฌผ์ฒด์ ๊ฐ์ ๋น-๋จ๋ฒ์์(non-lambertian) ํ๋ฉด ๋ฐ ํ
์ค์ฒ๊ฐ ์๋ ๋ฌผ์ฒด ๋ณต์์ ์ด๋ ค์
- ์ด๋ฌํ ํ๊ณ ๋๋ฌธ์ ํ์ต ๊ธฐ๋ฐ ๋ฐฉ๋ฒ์ด ์ฃผ๋ชฉ๋ฐ๊ธฐ ์์ํจ
2. ํ์ต ๊ธฐ๋ฐ ์ ๊ทผ๋ฒ
- ์ฃผ๋ก ๋จ์ผ ๋๋ ์์์ ์ด๋ฏธ์ง๋ฅผ ํ์ฉํ๊ณ , ๋ฐ์ดํฐ๋ก๋ถํฐ ํ์ ์ฐ์ ์ง์์ ํ์ตํจ
- ๋ฅ๋ฌ๋ ๊ตฌ์กฐ์ ๋๊ท๋ชจ ๋ฐ์ดํฐ์
(์: ShapeNet) ๋๋ถ์ ์ฐ๊ตฌ๊ฐ ํฌ๊ฒ ์ง์ ๋จ
3. ํ์ต ๊ธฐ๋ฐ ์ ๊ทผ๋ฒ์ ์ฃผ์ ๊ธฐ๋ฒ
- ํ์ ๊ฒ์ ๋ฐ ๋ณํ : Huang ๋ฑ๊ณผ Su ๋ฑ์ด ๋ฐ์ดํฐ์
์์ ํ์ ๊ตฌ์ฑ ์์๋ฅผ ๊ฒ์ํด ์ด๋ฏธ์ง๋ฅผ ๋ง์ถ๊ธฐ ์ํด ๋ณํํจ. ๊ทธ๋ฌ๋ ์ด ์ ๊ทผ์ ํด๊ฒฐํ๊ธฐ ์ด๋ ค์ด ill-posed ๋ฌธ์ ์
- 3D ๋ณํ ๊ฐ๋ฅ ๋ชจ๋ธ : Kar ๋ฑ์ ๋ฒ์ฃผ๋ณ 3D ๋ณํ ๋ชจ๋ธ์ ์ ์ํ์ผ๋, ์ธ๊ธฐ ์๋ ๋ฒ์ฃผ์ ํ์ ๋๋ฉฐ ์ธ๋ถ ํํ์ด ๋ถ์กฑํจ
- ๋ณต์
๊ธฐ๋ฐ ๋ณต์ : ๋๋ถ๋ถ์ ๋ฅ๋ฌ๋ ๋ฐฉ๋ฒ์ 3D ๋ณต์
์ ์ฌ์ฉํ์ง๋ง, GPU ๋ฉ๋ชจ๋ฆฌ ์ ์ฝ์ผ๋ก ์ธํด ํด์๋๊ฐ ๋ฎ์. Tatarchenko ๋ฑ์ ์ฅํธ๋ฆฌ(octree) ํํ์ ํตํด ๋ ๋์ ํด์๋๋ฅผ ์ ๊ณตํจ
- ํฌ์ธํธ ํด๋ผ์ฐ๋ : Fan ๋ฑ์ ํฌ์ธํธ ํด๋ผ์ฐ๋๋ฅผ ์์ฑํ์ง๋ง, ํฌ์ธํธ ๊ฐ ์ฐ๊ฒฐ์ด ์์ด 3D ๋ฉ์ฌ ๋ณต์์ ๋ฐ๋ก ์ฌ์ฉํ๊ธฐ ์ด๋ ค์
- ์ง์ค๋ฉํธ๋ฆฌ ์ด๋ฏธ์ง : ์ผ๋ถ ์ฐ๊ตฌ๋ 3D ํ์์ ๋ํ๋ด๊ธฐ ์ํด 2D ํฉ์ฑ๊ณฑ ์ ๊ฒฝ๋ง์ ์ด์ฉํ "์ง์ค๋ฉํธ๋ฆฌ ์ด๋ฏธ์ง"๋ฅผ ์ฌ์ฉํจ
4. ์ต๊ทผ ์ฐ๊ตฌ ๋ฐ ํ๊ณ
- ์ค๋ฃจ์ฃ ๊ธฐ๋ฐ ๋ฐฉ๋ฒ๊ณผ ๋๊ท๋ชจ ๋ชจ๋ธ ์ ์ฅ์๋ฅผ ์ฌ์ฉํ๋ ๊ฒฐํฉ ๋ชจ๋ธ ์์ฑ ๋ฐฉ๋ฒ์ด ๊ด๋ จ ์ฐ๊ตฌ๋ก ์ ์๋์์ผ๋, ๋ณต์กํ ํ์์์๋ ์ฑ๋ฅ์ด ์ ์กฐํ๊ฑฐ๋ ๋ง์ ์์์ ์๊ตฌํจ
5. ๊ทธ๋ํ ์ ๊ฒฝ๋ง(Graph Neural Network, GNN) ์ ํ์ฉํ 3D ๋ณต์
- ๋ณธ ์ฐ๊ตฌ๋ ๊ทธ๋ํ ์ ๊ฒฝ๋ง(GNN) ์ ๊ธฐ๋ฐ์ผ๋ก ํ์ ๋ถ์์ ์ํํ๋ฉฐ, ์ต๊ทผ ํ์ ๋ถ์ GNN์ด ์ ์ฉ๋ ์ฐ๊ตฌ์์ ์๊ฐ์ ๋ฐ์
- ์ฐจํ
๊ธฐ๋ฐ ๋ฐฉ๋ฒ : ๋ฉ์ฌ ๊ฐ์ฒด์ ์ ํฉํ ํ๋ฉด ๋ค์์ฒด์ ํฉ์ฑ๊ณฑ์ ์ ์ฉํ๋ ๋ฐฉ๋ฒ์ผ๋ก, ๋จ์ผ ์ด๋ฏธ์ง 3D ๋ณต์์๋ ๋ง์ด ์ฌ์ฉ๋์ง ์์์
Method
Preliminary: Graph-based Convolution
1. 3D ๋ฉ์ฌ ๊ตฌ์ฑ
: 3D ๋ฉ์ฌ๋ ์ ์ (Vertices), ๊ฐ์ (Edges), ๋ฉด(Faces) ์ผ๋ก ์ด๋ฃจ์ด์ง ๊ตฌ์กฐ์ด๋ค.
๊ทธ๋ํ๋ก ํํํ ์ ์์ผ๋ฉฐ, M= (V, E, F) ๋ก ๋ํ๋ธ๋ค.

๊ทธ๋ํ์ ๊ฐ ์ ์ (Vertex) ์์๋ ํน์ฑ(feature) ๋ฒกํฐ๊ฐ ํ ๋น๋๋ค.
2. ๊ทธ๋ํ ๊ธฐ๋ฐ ํฉ์ฑ๊ณฑ (Graph-based Convolution)
: ๋ถ๊ท์นํ ๊ทธ๋ํ ์์ ํฉ์ฑ๊ณฑ ์ธต์ ์ ์ํ๋ฉฐ, ์(1) ๊ณผ ๊ฐ์ด ๋ํ๋ผ ์ ์๋ค.


์์ ํน์ฑ ์ ๋ฐ์ดํธ ์์ ํต์ฌ : ์ ์ p์ ํน์ฑ์ ์๊ธฐ ์์ ์ ํน์ฑ(w0fp^l)๊ณผ ์ด์ ์ ์ ์ ํน์ฑ ํฉ(w1 fq^l)์ ์ ํ ๊ฒฐํฉ์ผ๋ก ์ ๋ฐ์ดํธ
์์ ์ฐ์ฐ์ ํตํด ์ ์ ์ ํน์ฑ์ ์ ๋ฐ์ดํธํ๋ฉฐ, ์ด๋ ๋ฉ์ฌ์ ๋ณํ(deformation)์ ์ ์ฉํ๋ ๊ฒ๊ณผ ์ ์ฌํ ํจ๊ณผ๋ฅผ ๋ธ๋ค.
3. ํน์ฑ ๋ฒกํฐ
: ์ ์ ์ ์ฐ๊ฒฐ๋ ํน์ฑ ๋ฒกํฐ fp๋ 3D ์ ์ ์ขํ, 3D ํ์ ํน์ง ์ธ์ฝ๋ฉ, ์
๋ ฅ ์ปฌ๋ฌ ์ด๋ฏธ์ง์์ ํ์ต๋ ํน์ง(์กด์ฌํ ๊ฒฝ์ฐ)์ ๊ฒฐํฉ์ผ๋ก ๊ตฌ์ฑ๋๋ค.
=> ์ด๋ฌํ ํฉ์ฑ๊ณฑ์ ๋ฉ์ฌ์ ํ์์ ์ ์งํ๋ฉฐ, ๋ณต์กํ ๊ตฌ์กฐ์์๋ ํจ๊ณผ์ ์ผ๋ก ์๋ํ๋๋ก ์ค๊ณ๋์๋ค.
System Overview

<Fig 2> ์ด ๋ชจ๋ธ์ ์ธ ๊ฐ์ ๋ฉ์ฌ ๋ณํ ๋ธ๋ก(Mesh Deformation Network) ์ผ๋ก ๊ตฌ์ฑ๋์ด ์๋ค. ๊ฐ ๋ธ๋ก์ ์์ฐจ์ ์ผ๋ก ๋ฉ์ฌ ํด์๋๋ฅผ ๋์ด๊ณ ์ ์ (vertex) ์์น๋ฅผ ์ถ์ ํ๋ค.
1) ๋ณํ ๋ธ๋ก(Mesh Deformation) : ๊ฐ ๋ฉ์ฌ ๋ณํ ๋ธ๋ก์ ์ด์ ๋จ๊ณ์์ ์ถ์ ๋ ์ ์ ์์น๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ๋ฉ์ฌ์ ํด์๋๋ฅผ ๋์ธ๋ค.
2) ํน์ง ์ถ์ถ : ์ถ์ ๋ ์ ์ ์์น๋ฅผ ์ฌ์ฉํ์ฌ 2D CNN์ผ๋ก๋ถํฐ ์ด๋ฏธ์ง์ ์ง๊ฐ์ (perceptual) ํน์ง์ ์ถ์ถํ๋ค. ์ด ํน์ง์ ๋ค์ ๋ณํ ๋ธ๋ก์์ ๋ฉ์ฌ ๋ณํ์ ๋ ์ ๊ตํ๊ฒ ์ํํ๊ธฐ ์ํ ์
๋ ฅ์ผ๋ก ํ์ฉ๋๋ค.
=> ์ฆ, ๊ฐ ๋ธ๋ก์ ๋ฉ์ฌ์ ํด์๋๋ฅผ ๋์ด๊ณ , ์ด๋ฅผ ๊ธฐ๋ฐ์ผ๋ก 2D CNN ์์ ๋ ์ ํํ ํน์ง์ ์ถ์ถํด ๋ค์ ๋ณํ ๋ธ๋ก์ ์
๋ ฅ์ผ๋ก ์ฌ์ฉํ๋ ๊ตฌ์กฐ์ด๋ค. ์ด๋ฅผ ํตํด ๋ชจ๋ธ์ ์ ์ง์ ์ผ๋ก ๊ณ ํด์๋์ ์ ๊ตํ 3D ๋ฉ์ฌ๋ฅผ ์์ฑํ๋ค.
์ด ๋ ผ๋ฌธ์ ๋ชจ๋ธ์ ๋จ์ผ ์ปฌ๋ฌ ์ด๋ฏธ์ง๋ฅผ ์ ๋ ฅ์ผ๋ก ๋ฐ์ 3D ๋ฉ์ฌ ๋ชจ๋ธ์ ์์ฑํ๋ ์๋ํฌ์๋ ๋ฅ๋ฌ๋ ํ๋ ์์ํฌ์ด๋ค.
1. ๊ตฌ์ฑ
- ์ ์ฒด ๋คํธ์ํฌ๋ ์ด๋ฏธ์ง ํน์ง ๋คํธ์ํฌ์ ๊ณ์ธต์ ๋ฉ์ฌ ๋ณํ ๋คํธ์ํฌ๋ก ๊ตฌ์ฑ๋๋ค.
- ์ด๋ฏธ์ง ํน์ง ๋คํธ์ํฌ๋ 2D CNN์ผ๋ก, ์
๋ ฅ ์ด๋ฏธ์ง์์ ํน์ง์ ์ถ์ถํ๋ค. ์ด ํน์ง์ ๋ฉ์ฌ ๋ณํ ๋คํธ์ํฌ์์ ๋ฉ์ฌ๋ฅผ ์ํ๋ 3D ๋ชจ๋ธ๋ก ๋ณํํ๋ ๋ฐ ์ฌ์ฉ๋๋ค.
2. ๋ฉ์ฌ ๋ณํ ๋คํธ์ํฌ
- ๊ทธ๋ํ ๊ธฐ๋ฐ ํฉ์ฑ๊ณฑ ๋คํธ์ํฌ(GCN) ๋ก, ์ธ ๊ฐ์ ๋ณํ ๋ธ๋ก(Mesh Deformation) ๊ณผ ๋ ๊ฐ์ Graph unpooling ์ธต์ด ๊ต์ฐจ๋ก ๋ฐฐ์น๋์ด ์๋ค.
- Mesh Deformation์ ํ์ฌ์ ๋ฉ์ฌ ๋ชจ๋ธ์ ๋ํ๋ด๋ ๊ทธ๋ํ๋ฅผ ์
๋ ฅ์ผ๋ก ๋ฐ์ ์๋ก์ด ์ ์ ์์น์ ํน์ง์ ์์ฑํ๋ค.
- Graph unpooling ์ธต์ ์ธ๋ถ ํํ์ ์ํด ์ ์ ์๋ฅผ ๋๋ฆฌ๋ฉด์ ์ผ๊ฐํ ๋ฉ์ฌ ๊ตฌ์กฐ๋ฅผ ์ ์งํ๋ค.
3. ์๋ ๋ฐฉ์
- ๋ชจ๋ธ์ ์์์ ์ ์ ์์ ์์ํด, ์ ์ฐจ์ ์ผ๋ก ๋ฉ์ฌ๋ฅผ ๋ณํํ๊ณ ์ธ๋ถ์ฌํญ์ ์ถ๊ฐํ๋ ๋ฐฉ์์ผ๋ก ์๋ํ๋ค.
4. ์์ค ํจ์
- Chamfer Distance ์์ค ์ธ์ Surface normal ์์ค, Laplacian ์ ๊ทํ ์์ค, Edge length ์์ค์ ์ถ๊ฐํ์ฌ ์์ ์ ์ธ ๋ณํ๊ณผ ์ ํํ ๋ฉ์ฌ ์์ฑ์ ์ ๋ํ๋ค.
Initial ellipsoid
์ด ๋ชจ๋ธ์ ์ฌ์ 3D ๋ชจ์์ ๋ํ ์ง์ ์์ด ์ด๊ธฐ ํ์์ฒด(ellipsoid)๋ก๋ถํฐ ๋ณํ์ ์์ํ๋ค.
์ด๊ธฐ ํ์์ฒด์ ํน์ง์ ๋ค์๊ณผ ๊ฐ๋ค.
- ์นด๋ฉ๋ผ ์ขํ์์ ํ๊ท ํฌ๊ธฐ๋ก ์ค์ ๋ ํ์์ฒด๊ฐ ์ฌ์ฉ๋๋ฉฐ, ์นด๋ฉ๋ผ ์์ชฝ 0.8 ๋ฏธํฐ ์ง์ ์ ๋ฐฐ์น๋๋ค. ํ์์ฒด์ ์ธ ์ถ์ ๊ฐ๊ฐ 0.2m, 0.2m, 0.4m ์ ๋ฐ์ง๋ฆ์ ๊ฐ์ง๋ค.
- ์ด๊ธฐ ๋ฉ์ฌ ์์ฑ: Meshlab์ ์๋ฌต์ ํ๋ฉด ์๊ณ ๋ฆฌ์ฆ(Implicit surface algorithm) ์ ์ฌ์ฉํด ํ์์ฒด์ ๋ฉ์ฌ ๋ชจ๋ธ์ ์์ฑํ๋ฉฐ, ์ด ๋ชจ๋ธ์ 156๊ฐ์ ์ ์ (Vertices) ์ผ๋ก ๊ตฌ์ฑ๋๋ค.
์ด๊ธฐ ํ์์ฒด๋ ๋คํธ์ํฌ์ ์ ๋ ฅ ๊ทธ๋ํ๋ก ์ฌ์ฉ๋๋ฉฐ, ์ ์ ์ 3D ์ขํ๋ง์ ํฌํจํ ์ด๊ธฐ ํน์ง์ด ํ ๋น๋๋ค. ์ดํ, ์ด ํ์์ฒด๋ ๋คํธ์ํฌ์์ ์ ์ฐจ ๋ณํ๋์ด ์ํ๋ 3D ๋ชจ์์ผ๋ก ๋ง๋ค์ด์ง๋ค.
Mesh deformation block

<Fig 3>
(a) Mesh Deformation Block
1. ์ ์ ์์น Ci-1 : ํ์ฌ ๋ฉ์ฌ ๋ชจ๋ธ์ ์ ์ ์์น์ด๋ค. ์ด ์์น๋ ์ด๋ฏธ์ง ํน์ง์ ์ถ์ถํ๊ธฐ ์ํด ์ฌ์ฉ๋๋ค.
2. Perceptual Feature Pooling :
- ์ ์ ์์น Ci-1 ๋ฅผ ์ฌ์ฉํด, ์นด๋ฉ๋ผ ๋ด๋ถ ํ๋ผ๋ฏธํฐ๋ก 2D ์ด๋ฏธ์ง ํ๋ฉด์ ํฌ์ํ๋ค.
- VGG-16 ๋คํธ์ํฌ์ conv3_3, conv4_3, conv5_3 ๋ ์ด์ด์์ ํน์ง์ ์ถ์ถํ๊ณ , ์ด ํน์ง๋ค์ ์์ ํ ๋ณด๊ฐ๋ฒ(bilinear interpolation)์ ํตํด ํ๋ง
* Bilinear interpolation ์ด๋?
2D ๊ณต๊ฐ์์ ๊ฐ์ ์์ธกํ๊ธฐ ์ํด ์ฃผ๋ณ์ ๋ค ๊ฐ์ ์ธ์ ํ ์ ์ ์ฌ์ฉํ์ฌ, ๊ฐ์คํฉ์ผ๋ก ์๋ก์ด ๊ฐ์ ๊ณ์ฐํ๋ ๋ณด๊ฐ๋ฒ์ด๋ค. ์ด๋ฆ์์ ์ ์ ์๋ฏ์ด, ๋๋ฒ์ ์ ํ ๋ณด๊ฐ(linear interpolation)์ ๊ฑฐ์ณ ๊ฐ์ ๊ณ์ฐํ๋ค. ์ด๋ ํนํ ์ด๋ฏธ์ง ์ฒ๋ฆฌ์์, ํฝ์ ๊ฐ์ ํ๋ํ๊ฑฐ๋ ์ค์ผ ๋ ์์ฃผ ์ฌ์ฉ๋๋ค.
์ฌ์ฉํ๋ ์ด์
- ์ ์ (Vertex)์ ์์น๊ฐ ์ด๋ฏธ์ง ์์์ ์ ํํ ํฝ์ ์ ์ค์์ ์์นํ์ง ์์ ์ ์๋ค. ์ด ๊ฒฝ์ฐ, ํด๋น ์์น์ ํน์ง ๊ฐ์ ์ถ์ถํ๊ธฐ ์ํด ์ฃผ๋ณ ๋ค ๊ฐ์ ํฝ์ ๊ฐ์ ์ฌ์ฉํ๋ค.
- ์์ ํ ๋ณด๊ฐ๋ฒ์ ์ด ๋ค ํฝ์ ๊ฐ์ ๊ฐ์คํฉ์ ๊ณ์ฐํด, ์ ํํ ์์น์์์ ํน์ง ๊ฐ์ ์ป๋ ๋ฐฉ๋ฒ์ด๋ค.
3. Vertex Features Fi-1 :
- ์ด์ ๋ธ๋ก์์ ์ ๋ฌ๋ 3D ์ ์ ํน์ง์ด๋ค.
- ํ๋ง๋ perceptual feature ์ ํจ๊ป ์ฐ๊ฒฐ(concaternate, ๊ทธ๋ฆผ์์ +์ ๋๊ทธ๋ผ๋ฏธ ๋์ด์๋ ๊ธฐํธ) ๋์ด G-ResNet์ ์
๋ ฅ์ผ๋ก ์ฌ์ฉ๋๋ค.
4. G-ResNet :
- Graph-based ResNet ๊ตฌ์กฐ๋ก, 14๊ฐ์ ๊ทธ๋ํ ์์ฐจ(Residual) ์ปจ๋ณผ๋ฃจ์
๋ ์ด์ด๋ก ์ด๋ฃจ์ด์ ธ ์๋ค.
- ์
๋ ฅ ํน์ง์ ๊ธฐ๋ฐ์ผ๋ก ์๋ก์ด ์ ์ ์์น Ci ์ ์๋ก์ด ์ ์ ํน์ง Fi๋ฅผ ์์ฑํ๋ค.
(b) Perceptual Feature Pooling
- 3D ๋ฉ์ฌ์ ์ ์ ๋ค์ด ์นด๋ฉ๋ผ ๋ด๋ถ ํ๋ผ๋ฏธํฐ๋ฅผ ์ฌ์ฉํด 2D ์ด๋ฏธ์ง ํ๋ฉด์ ํฌ์๋๋ค.
- VGG-16์ conv3_3, conv4_3, conv5_3์์ ์ถ์ถ๋ ์ด๋ฏธ์ง๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ์ฃผ๋ณ ํฝ์ ์ ํน์ง์ ์์ ํ ๋ณด๊ฐ๋ฒ์ผ๋ก ํ๋งํ๋ค.
- ํ๋ง๋ perceptual feature ๋ ์ ์ ์ 3D ํน์ง๊ณผ ๊ฒฐํฉ๋์ด G-ResNet์ ์ ๋ ฅ๋๋ค.
์ ์ด์ , Fig3์ ๋ํด์ ์ดํด ๋ณด์์ผ๋ ์ฃผ์ ๋จ๊ณ๋ฅผ ์ดํด๋ณด๋๋ก ํ์.
1. ์ด๋ฏธ์ง ํน์ง ์ถ์ถ ๋ฐ ํ๋ง :
- ์
๋ ฅ ์ด๋ฏธ์ง์์ ํน์ง์ ์ถ์ถํ๊ธฐ VGG-16 ๋คํธ์ํฌ(conv5_3 ๋ ์ด์ด๊น์ง ์ฌ์ฉ)๋ฅผ ํ์ฉํ๋ค.
- ์ ์ (vertex)์ 3D ์ขํ๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ์ด๋ฅผ ์นด๋ฉ๋ผ ๋ด๋ถ ํ๋ผ๋ฏธํฐ๋ฅผ ์ด์ฉํด 2D ์ด๋ฏธ์ง ํ๋ฉด์ผ๋ก ํฌ์ํ๋ค.
- ํฌ์๋ ์ขํ๋ฅผ ์ค์ฌ์ผ๋ก ์ฃผ๋ณ 4๊ฐ์ ํฝ์
๋ก๋ถํฐ ์์ ํ ๋ณด๊ฐ๋ฒ(bilinear interpolation) ์ ํตํด ์ด๋ฏธ์ง๋ฅผ ํ๋งํ๋ค.
- ์ด ํ๋ง ๋จ๊ณ์์๋ conv3_3, conv4_3, conv5_3 ๋ ์ด์ด์์ ์ถ์ถ๋ ํน์ง์ ์ฐ๊ฒฐ(concatenate)ํ๋ฉฐ, ์ด 1280์ฐจ์์ ์ด๋ฏธ์ง ํน์ง์ด ์์ฑ๋๋ค.
2. ์ ์ ํน์ง ๊ฒฐํฉ :
- ํ๋ง๋ ์ด๋ฏธ์ง ํน์ง์ ์
๋ ฅ ๋ฉ์ฌ์ 3D ํน์ง(128์ฐจ์)๊ณผ ์ฐ๊ฒฐ๋์ด, ์ด 1408์ฐจ์์ ํน์ง ๋ฒกํฐ๊ฐ ์์ฑ๋๋ค.
- ์ฒซ ๋ฒ์งธ ๋ธ๋ก์์๋ ์ด๊ธฐ ํ์ต๋ 3D ํน์ง์ด ์๊ธฐ ๋๋ฌธ์, 3D ์ขํ๋ง ์ฐ๊ฒฐํ์ฌ ์ฌ์ฉํ๋ค. (3์ฐจ์)
3. G-ResNet (Graph-based ResNet) :
- 1408์ฐจ์ ํน์ง ๋ฒกํฐ๋ G-ResNet์ผ๋ก ์ ๋ฌ๋๋ค. G-ResNet์ ๊น์ ๊ทธ๋ํ ๊ธฐ๋ฐ ์์ฐจ ์ ๊ฒฝ๋ง์ผ๋ก, ๊ฐ ์ ์ ์ ์๋ก์ด ์์น์ 3D ํน์ง์ ์์ธกํ๋ค.
- G-ResNet ์ 14๊ฐ์ ๊ทธ๋ํ ์์ฐจ ์ปจ๋ณผ๋ฃจ์
๋ ์ด์ด๋ก ๊ตฌ์ฑ๋์ด ์์ผ๋ฉฐ, ๊ฐ ๋ ์ด์ด๋ 128 ์ฑ๋์ ๊ฐ์ง๋ค.
- ์ด ๋คํธ์ํฌ๋ ์ ์ ๊ฐ์ ์ ๋ณด ๊ตํ์ ํจ์จ์ ์ผ๋ก ์ํํ๋๋ก ์ค๊ณ๋์๋ค. ๊ธฐ๋ณธ์ ์ธ ๊ทธ๋ํ ์ปจ๋ณผ๋ฃจ์
์ ์ด์ ์ ์ ๊ฐ์ ์ ๋ณด ๊ตํ๋ง ๊ฐ๋ฅํ๊ธฐ ๋๋ฌธ์, ๋คํธ์ํฌ์ ๊น์ด๋ฅผ ๊น๊ฒ ํ๊ณ shortcut connections์ ์ถ๊ฐํ์ฌ ์์ฉ ์์ญ ๋ฌธ์ (receptive field issue) ๋ฅผ ํด๊ฒฐํ๋ค.
- ๋ง์ง๋ง ๋ ์ด์ด์์๋ ์ถ๊ฐ ๊ทธ๋ํ ์ปจ๋ณผ๋ฃจ์
๋ ์ด์ด๋ฅผ ์ ์ฉํ์ฌ ๊ฐ ์ ์ ์ ์๋ก์ด 3D ์ขํ๋ฅผ ์ถ๋ ฅํ๋ค.
* ์์ฉ ์์ญ์ด๋ ?
๋คํธ์ํฌ๊ฐ ํ ์ ์ ์์ ์ ๋ณด๋ฅผ ์ป์ ์ ์๋ ๋ค๋ฅธ ์ ์ ๋ค์ ์๋ฅผ ๋ปํ๋ค.
๊ธฐ๋ณธ์ ์ธ ๊ทธ๋ํ ์ปจ๋ณผ๋ฃจ์ ์์๋ ๊ฐ ์ ์ ์ด ์ง์ ์ ์ผ๋ก ์ด์ํ ์ ์ ๋ค๊ณผ๋ง ์ ๋ณด๋ฅผ ๊ตํํ ์ ์๋ค. ์ด๋ก ์ธํด ๋คํธ์ํฌ์ ๊น์ด๊ฐ ์ฆ๊ฐํจ์ ๋ฐ๋ผ ์ ๋ณด์ ์ ํ ๋ฒ์๊ฐ ๋์ด๋์ง ์๊ฑฐ๋, ๋๋ฌด ๋ง์ ์ธต์ ์์ผ๋ฉด ๊ทธ๋ก ์ธํ ์ ๋ณด ์์ค์ด ๋ฐ์ํ ์ ์๋ค. ์ด๋ ์์ฉ ์์ญ์ ๋ฌธ์ ๋ก, ๊น์ด๊ฐ ๊น์ด์ง๊ฑฐ๋ ๋ณต์กํด์ง์๋ก ๊ฐ ์ ์ ์ด ์ฐธ์กฐํ ์ ์๋ ์ ๋ณด ๋ฒ์๊ฐ ํ์ ๋์ด, ๋ ๋์ ๋ฒ์์ ์ ๋ณด๋ฅผ ํจ์จ์ ์ผ๋ก ์ฒ๋ฆฌํ๊ธฐ ์ด๋ ค์์ง๋ ๋ฌธ์ ์ด๋ค.
์ด ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด shortcut connections๋ ๋คํธ์ํฌ์ ๊น์ด๋ฅผ ์ฆ๊ฐ์์ผ ์์ฉ ์์ญ์ ํ์ฅํ๋ ค๋ ์ ๊ทผ์ด ํ์ํ๋ค. ์ด๋ ๊ฒ ํ๋ฉด ๋ ๋ฉ๋ฆฌ ๋จ์ด์ง ์ ์ ๋ค์ ์ ๋ณด๋ฅผ ๋น ๋ฅด๊ฒ ๊ตํํ ์ ์์ด ๋คํธ์ํฌ์ ํ์ต ์ฑ๋ฅ์ด ํฅ์๋๋ค.
์ฌ๊ธฐ์ ๊ถ๊ธํ์ : ๋คํธ์ํฌ์ ๊น์ด๊ฐ ์ฆ๊ฐํ๋ฉด ์ ๋ณด์ ๋ฒ์๊ฐ ๋์ด๋์ง ๋ชปํ๋ค๋ ๋ง์ ์ด๋ป๊ฒ ํด์ํ ์ ์์๊น?
=> ๊ธฐ๋ณธ์ ์ผ๋ก, ๊ทธ๋ํ ์ปจ๋ณผ๋ฃจ์ ๋คํธ์ํฌ์์๋ ๊ฐ ๋ ์ด์ด๊ฐ ์ธ์ ํ ์ ์ ๋ค๊ณผ๋ง ์ ๋ณด๋ฅผ ๊ตํํ๋ฏ๋ก, ๋คํธ์ํฌ์ ๊น์ด๊ฐ ๋์ด๊ฐ๋ฉด ์ ๋ณด๊ฐ ์ ํ๋๋ ๋ฒ์๋ ๋์ด๋๊ธดํ๋ค, ํ์ง๋ง ๋ฌธ์ ๋ ๊น์ด๊ฐ ๊น์ด์ง์๋ก ์ ๋ณด๊ฐ ์ ์ฐจ ์์ค๋๊ฑฐ๋ ์๊ณก๋ ์ ์๋ค๋ ์ ์ด๋ค. ์ด๋ ๋คํธ์ํฌ์ ์ฌ๋ฌ ์ธต์ ํต๊ณผํ๋ฉด์ ์ ๋ณด๊ฐ ์ ์ฐจ ํฌ์๋๊ฑฐ๋, ๋ฉ๋ฆฌ ์๋ ์ ์ ๋ค๊ณผ์ ๊ด๊ณ๋ฅผ ์ ํ์ ํ์ง ๋ชปํ๊ฒ ๋๋ ํ์์ด๋ค.
Shortcut connections(๋๋ skip connections)๋ฅผ ์ถ๊ฐํ๋ ์ด์ ๋ ์ด ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด์์ด๋ค. ๋คํธ์ํฌ์ ๊น์ด๊ฐ ๊น์ด์ง์๋ก ๊ฐ ์ธต์ ๊ฑด๋๋ฐ์ด ์ ๋ณด๋ฅผ ์ ๋ฌํ๋ ๊ฒฝ๋ก๋ฅผ ์ถ๊ฐํจ์ผ๋ก์จ, ๊น์ด๊ฐ ์ฆ๊ฐํ๋๋ผ๋ ์ ๋ณด๊ฐ ์ฌ๋ผ์ง์ง ์๋๋ก ๋์์ค๋ค. ์ฆ, shortcut connections๋ ์ ๋ณด๋ฅผ ๋ ์ ๋ณด์กดํ๊ณ , ๋คํธ์ํฌ์ ๊น์ด๋ฅผ ๋๋ฆฌ๋ฉด์๋ ์ ๋ณด๊ฐ ์๊ณก๋์ง ์๋๋ก ํ๋ค.
Graph unpooling layer

<Fig 4>
(a) Graph Unpooling
- ๊ฒ์์ ์ ์ ๊ณผ ์ ์ ์ฃ์ง๋ unpooling ๊ณผ์ ์์ ์๋ก ์ถ๊ฐ๋ ์ ์ ๊ณผ ์ฃ์ง๋ฅผ ๋ํ๋ธ๋ค.
- Face-based ๋ฐฉ๋ฒ : ์ผ๊ฐํ(face)์ ์ค์ฌ์ ์๋ก์ด ์ ์ ์ ์ถ๊ฐํ๊ณ , ์ด ์ ์ ์ ๊ธฐ์กด ์ผ๊ฐํ์ ์ธ ์ ์ ๊ณผ ์ฐ๊ฒฐํ๋ค. ํ์ง๋ง ์ด ๋ฐฉ์์ ์ ์ ์ ์ฐจ์(degree)๊ฐ ๋ถ๊ท ํํด์ง๋ ๋ฌธ์ ๋ฅผ ์ผ๊ธฐํ ์ ์๋ค.
- Edge-based ๋ฐฉ๋ฒ : ์ฃ์ง์ ์ค์์ ์๋ก์ด ์ ์ ์ ์ถ๊ฐํ๊ณ , ์ด ์ ์ ์ ์ฃ์ง์ ์ ๋ ์ ์ ๋ค๊ณผ ์ฐ๊ฒฐํ๋ค. ์ถ๊ฐ์ ์ผ๋ก, ๊ฐ์ ์ผ๊ฐํ ๋ด์์ ์ถ๊ฐ๋ ์ธ ์ ์ ์ ์๋ก ์ฐ๊ฒฐ๋์ด ์๋ก์ด ์ผ๊ฐํ์ด ๋ง๋ค์ด์ง๋ค. ์ด ๋ฐฉ์์ ์ ์ ์ ์ฐจ์๊ฐ ๋ ๊ท ์ผํ๊ฒ ์ ์ง๋๋๋ก ๋์์ค๋ค.
(b) Comparison between Face-based and Edge-based Unpooling
- inital Mesh : Unpooling ์ด ์ ์ฉ๋๊ธฐ ์ ์ ์ด๊ธฐ ๋ฉ์ ๊ตฌ์กฐ์ด๋ค. ์๋์ ์ผ๋ก ์ ์ ์์ ์ ์ ๊ณผ ์ผ๊ฐํ์ผ๋ก ๊ตฌ์ฑ๋์ด ์๋ค.
- Face-based ๋ฐฉ๋ฒ : ์ ์ ์ ์ฐจ์๊ฐ ๋ถ๊ท ํํด์ ธ ๋ถ๊ท์น์ ์ธ ๊ตฌ์กฐ๊ฐ ๋ํ๋๋ค.
- Edge-based ๋ฐฉ๋ฒ : ์ ์ ์ ์ฐจ์๊ฐ ๊ท ๋ฑํ๊ฒ ์ ์ง๋๋ฉฐ, ๋ ๊ท ์ผํ๊ณ ๊ท์น์ ์ธ ๊ตฌ์กฐ๋ฅผ ํ์ฑํ๋ค.
Unpooling layer ๋ ์ ์ ์๋ฅผ ํจ์จ์ ์ผ๋ก ์ฆ๊ฐ์ํค๋ ๋ฐฉ๋ฒ์ผ๋ก, ์ฒ์์ ์ ์ ์์ ์ ์ ์ผ๋ก ์์ํ๊ณ ํ์์ ๋ฐ๋ผ ์ ์ ์ ์ถ๊ฐํ๋ ๋ฐฉ์์ด๋ค. ๊ธฐ์กด์ face-based ์ ๊ทผ์ ๋ถ๊ท ํํ ์ ์ ์ฐจ์๋ฅผ ์ ๋ฐํ๋ ๋ฐ๋ฉด, ์ฃ์ง ๊ธฐ๋ฐ ์ ๊ทผ์ ๊ท ํ ์กํ ๋ฐฉ์์ผ๋ก ์ ์ ์ ์ถ๊ฐํ์ฌ ๋ ์ข์ ์ฑ๋ฅ์ ๋ธ๋ค. ์ด ๋ฐฉ์์ ์ปดํจํฐ ๊ทธ๋ํฝ์ค์์์ ๋ฉ์ ๋ถํ ์๊ณ ๋ฆฌ์ฆ์ ์ฐจ์ฉํ์ฌ, ๊ฐ ์ฃ์ง์ ์ค์์ ์๋ก์ด ์ ์ ์ ์ถ๊ฐํ๊ณ ์ด๋ฅผ ๊ธฐ์กด ์ ์ ๋ค๊ณผ ์ฐ๊ฒฐํ์ฌ ์ ์ ์ ์๋ฅผ ์ฆ๊ฐ์ํค๊ณ , ๋ฉ๋ชจ๋ฆฌ ํจ์จ์ฑ๊ณผ ์ฑ๋ฅ ๊ฐ์ ์ ๋์์ ์ถ๊ตฌํ๋ค.
Losses
๋ฉ์ ๋ณํ(Mesh deformation) ๊ณผ์ ์์ ์ถ๋ ฅ ํํ(output shape)์ ํน์ฑ๊ณผ ๋ณํ ์ ์ฐจ๋ฅผ ์ ์ฝํ๊ธฐ ์ํด ๋ค ๊ฐ์ง ์์ค ํจ์๋ฅผ ์ ์ํ๋ค. => ์์๊ณ ์์ฐ์ค๋ฌ์ด ๊ฒฐ๊ณผ๋ฅผ ๋ณด์ฅํ๊ธฐ ์ํด ๋ค์๊ณผ ๊ฐ์ ์์ค์ ์ ์ฉํ๋ค.
1. Chamfer loss

- Chamfer ๊ฑฐ๋ฆฌ๋ ๋ ์ ์งํฉ(์์ธก๋ ๋ฉ์์ ์ค์ ๋ฉ์)์ ๋ชจ๋ ์ ๋ค ๊ฐ์ ๊ฑฐ๋ฆฌ๋ฅผ ์ธก์ ํ๋ ์์ค ํจ์์ด๋ค.
- ์ด ์์์ ๋ค์ ๋ ๊ฐ์ง ๋ถ๋ถ์ผ๋ก ๊ตฌ์ฑ๋๋ค.
1. ์์ธก๋ ๋ฉ์์ ์ ์ p ์์ ์ค์ ๋ฉ์์ ๊ฐ์ฅ ๊ฐ๊น์ด ์ ์ q ๊น์ง์ ๊ฑฐ๋ฆฌ
2. ์ค์ ๋ฉ์์ ์ ์ q์์ ์์ธก๋ ๋ฉ์์ ๊ฐ์ฅ ๊ฐ๊น์ด ์ ์ p ๊น์ง์ ๊ฑฐ๋ฆฌ
- ์ด ์์ค์ ์์ธก๋ ๋ฉ์์ ์ ์ ๋ค์ด ์ค์ ๋ฉ์์ ์ ์ ๋ค๊ณผ ๊ฐ๊น์์ง๋๋ก ์ ๋ํ๋ค.
=> ๋ฌธ์ ์ : Chamfer ์์ค์ ์ ์ ์์น๋ฅผ ์ ํํ๊ฒ ์์ธกํ๋ ๋ฐ๋ ์ ์ฉํ์ง๋ง, ํ๋ฉด์ ๋ถ๋๋ฌ์์ด๋ ๊ณ ์ฐจ์์ ์ธ ํน์ฑ์ ์ ๋ฐ์ํ์ง ๋ชปํ ์ ์๋ค. ์๋ฅผ ๋ค์ด, ๋ฉ์์ ์ธ๋ฐํ ๊ณก๋ฅ (curvature) ์ ๋ณด๋ ํ๋ฉด ์ผ๊ด์ฑ์ ๋ฐ์ํ์ง ๋ชปํ๊ธฐ ๋๋ฌธ์, ๋จ์ํ ์ ์ ์ด ๊ทผ์ฒ์ ์๋ ๊ฒ ๋ง์ผ๋ก๋ ๊ณ ํ์ง์ 3D ๋ฉ์๋ฅผ ์์ฑํ๊ธฐ ์ด๋ ต๋ค.
2. Normal loss


q : Chamfer ์์ค ๊ณ์ฐ ์, p ์ ๊ฐ์ฅ ๊ฐ๊น์ด ์ค์ ๋ฉ์์ ์ ์ q ์ด๋ค.
k : p ์ ์ด์์ธ ์ด์ ํฝ์
์ ์๋ฏธํ๋ค.
nq : ground truth ์์์ ๊ด์ธก๋ ํ๋ฉด ๋ฒ์ ์ด๋ค.
Normal loss์ ๋ชฉ์
- ์ด ์์ค ํจ์๋ ๋ฒ์ ๋ฐฉํฅ์ ๊ธฐ์ค์ผ๋ก ์ต์ ํ๋ฅผ ์งํํ๋ฉฐ, ํนํ ์ ์ p ์ ์ด์ ์ ์ ๊ณผ์ ๊ฐ๊ฒฉ๊ณผ ๋ฒ์ ๋ฐฉํฅ์ ์ผ๊ด์ฑ์ ๋ง์ถ๋ ค๊ณ ํ๋ค.
- ๊ตฌ์ฒด์ ์ผ๋ก๋ p ์ k ์ฌ์ด์ ๋ฒกํฐ๊ฐ ground truth ์์ ์ฃผ์ด์ง ๋ฒ์ (nq) ๊ณผ ์์ง์ด ๋๋๋ก ์ต์ ํํ๋ ค๊ณ ํ๋ค.
- "์์ง" ์ด๋ผ๋ ๋ง์, p ์ k ๊ฐ์ ๋ฒกํฐ๊ฐ ground truth์ ํ๋ฉด ๋ฒ์ ๋ฒกํฐ์ ๋ด์ ๊ฐ์ด 0์ ๊ฐ๊น์์ง๋๋ก ํ๋ค๋ ๋ง์ด๋ค.
- ์ต์ ํ ๊ณผ์ ์์๋ ํ๋ฉด์ ์ ์ ํ๋ฉด์ ์ ๋ง์ถ๋ ๋ฐฉํฅ์ผ๋ก ํ์ต์ด ์ด๋ฃจ์ด์ง๋ฉฐ, ์ด ์์ค์ ๋ฏธ๋ถ ๊ฐ๋ฅํ์ฌ ํ์ต ๊ณผ์ ์์ ์ ์ฉํ๊ฒ ์ฌ์ฉ๋๋ค.
๐ก Back propagation
โ์ด ์์ค์ ๋ฏธ๋ถ ๊ฐ๋ฅํ์ฌ ํ์ต ๊ณผ์ ์์ ์ ์ฉํ๊ฒ ์ฌ์ฉ๋ฉ๋๋คโ๋ผ๋ ํํ์ ๋ฐฑํ๋กํ๊ฒ์ด์ (Backpropagation)๊ณผ ๊ด๋ จ ์๋ค.
-> Back propagation ์ ์ ๊ฒฝ๋ง์์ ์ค์ฐจ ์ญ์ ํ ๋ฐฉ๋ฒ์ ์ฌ์ฉํ์ฌ ๊ฐ์ค์น๋ฅผ ์ ๋ฐ์ดํธํ๋ ์๊ณ ๋ฆฌ์ฆ์ด๋ค. ์ด ๊ณผ์ ์์ ์์ค ํจ์์ ๋ฏธ๋ถ๊ฐ์ ๊ณ์ฐํ์ฌ ๊ฐ์ค์น๊ฐ ์ต์ ํ๋ ์ ์๋๋ก ๋๋๋ค.
-> ๋ฏธ๋ถ ๊ฐ๋ฅํ๋ค๋ ๊ฒ์ ์์ค ํจ์๊ฐ ์ฐ์์ ์ด๊ณ ๊ธฐ์ธ๊ธฐ๋ฅผ ๊ณ์ฐํ ์ ์๋ ํจ์๋ผ๋ ๋ป์ด๊ณ , ์์ค ํจ์์ ๋ฏธ๋ถ๊ฐ์ ๋คํธ์ํฌ์ ๊ฐ์ค์น(ํน์ ํ๋ผ๋ฏธํฐ)๊ฐ ์ด๋ป๊ฒ ๋ณ๊ฒฝ๋์ด์ผ ํ๋์ง๋ฅผ ์๋ ค์ฃผ๋ ์ค์ํ ์ ๋ณด์ด๋ค.
-> ๋ง์ฝ ์์คํจ์๊ฐ ๋ฏธ๋ถ ๊ฐ๋ฅํ์ง ์๋ค๋ฉด, ๊ธฐ์ธ๊ธฐ๋ฅผ ๊ณ์ฐํ ์ ์์ด ๋ฐฑํ๋กํ๊ฒ์ด์ ์ ์ฌ์ฉํ ์ ์๊ฒ ๋๋ค. ๋ฐ๋ผ์ ๋ชจ๋ธ์ ํ์ต์ด ์ด๋ ค์์ง๊ฑฐ๋ ๋ถ๊ฐ๋ฅํ ์ ์๋ค.
3. Regularization
๋ฌธ์ : Local Minimum
- Chamfer loss ์ Normal loss ๋ฅผ ์ฌ์ฉํด๋, 3D ๋ฉ์ฌ ๋ชจ๋ธ์ด ๊ตญ์ ์ต์๊ฐ์ ๊ฐํ์ ์ต์ ํ๊ฐ ์ ๋๋ก ์ด๋ฃจ์ด์ง์ง ์์ ์ ์๋ค.
ํนํ, ์ด๊ธฐ ์ถ์ ์ด ์ค์ ๊ฐ์์ ๋ฉ๋ฆฌ ๋จ์ด์ ธ์์๋(์ฆ, ๋คํธ์ํฌ๊ฐ ์๋ชป๋ ๊ฒฐ๊ณผ๋ฅผ ์ถ๋ ฅํ ๋) ๊ณผ๋ํ ๋ณํ(deformation) ์ด ๋ฐ์ํ ์ ์์ผ๋ฉฐ, ์ด๋ vertex ๊ฐ ๋น์ ์์ ์ผ๋ก ์ด๋(flying vertices) ํ๋ ๋ฌธ์ ๋ฅผ ์ด๋ํ ์ ์๋ค.
Laplacian Regularization
- Laplacian regularization์ ์ ์ (vertex) ๋ค์ด ๋๋ฌด ์์ ๋กญ๊ฒ ์ด๋ํ๋ ๊ฒ์ ๋ฐฉ์งํ๋ ๊ธฐ๋ฒ์ด๋ค. ์ด๋ ๊ฒ ํ๋ฉด ๋ฉ์ฌ ๋ชจ๋ธ์ด ์๊ธฐ ๊ต์ฐจ(self-intersection)๋ฅผ ์ผ์ผํค๋ ๋ฌธ์ ๋ฅผ ์๋ฐฉํ ์ ์๋ค.
- ์ด ์ ๊ทํ ๊ธฐ๋ฒ์ ์ด์ ์ ์ (neighboring vertices) ๋ค์ด ๋์ผํ ๋ฐฉ์์ผ๋ก ์์ง์ด๋๋ก ์ ๋ํ์ฌ ์ธ๋ถ์ฌํญ์ ๋ณด์กดํ๋ ์ญํ ์ ํ๋ค.
- ์ฒ์์๋ (์ฒซ ๋ฒ์งธ ๋ณํ ๋ธ๋ก์์) ํ๋ฉด์ด ํํํ ํ์์ฒด๋ก ์ ๋ ฅ๋๋ฏ๋ก ํ๋ฉด์ ๋งค๋๋ฌ์์ ์ ์งํ๋ ์ญํ ์ ํ๋ฉฐ, ์ดํ ๋ธ๋ก์์๋ ๋๋ฌด ๊ณผ๋ํ ๋ณํ์ ๋ฐฉ์งํ๋ฉฐ ๋ฏธ์ธํ ์ธ๋ถ์ฌํญ๋ง ์ถ๊ฐํ๋๋ก ๋๋๋ค.
- Laplacian ์ขํ๋ ๊ฐ ์ ์ p์ ๋ํด ์ ์๋๋ฉฐ, ์ด ์ขํ๋ ์ด์ ์ ์ ๋ค ๊ฐ์ ํ๊ท ์์น์ ๋น๊ตํ์ฌ ๋ณํ ์ ํ์ ์ฐจ์ด๋ฅผ ์ธก์ ํ๋ค.

- Laplacian ์ ๊ทํ ์์ค์ ๋ค์๊ณผ ๊ฐ์ด ์ ์๋๋ค. ์ฌ๊ธฐ์ ํ๋ผ์๊ฐ๊ณผ ๊ทธ๋ฅ ๊ฐ์ ๋ณํ ์ ๊ณผ ํ์ Laplacian ์ขํ์ด๋ค.

Edge Length Regularization
- Flying vertices ๋ฌธ์ ๋ ๋ณดํต ๊ธด ๊ฐ์ (long edge) ์ ์ ๋ฐํ๋๋ฐ, ์ด ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด edge length regularization ์ ๋์ ํ๋ค.
- ์ด ์์ค์ ์ด์ ์ ์ ๋ค ๊ฐ์ ๊ฐ๊ฒฉ์ด ์ง๋์น๊ฒ ์ปค์ง๋ ๊ฒ์ ๋ฐฉ์งํ์ฌ ๋ฉ์ฌ ๋ชจ๋ธ์ด ๊ณผ๋ํ๊ฒ ๋ณํ๋์ง ์๋๋ก ํ๋ค. ๊ฐ์ ๊ธธ์ด์ ๋ํ ์ ๊ทํ ์์ค์ ๋ค์๊ณผ ๊ฐ์ด ์ ์๋๋ค.

์ต์ข ์์ค ํจ์(Overall Loss)
- ์ต์ข ์์ค ํจ์๋ ์ฌ๋ฌ ์์ค ํจ์๋ค์ ๊ฐ์คํฉ(weighted sum) ์ผ๋ก ๊ตฌ์ฑ๋๋ค. ๊ฐ ์์ค ํญ๋ชฉ์๋ ๊ฐ์ค์น๊ฐ ํ ๋น๋์ด ์์ผ๋ฉฐ, ์ด๋ฅผ ํตํด ๋คํธ์ํฌ๊ฐ ํ์ต ๊ณผ์ ์์ ๊ฐ ์์ค ํญ๋ชฉ์ ์ค์๋๋ฅผ ์กฐ์ ํ ์ ์๋ค.
- ์ด์ ๊ฐ์ด ์ฌ๋ฌ ์ ๊ทํ ๊ธฐ๋ฒ์ ํจ๊ป ์ฌ์ฉํ์ฌ, ์์ ์ ์ด๊ณ ์์ฐ์ค๋ฌ์ด 3D ๋ฉ์ฌ ๋ณํ์ ์ ๋ํ ์ ์๋ค.


Experiment
Data.
๋ฐ์ดํฐ ์ถ์ฒ : ์ด์ ๋ ผ๋ฌธ Choy et al. ์์ ์ ๊ณตํ ShapeNet (3D CAD ๋ชจ๋ธ๋ค์ ๋๊ท๋ชจ ๋ฐ์ดํฐ์ ) ๋ฐ์ดํฐ์ ์ด์ฉ
๋ฐ์ดํฐ ๊ตฌ์ฑ : 50,000๊ฐ์ 3D CAD ๋ชจ๋ธ, 13๊ฐ์ ๊ฐ์ฒด ์นดํ ๊ณ ๋ฆฌ๊ฐ ์์(์: car, chair, airplane)
๋ ๋๋ง ์ด๋ฏธ์ง : ๊ฐ 3D CAD ๋ชจ๋ธ์ ๋ค์ํ ์นด๋ฉ๋ผ ๊ด์ (viewpoint) ์์ 2D ์ด๋ฏธ์ง๋ก ๋ ๋๋ง
Evaluation Metric.
1. F-Score :
- ์ ๋ฐ๋(precision)์ ์ฌํ์จ(Recall)์ ์กฐํ ํ๊ท (harmonic mean)
- ๊ณ์ฐ ๊ณผ์
- ๊ฒฐ๊ณผ(์์ธก๊ฐ)์ ์ค์ ๊ฐ(ground truth)์์ ์ (point)์ ์ํ๋ง
- ๊ฐ ์ํ๋ง๋ ์ ์ ๋ํด ์๋๋ฐฉ(ground truth ๋๋ ์์ธก)์ Nearest Neighbor ์ ์ฐพ๋๋ค.
- ํน์ ์๊ณ๊ฐ tau ๋ด์ ์๋๋ฐฉ์ ์ ์ด ์๋ค๋ฉด ๋งค์นญ ์ฑ๊ณต์ผ๋ก ๊ฐ์ฃผํ๋ค.
- Precision : ์์ธก ๋ ์ ๋ค ์ค ์ผ๋ง๋ ๋ง์ ์ ์ด ์ค์ ๊ฐ์ ์ ๊ณผ ๋งค์นญ๋์๋์ง๋ฅผ ๋ํ๋ธ๋ค.
- Recall : ์ค์ ๊ฐ์ ์ ๋ค ์ค ์ผ๋ง๋ ๋ง์ ์ ์ด ์์ธก๋ ์ ๊ณผ ๋งค์นญ๋์๋์ง๋ฅผ ๋ํ๋ธ๋ค.
- ๊ฐ์ด ํด์๋ก ์ข์
2. Chamfer Distance (CD):
- ๋ ์ ์งํฉ(์์ธก๊ณผ ์ค์ ) ๊ฐ์ ํ๊ท ์ ๊ฑฐ๋ฆฌ
- ๋ ์ ์งํฉ ๊ฐ์ ์ ๋ฐ์ ์ธ ์ ์ฌ์ฑ ํ๊ฐ
- ๊ฐ์ด ์์์๋ก ์ข์
3. Earth Mover's Distance (EMD):
- ๋ ์ ์งํฉ ๊ฐ์ ์ ๋ฐ์ ์ธ ์ ์ฌ์ฑ ํ๊ฐ
- ๊ฐ์ด ์์์๋ก ์ข์
๊ธฐ์กด ์งํ์ ํ๊ณ : ๊ธฐ์กด ์งํ๋ค์ ์ ๊ฐ ๊ฑฐ๋ฆฌ๋ ์ ์ ์ํ์ ์ค์ ์ ๋ . ๊ทธ๋ฌ๋, ํ๋ฉด ํ์ง(surface properties)์ ๊ฐ์ ๊ณ ์ฐจ์ ํน์ฑ(์: continuity, smoothness, high-order details)์ ๋ฐ์ํ์ง ๋ชปํจ.
Baselines (๋น๊ต ๋์ ๋ชจ๋ธ).
1. 3D-R2N2 (Choy et al., 2016):
- ์
๋ ฅ ์ด๋ฏธ์ง์์ 3D ๋ณผ๋ฅจ(Volume)์ ์์ฑํ๋ ๋ฐฉ์
- ๋ณต์
๊ธฐ๋ฐ ์ถ๋ ฅ์ผ๋ก, 3D ํํ๋ฅผ ํํํ์ง๋ง ํด์๋๊ฐ ๋ฎ์ ์ธ๋ถ์ฌํญ ํํ์ด ์ ํ์
- ์ ์๋ ๋ฐฉ๋ฒ๊ณผ ๋น๊ตํ๋ ค๋ฉด, Marching Cube ์๊ณ ๋ฆฌ์ฆ์ ํตํด ๋ณต์
์ ๋ฉ์ฌ๋ก ๋ณํํด์ผ ํจ.
2. PSG (Fan et al., 2017):
- ์
๋ ฅ ์ด๋ฏธ์ง์์ ํฌ์ธํธ ํด๋ผ์ฐ๋(Point Cloud)๋ฅผ ์์ฑํ๋ ๋ฐฉ์
- ํฌ์ธํธ ํด๋ผ์ฐ๋๋ 3D ๊ณต๊ฐ์ ์ ๋ค๋ก ๊ฐ์ฒด๋ฅผ ํํํ๋ฉฐ, ์ธ๋ถ์ฌํญ ํํ์ ๊ฐ๋ฅํ์ง๋ง ํ๋ฉด ๊ตฌ์กฐ๊ฐ ๋ถ์กฑํ ์ ์์
- ํ๊ฐ ์งํ๊ฐ ํฌ์ธํธ ํด๋ผ์ฐ๋์ ์ ์๋์ด ์์ผ๋ฏ๋ก PSG์ ์ถ๋ ฅ์ ์ง์ ํ๊ฐ ๊ฐ๋ฅ
3. Neural 3D Mesh Renderer (N3MR, 2018):
- ์
๋ ฅ ์ด๋ฏธ์ง์์ ๋ฉ์ฌ(Mesh)๋ฅผ ์์ฑํ๋ ๋ฅ๋ฌ๋ ๊ธฐ๋ฐ ๋ชจ๋ธ
- ์ฝ๋๊ฐ ๊ณต๊ฐ๋ ์ ์ผํ ๋ฉ์ฌ ์์ฑ ๋ชจ๋ธ๋ก, ๊ธฐ์กด ๋ฐฉ์๊ณผ ์ง์ ์ ์ธ ๋น๊ต ๊ฐ๋ฅ
๋ชจ๋ ๋ชจ๋ธ์ด ๋์ผํ ๋ฐ์ดํฐ์
์ผ๋ก ํ์ต๋์๊ณ , ๋์ผํ ํ์ต/ํ
์คํธ ๋ฐ์ดํฐ ๋ถํ ์ ์ฌ์ฉ.
๋ชจ๋ ๋ชจ๋ธ์ด ๋์ผํ ํ์ต ์๊ฐ์ผ๋ก ํ๋ จ๋์ด ๋น๊ต์ ๊ณต์ ์ฑ ํ๋ณด
1. ํฌ์ธํธ ํด๋ผ์ฐ๋ ๊ธฐ๋ฐ ํ๊ฐ:
- ๋ชจ๋ ๋ชจ๋ธ์ ์ถ๋ ฅ์ ํฌ์ธํธ ํด๋ผ์ฐ๋๋ก ๋ณํํ์ฌ ๋์ผํ ๊ธฐ์ค์์ ํ๊ฐ
2. ์ ํฌ์ธํธ ํด๋ผ์ฐ๋๋ก ํ๊ฐํ๋?
- Chamfer Distance(CD), Earth Moverโs Distance(EMD)์ ๊ฐ์ ํ๊ฐ ์งํ๋ ํฌ์ธํธ ํด๋ผ์ฐ๋์์ ์ ์๋๋ค.
Training and Runtime.
1. ํ์ต ์ค์ :
- ์
๋ ฅ ์ด๋ฏธ์ง: 224 x 224
- ์ด๊ธฐ ๋ฉ์ฌ: 156๊ฐ์ ์ ์ , 462๊ฐ์ ๊ฐ์ ์ผ๋ก ๊ตฌ์ฑ๋ ์ด๊ธฐ ํ์์ฒด(Ellipsoid)
- ๊ตฌํ ํ๊ฒฝ: TensorFlow
- ์ต์ ํ ๋ฐฉ๋ฒ: Adam Optimizer ์ฌ์ฉ, Weight Decay(1 * 10^-5 ์ ๊ฐ์ค์น ๊ฐ์ ๋ฅผ ์ฌ์ฉํ์ฌ ๊ณผ์ ํฉ ๋ฐฉ์ง)
- ๋ฐฐ์น ํฌ๊ธฐ : 1
- ํ์ต ์ค์ผ์ค : ํ์ต ์ํฌํฌ(50), ์ด๊ธฐ ํ์ต๋ฅ (3 * 10^-5), ํ์ต๋ฅ ๊ฐ์(40๋ฒ์งธ ์ํฌํฌ ์ดํ, ํ์ต๋ฅ 1 * 10^-5 ๋ฎ์ถฐ ์์ ์ ์ธ ์ต์ ํ ์ ๋)
- ์ด ํ์ต ์๊ฐ: NVIDIA Titan X GPU๋ฅผ ์ฌ์ฉํ์ฌ 72์๊ฐ
2. ์คํ ์ฑ๋ฅ:
- ํ
์คํธ ์ ๋ฉ์ฌ ์์ฑ ์๋: 2466๊ฐ์ ์ ์ ์์ฑ์ ํ๊ท 15.58ms
Comparison to state of the art

F-score (Tab. 1)
์ ์๋ ๋ชจ๋ธ์ ์ฑ๋ฅ:
- ๋๋ถ๋ถ์ ์นดํ
๊ณ ๋ฆฌ์์ Ours ๋ ๋ชจ๋ ๋ฐฉ๋ฒ๋ณด๋ค ๋์ F-score๋ฅผ ๊ธฐ๋ก
- ํนํ, ์์ ์๊ณ๊ฐ tau ์์ ๋ค๋ฅธ ๋ชจ๋ธ์ ๋นํด ์ต์ 10% ๋์ F-score๋ฅผ ๋ณด์ธ๋ค.
- ์์ tau ์์ ์ฐ์ํ๋ค๋ ๊ฒ์ ์ธ๋ถ์ ์ธ ์ ๋ฐ๋๋ฅผ ์ ๋ณต์ํ์์ ์๋ฏธํ๋ค.
์์ธ:
- Watercraft ์นดํ
๊ณ ๋ฆฌ์์ ๋ค๋ฅธ ๋ชจ๋ธ์ ๋ค์ณ์ง.
N3MR์ ์ฑ๋ฅ:
- ์ฝ 50% ๋ฎ์ ์ฑ๋ฅ์ ๊ธฐ๋ก.
- ์์ธ: N3MR์ ์ด๋ฏธ์ง์ ์ค๋ฃจ์ฃ ์ ํธ(silhouette signal)๋ง ํ์ตํ๋ฉฐ, 3D ๋ฉ์ฌ๋ฅผ ๋ช
์์ ์ผ๋ก ์ฒ๋ฆฌํ์ง ์๊ธฐ ๋๋ฌธ์ด๋ค.

CD์ EMD (Tab. 2)
์ ์๋ ๋ชจ๋ธ์ ์ฑ๋ฅ:
- ๋๋ถ๋ถ์ ์นดํ
๊ณ ๋ฆฌ์์ ๊ฐ์ฅ ๋ฎ์ CD์ EMD๋ฅผ ๊ธฐ๋กํ๋ฉฐ, ์ต๊ณ ํ๊ท ์ ์(0.591)
PSG์์ ๋น๊ต:
- PSG๋ ํฌ์ธํธ ํด๋ผ์ฐ๋ ๊ธฐ๋ฐ์ผ๋ก ์์ ๋๊ฐ ๋์ CD์ EMD์์ ๋ ๋ฎ์ ๊ฐ์ ์ป๋ ๊ฒฝ์ฐ๊ฐ ์์
- ๊ทธ๋ฌ๋, ์ด ์์ ๋๋ ์ ์ ํ ์ ๊ทํ๊ฐ ์์ผ๋ฉด ๋ฉ์ฌ ๋ชจ๋ธ ํ์ง์ ๋ถ์ ์ ์ธ ์ํฅ์ ๋ฏธ์นจ

์ ์ฑ์ ๊ฒฐ๊ณผ ๋ถ์ (Fig. 8)
๋ค๋ฅธ ๋ชจ๋ธ๋ค์ ํ๊ณ
1. 3D-R2N2:
- ๋ฎ์ ํด์๋๋ก ์ธํด ๋ํ
์ผ ๋ถ์กฑ
- ์: ์์ ๋ค๋ฆฌ์ ๊ฐ์ ์ธ๋ถ ์ฌํญ์ด ๋ณต์๋์ง ์์
- Octree ๊ธฐ๋ฐ ํด๊ฒฐ ์๋: ํด์๋๋ฅผ ์ฆ๊ฐ์ํค๋ ค ํ์ผ๋, ํ๋ฉด ๋ํ
์ผ ๋ณต์์ด ์ฌ์ ํ ์ด๋ ค์ ๋ค
2. PSG:
- ํฌ์ํ ํฌ์ธํธ ํด๋ผ์ฐ๋๋ฅผ ์์ฑ
- Chamfer loss๊ฐ ํ๊ท ์์ค์ฒ๋ผ ์๋ํ์ฌ ์์ ๋๊ฐ ๋๋ฌด ๋์ ๋ฉ์ฌ ๋ณต์์ด ์ด๋ ค์
3. N3MR:
- ๋งค์ฐ ๊ฑฐ์น ํํ๋ฅผ ์์ฑ: ๋จ์ ๋ ๋๋ง ์์
์๋ ์ถฉ๋ถํ ์ ์์ผ๋, ์์, ํ
์ด๋ธ๊ณผ ๊ฐ์ ๋ณต์กํ ๊ฐ์ฒด ๋ณต์์๋ ๋ถ์ ํฉ
์ ์๋ ๋ชจ๋ธ์ ์ฅ์
1. ๋ฉ์ฌ ํํ:
- ๋ฉ์ฌ ๊ตฌ์กฐ๋ฅผ ์ฌ์ฉํ์ฌ ํด์๋์ ์ ํ๋์ง ์์
- ๋ฉ๋ชจ๋ฆฌ ์ ํ์ ๊ทน๋ณตํ๋ฉฐ ๋งค๋๋ฌ์ด ํ๋ฉด๊ณผ ์ง์ญ์ ์ธ๋ถ ์ฌํญ(local details)์ ํฌํจ
2. ์ง๊ฐ์ ํน์ง ํตํฉ:
- ์
๋ ฅ ์ด๋ฏธ์ง์ Perceptual Feature๋ฅผ ํจ๊ณผ์ ์ผ๋ก ํ์ฉํ์ฌ ์ธ๋ถ ์ฌํญ ๋ณต์
3. ํ์ต ๊ณผ์ ์์ ์ ๊ตํ๊ฒ ์ ์๋ ์์ค:
- Chamfer loss, Normal loss, Laplacian regularization ๋ฑ ์ ์ ํ ์์ค ํจ์ ์ค๊ณ๋ก ์์ ์ ์ธ ํ์ต ์ ๋
Ablation Study (์ฑ๋ถ ๋ถ์ ์คํ)
Ablation Study ๋ ๋ฅ๋ฌ๋, ๋จธ์ ๋ฌ๋, ๋๋ ์์คํ ์ค๊ณ์์ ํน์ ์์๋ฅผ ์ ๊ฑฐํ๊ฑฐ๋ ๋ณ๊ฒฝํ ํ, ๊ฒฐ๊ณผ๋ฅผ ๋น๊ตํ์ฌ ๊ฐ ์์์ ์ค์์ฑ์ ๋ถ์ํ๋ ์ฐ๊ตฌ ๋ฐฉ๋ฒ์ด๋ค.


<์ ๋์ ํ๊ฐ์ ํ๊ณ>
- Tab. 3์ ๋ฐ๋ฅด๋ฉด ์ฃ์ง ๊ธธ์ด ์ ๊ทํ(Edge Length Regularization) ๋ฅผ ์ ๊ฑฐํ ๋ชจ๋ธ์ด F-score, CD, EMD์์ ๊ฐ์ฅ ๋์ ์ฑ๋ฅ์ ๋ณด์
- ๊ทธ๋ฌ๋, Fig. 5์์ ํ์ธํ ์๊ฐ์ ํ์ง์ ๊ฐ์ฅ ๋์ ๋ฉ์ฌ๋ฅผ ์์ฑํจ
- ์: ๋ฉ์ฌ๊ฐ ๋น์ ์์ ์ผ๋ก ์๊ณก๋๊ฑฐ๋, flying vertices ๋ฌธ์ ๊ฐ ๋ฐ์
<์ ์ฑ์ ํ๊ฐ์ ์ค์์ฑ>
- ์ ๋์ ์งํ๋ ์ ๊ฐ ๊ฑฐ๋ฆฌ๋ ์ ์ ์ํ๋ง ์ธก์ ํ๋ฉฐ, ๋ฉ์ฌ์ ์๊ฐ์ ํ์ง(์: ๋งค๋๋ฌ์ด ํ๋ฉด, ๋ํ
์ผ ๋ณด์กด)์ ๋ฐ์ํ์ง ๋ชปํ๋ค
- Fig. 5์ ์๊ฐ์ ๊ฒฐ๊ณผ๋ฅผ ํตํด, ๊ฐ ๊ตฌ์ฑ ์์๊ฐ 3D ๋ฉ์ฌ ํ์ง์ ๊ฐ์ ํ๋ ๋ฐ ์ด๋ป๊ฒ ๊ธฐ์ฌํ๋์ง ํ์ธ ๊ฐ๋ฅ
<์ ๊ฑฐ๋ ์์>
1. Graph Unpooling
- Graph Unpooling Layers๋ฅผ ์ ๊ฑฐํ์ฌ, ๋ชจ๋ ๋ธ๋ก์์ ์ ์ (vertex) ์๊ฐ ๋์ผํ๊ฒ ์ ์ง๋๋๋ก ์ค์
- ์ด๋ ๊ธฐ์กด์ ์ ์ง์ ์ผ๋ก ์ ์ ์ ์ถ๊ฐํ๋ ๋ฐฉ์(Coarse-to-Fine)์ ์ฌ์ฉํ์ง ์๋ ๊ตฌ์กฐ๋ฅผ ์๋ฏธ.
- ๊ฒฐ๊ณผ:
- ์ด๊ธฐ ๋จ๊ณ์์ ๋ณํ(Deformation) ๊ณผ์ ์์ ์ค๋ฅ ๋ฐ์ ๊ฐ๋ฅ์ฑ ์ฆ๊ฐ:
- ์ด๊ธฐ ์ค๋ฅ๊ฐ ํ์ ๋ธ๋ก์์ ์์ ๋์ง ๋ชปํจ.
- ๊ฒฐ๊ณผ์ ์ผ๋ก, ๊ฐ์ฒด์ ์ผ๋ถ ์์ญ์์ ๋์ ๋๋ ์๊ณก(artifacts)์ด ๋ฐ์.
- ์์: Graph Unpooling์ ์ ์ ์ ์ ์ง์ ์ผ๋ก ์ถ๊ฐํ๋ฉด์ ๋ณํ ๊ณผ์ ์ ์ธ๋ฐํ๊ฒ ์กฐ์ ํ ์ ์๊ฒ ํด์ฃผ๋ฏ๋ก, ๋ชจ๋ธ์ ์์ ์ ํ์ต์ ํ์์
2. G-ResNet (Shortcut Connections)
- G-ResNet์์ Shortcut Connection(Residual Connection)์ ์ ๊ฑฐํ์ฌ ์ผ๋ฐ์ ์ธ Graph Convolutional Network(GCN)์ผ๋ก ๋ณ๊ฒฝ
- ๊ฒฐ๊ณผ:
- ๋ชจ๋ ํ๊ฐ ์งํ(Tab. 3)์์ ์ฑ๋ฅ์ด ํฌ๊ฒ ๊ฐ์: Chamfer Distance ์ต์ ํ ์คํจ
- ์์ธ:
- 2D CNN์์๋ ๊ด์ฐฐ๋ Degradation Problem(์ฑ๋ฅ ํดํ ๋ฌธ์ ):
- ๋๋ฌด ๊น์ ๋คํธ์ํฌ๋ ํ์ต์ด ์ด๋ ค์์ ธ ํ์ต ์ค๋ฅ(training error)๊ฐ ์ฆ๊ฐํ๊ณ , ํ
์คํธ ์ค๋ฅ(testing error)๋ ์ฆ๊ฐ
- ์ ์๋ ๋ชจ๋ธ์ 42๊ฐ์ Graph Convolutional Layers๋ฅผ ๊ฐ์ง๋ฏ๋ก, ์ด ๋ฌธ์ ์ ์ํฅ์ด ๋์ฑ ๋๋๋ฌ์ง๋ค
- ์์:
- Shortcut Connection์ ๊ธฐ์ธ๊ธฐ ์์ค ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ณ , ๊น์ ๋คํธ์ํฌ์์๋ ํ์ต ์์ ์ฑ์ ์ ๊ณต
- G-ResNet์์ Shortcut Connection์ 3D ๋ฉ์ฌ ๋ณต์ ๊ณผ์ ์ ํต์ฌ ๊ตฌ์ฑ ์์์
3. ์์ค ํจ์(Loss Terms)
A. Normal Loss ์ ๊ฑฐ
- ๊ฒฐ๊ณผ:
- ํ๋ฉด์ ๋งค๋๋ฌ์(Smoothness)๊ณผ ์ง์ญ์ ๋ํ
์ผ(Local Details)์ด ์ฌ๊ฐํ๊ฒ ์์
- ์: ์์ ๋ฑ๋ฐ์ด(seat back)์ ์ธ๋ถ ์ฌํญ์ด ์ฌ๋ผ์ง
- ์์:
- Normal Loss๋ ํ๋ฉด์ ๋ฒ์ ๋ฐฉํฅ์ ์ ์งํ์ฌ ๋งค๋๋ฌ์ด ํ๋ฉด๊ณผ ์ธ๋ถ ์ฌํญ ๋ณต์์ ๋๋ ์ค์ํ ์ญํ
B. Laplacian Term ์ ๊ฑฐ
- ๊ฒฐ๊ณผ:
- Geometry Self-Intersection(๊ธฐํํ์ ๊ต์ฐจ)๊ฐ ๋ฐ์
- ์: ์์ ์์ก์ด(handheld)๊ฐ ๊ต์ฐจํ๊ฑฐ๋ ์๋ชป๋ ํํ๋ฅผ ๊ฐ์ง
- ์์:
- Laplacian Term์ ์ ์ ์ ๊ตญ์์ ์ธ ๊ตฌ์กฐ(topology)๋ฅผ ์ ์งํ๊ณ , ์์ ์ ์ธ ๋ณํ์ ๊ฐ๋ฅํ๊ฒ ํจ
C. Edge Length Term ์ ๊ฑฐ
- ๊ฒฐ๊ณผ:
- Flying Vertices์ ๋น์ ์์ ์ผ๋ก ๊ธด ๊ฐ์ (edge)์ด ์์ฑ๋์ด ํ๋ฉด์ด ๋ง๊ฐ์ง
- ์: ๋ฉ์ฌ ํ๋ฉด ์ ์ฒด๊ฐ ์ ๋๋ก ํ์ฑ๋์ง ๋ชปํจ
- ์์:
- Edge Length Term์ ์ ์ ๊ฐ์ ๊ฐ๊ฒฉ์ ์กฐ์ ํ์ฌ ๋ฉ์ฌ์ ์ฐ๊ฒฐ์ฑ์ ์ ์งํ๊ณ , ํ๋ฉด ์๊ณก์ ๋ฐฉ์ง
Number of Deformation Blocks
Deformation Block ์ด๋?
- Deformation Block์ ์ด๊ธฐ ๋ฉ์ฌ(Ellipsoid) ์์ ์์ํ์ฌ ๋ฉ์ฌ๋ฅผ ์ ์ง์ ์ผ๋ก ๋ณํ์ํค๋ ๋จ๊ณ์ด๋ค.
- ๊ฐ ๋ธ๋ก์ ์ ์ ๊ณผ ๊ฐ์ ์ ์ฆ๊ฐ์ํค๊ณ , ์๋ก์ด ์ธ๋ถ ์ฌํญ์ ์ถ๊ฐํ์ฌ 3D ๋ฉ์ฌ์ ํด์๋๋ฅผ ๋์ธ๋ค.

์์ ์ผ์ชฝ ๊ทธ๋ฆผ์ ๋ณด๋ฉด ๋ธ๋ก์ ๊ฐ์๊ฐ ์ฆ๊ฐํ ์๋ก F-score ๊ฐ ์์นํ๊ณ Chamfer Distance ๊ฐ ๊ฐ์ํ์ฌ ์ฑ๋ฅ์ด ํฅ์๋จ์ ๋ณด์ฌ์ค๋ค.
ํ์ง๋ง, ๋ธ๋ก ๊ฐ์๊ฐ 3์์ 4๋ก ์ฆ๊ฐํ ๋๋ ์ฑ๋ฅ ํฅ์์ด ๊ฑฐ์ ํฌํ ์ํ(Saturated) ์์ ๊ด์ฐฐํ ์ ์๋ค.
๋ธ๋ก ๊ฐ์๊ฐ ์ฆ๊ฐํ๋ฉด ์ ์ ๊ณผ ๊ฐ์ ์๊ฐ ๋ง์์ ธ์ ๋ฉ์ฌ๊ฐ ๋์ฑ ์ธ๋ฐํ๊ฒ ๋ง๋ค์ด์ง ์ ์๋ค. ํ์ง๋ง ์๋์ ํจ์จ์ฑ, ๊ณ์ฐ ์๊ฐ๊ณผ ๋ณต์ก๋๊ฐ ํฌ๊ฒ ์ฆ๊ฐํ๋ฏ๋ก ๋ณธ ๋ ผ๋ฌธ์์๋ ๋ธ๋ก ์ 3์ ์ ํํ๋ค.
Reconstructing Real-World images

- ์ ์๋ ๋ชจ๋ธ์ Synthetic Data (ํฉ์ฑ ๋ฐ์ดํฐ) ์ธ ShapeNet์์ ํ์ต๋์๋ค.
- ๋ชจ๋ธ์ Real-World images(์ค์ ์ด๋ฏธ์ง) ์์ ํ
์คํธํ ๋ ์ถ๊ฐ์ ์ธ fine-tuning ์์ด, ํ์ต๋ ์ํ ๊ทธ๋๋ก ์ฌ์ฉํ์๋ค.
- ๊ฒฐ๊ณผ : ์ค์ ๋ฐ์ดํฐ์์๋ ๊ฐ๋ ฅํ ์ฑ๋ฅ์ ๋ณด์๋ค.
Conclusion
- ์ ์๋ ์ ๊ทผ๋ฒ์ ๋จ์ผ ์ด๋ฏธ์ง๋ก๋ถํฐ ๊ณ ํ์ง์ 3D triangular mesh ๋ฅผ ์์ฑํ๋๋ฐ ์ฑ๊ณต์ ์ด์๋ค.
<๋คํธ์ํฌ ์ค๊ณ>
- ๋คํธ์ํฌ ๊ตฌ์กฐ:
- ๋งค์ฐ ๊น์(cascaded) ๊ทธ๋ํ ํฉ์ฑ๊ณฑ ์ ๊ฒฝ๋ง(Graph Convolutional Neural Network) ์ค๊ณ
- Shortcut Connections(์์ฐจ ์ฐ๊ฒฐ)๋ฅผ ํตํด ํ์ต ์์ ์ฑ๊ณผ ์ฑ๋ฅ์ ํฅ์
- ๋ฉ์ฌ ์ ๋ฐํ ๊ณผ์ :
- ๋คํธ์ํฌ๋ Chamfer Loss์ Normal Loss๋ก ์๋ ํฌ ์๋(end-to-end) ํ์ต
- ๋ฉ์ฌ๋ฅผ ๋จ๊ณ์ ์ผ๋ก ์ ๋ฐํ๊ฒ ๊ฐ์ .
- ๋ฉ์ฌ ํํ์ ์ฅ์ ์ ํจ๊ณผ์ ์ผ๋ก ํ์ฉํ๋ฉฐ, ๊ธฐ์กด SOTA ๋ฐฉ์(3D Volume, 3D Point Cloud) ๋ณด๋ค ๋ ๋์ ์ฑ๋ฅ์ ๋ณด์๋ค.