[Paper Review] Triplane Meets Gaussian Splatting: Fast and Generalizable Single-View 3D Reconstruction with Transformers

Triplane Meets Gaussian Splatting: Fast and Generalizable Single-View 3D Reconstruction with Transformers

Recent advancements in 3D reconstruction from single images have been driven by the evolution of generative models. Prominent among these are methods based on Score Distillation Sampling (SDS) and the adaptation of diffusion models in the 3D domain. Despit

arxiv.org

이 논문에서는 3D Gaussian Splatting Representation 을 활용하여 단일 이미지에서 빠르고 일반화 가능한 3D 복원을 수행하는 방법을 제안하고 있습니다.

📌 이 논문에서 3DGS 를 이용해서 하려는 것?

💡 단일 이미지에서 3D 모델을 빠르게 고품질로 복원하고, 이를 활용한 새로운 뷰 렌더링을 수행!

1️⃣ 3D Gaussian Representation이란?

3D Gaussian representation 은 3D 공간에서 특정 위치의 정보 (예: RGB, 밀도, 또는 다른 특성 값) 를 Gaussian 분포(평균과 분산) 로 표현하는 방식입니다.
3D 공간 전체를 하나의 연속적인 함수로 모델링 하려는 시도입니다.
하지만 고차원적이고 복잡한 공간을 다루기 때문에 학습 과정에서 여러 어려움이 있습니다.
특징
- Discrete (이산적): 3D 공간이 불연속적인 점 집합으로 나타날 수 있음. 모든 좌표를 다루려면 계산량이 큼.
- Non-structural (비구조적): 3D 데이터는 일관된 격자 구조(예: 이미지의 픽셀 배열)가 없는 경우가 많음.
  - 예: Point cloud는 불규칙하게 샘플링된 3D 점들의 집합.
- Higher-dimensional (고차원): 2D 이미지보다 훨씬 더 많은 데이터 양을 포함하고, 처리 비용이 큼.

2️⃣ Implicit Representation이란?

Implicit representation은 좌표 기반 신경망(Neural Network)을 사용해 3D 데이터를 압축적으로 표현합니다.
- 예: Neural Radiance Field (NeRF) 같은 모델은 좌표 (x,y,z) 를 입력으로 받아 RGB 값과 밀도를 예측합니다.
특징:
- 연속적(Continuous): 공간 전체를 직접 샘플링할 필요 없이, 원하는 좌표에서 RGB와 밀도를 계산.
- 더 효율적: 저장 공간이 작고 학습이 비교적 쉬움.
- 저해상도 데이터를 고해상도로 복원할 수 있는 장점.

Implicit representation 인 NeRF 를 학습시키는것 보다 3DGS 을 학습시키는 것이 더욱 어렵습니다.
그 이유는 다음과 같습니다.

고차원 데이터 문제
- 3D 공간을 직접 다룰 때는 엄청난 양의 데이터를 저장하고 학습해야 합니다.
- Voxel-based 표현 방식처럼 3D 격자(grid)를 사용하면 메모리 소모와 연산 비용이 급격히 증가합니다.
불규칙성과 비구조적 형태
- Point cloud나 실제 3D 데이터는 격자 구조가 없기 때문에, 이를 모델링하려면 복잡한 변환이 필요합니다.
- 반면, implicit representation은 연속적 좌표 공간을 모델링하기 때문에 이 문제를 피해 갈 수 있습니다.
데이터 희소성(Sparsity)
- 3D 데이터는 희소(sparse) 한 경우가 많습니다.
  예: 대부분의 점이 빈 공간에 분포할 수 있고, 일부만 의미 있는 정보를 가짐.
- Gaussian representation은 이러한 희소성 때문에 모델의 일반화와 학습이 더 어렵습니다.
복잡한 분포 학습
- Gaussian 분포 자체가 평균(mean)과 공분산(covariance) 을 학습해야 하므로, 단순 RGB와 밀도를 예측하는 implicit 방식보다 모델의 복잡도가 큽니다.

3D Gaussian Representation 은 학습에서 어려움이 있지만, 다양한 장점이 존재합니다.

논문에서는 아래와 같은 이유로, NeRF와 같은 Implicit Representation 이 있는데도, 3DGS 와 같은 explicit representation 방식을 사용하고자 합니다.

1. 실시간 렌더링(Real-time Rendering)이 가능하다.

NeRF의 가장 큰 단점은 렌더링 속도가 느리다는 것!
NeRF는 뉴럴 네트워크를 사용해 좌표마다 밀도와 색을 예측해야 하기 때문에 한 장의 이미지를 생성하는 데 수 초~수 분이 걸림.
하지만 3DGS는 explicit representation 방식이므로, GPU의 rasterization pipeline(그래픽 카드에서 기본적으로 지원하는 연산)을 이용해서 훨씬 빠르게 렌더링 가능.

2. 더 나은 편집 가능성(Editability)

NeRF는 신경망이 좌표-색상 관계를 내재적으로 학습하므로, 개별 객체를 직접 수정하거나 이동하기 어려움.
반면 3DGS는 explicit representation이므로, 특정 Gaussian을 직접 수정, 이동, 삭제, 추가하는 게 훨씬 쉬움.
예를 들어, 가상 환경에서 특정 객체만 이동시키거나 삭제해야 하는 경우 3DGS가 훨씬 유리함.

3. 더 효율적인 저장 방식 (Compression & Storage)

NeRF는 뉴럴 네트워크 기반이라서 학습된 모델을 저장해야 함 → 크기가 커짐.
특히 고해상도 표현을 위해서는 네트워크 크기가 매우 커지고, 이를 저장하고 로드하는 것도 부담.
반면, 3DGS는 단순한 Gaussian 분포(위치, 크기, 색상, 방향)들로 표현되므로 저장 공간이 훨씬 적게 필요함.

4. 기존 3D 그래픽스 파이프라인과의 호환성

NeRF는 뉴럴 네트워크 기반이라서 기존 3D 그래픽스 엔진(예: Unreal Engine, Unity)과 통합이 어려움.
하지만 3DGS는 explicit 3D 데이터이기 때문에, 기존 렌더링 기술(OpenGL, Vulkan 등)과 쉽게 호환됨.

🧐 논문에서는 기존의 NeRF 기반 방법들이 느리거나 최적화 과정이 복잡하다는 문제를 지적합니다. 그래서 3D Gaussian Splatting을 Triplane Representation과 결합하여 더 효율적인 방식을 제안했습니다.

방법	특징	문제점
NeRF (Implicit)	좌표별 RGB와 밀도를 학습하여 3D 복원	렌더링 속도가 느림, 학습 시간이 김
Triplane Representation	3개의 직교 평면을 사용해 3D 공간 표현	볼륨 렌더링이 필요하여 메모리 비용이 큼
3D Gaussian Splatting (Explicit)	3D 공간을 Gaussian 분포의 집합으로 표현하여 빠른 렌더링 가능	3D Gaussians를 직접 학습하기 어려움 (비구조적, 고차원)
Triplane + 3DGS (논문 제안)	Triplane을 활용해 Gaussian 특징을 추출하고, Gaussian Splatting으로 렌더링	빠른 속도, 고품질 렌더링, 학습 효율성 향상

📌 논문에서 제안하는 방법 (Triplane-Gaussian Splatting, TGS)

논문에서는 기존 3DGS 의 한계를 보완하기 위해 Triplane Representation 과 Transformer 기반 모델을 결합한 새로운 접근법을 제안합니다.

🌟 핵심 아이디어

단일 이미지 입력 → Transformer 로 3D 구조 생성
- Point Cloud Decoder: 단순한 3D 점 클라우드를 먼저 생성
- Triplane Decoder: 이 점을 기반으로 3D 공간의 특징을 추출
- 3D Gaussian Decoder: Triplane 에서 얻은 정보를 활용하여 Gaussian 속성을 디코딩
Explicit + Implicit 하이브리드 구조
- Explicit (Point Cloud) → 대략적인 형상을 정의
- Implicit (Triplane) → 세부적인 형상을 정교화
- 3D Gaussian Splatting → 최종 렌더링을 빠르게 수행
렌더링 속도와 품질을 동시에 개선
- 기존 NeRF 보다 빠르고 (수 초 이내에 결과 생성)
- 기존 Gaussian Splatting 보다 구조적 정보 활용 가능

✅ 1. Explicit Point Cloud (명시적 점 클라우드) → 객체의 대략적인 형상을 정의

Point Cloud(점 클라우드)란 3D 공간에서 객체의 표면을 정의하는 점들의 집합
이 논문에서는 단일 이미지에서 3D 모델을 복원하기 위해 Transformer 기반의 Point Cloud Decoder를 사용해서 먼저 객체의 대략적인 형상(geometry)을 생성
하지만, 점 클라우드만으로는 디테일한 표현이 어렵고, 색상이나 투명도 같은 정보가 부족

즉, Point Cloud는 단순히 3D 형상의 뼈대를 만들기 위한 단계

✅ 2. Implicit Triplane Field (암시적 트라이플레인 필드) → 형상 정교화 + Gaussian 속성 인코딩

Triplane Representation은 3개의 2D 평면을 이용하여 3D 공간을 효과적으로 표현하는 방법
- 3개의 축 정렬(Orthogonal)된 평면을 사용하여 3D 특징을 저장함.
- 각 평면에서 3D 공간의 특정 위치를 투영하여 특징을 추출할 수 있음.
논문에서는 Transformer 기반 Triplane Decoder를 사용해서, Point Cloud로 생성된 거친 형상을 더 정밀하게 다듬음
또한, 단순한 형상 정보뿐만 아니라 3D Gaussian 속성도 함께 저장합니다.

즉, Triplane은 Point Cloud를 기반으로 디테일을 추가하고, Gaussian 속성을 포함하는 역할

✅ 3. 3D Gaussian Properties (3D Gaussian 속성)

Triplane Representation이 3D Gaussian의 속성을 포함
이 속성들은 Opacity(불투명도), Spherical Harmonics(구면 조화 함수) 등을 포함

Opacity (불투명도, α)
- 각 Gaussian이 얼마나 투명한지 나타냄.
- 예를 들어, 유리 같은 물체는 투명도(α 값)가 낮고, 불투명한 물체는 α 값이 높음.
Spherical Harmonics (구면 조화 함수, SH)
- 3D 환경에서 조명을 표현하는 데 많이 사용되는 수학적 모델.
- 특정 방향에서의 조명 효과를 계산하여 사실적인 라이팅 표현 가능.

즉, Triplane을 통해 단순한 형상 정보뿐만 아니라, 렌더링에 필요한 색상, 조명, 투명도 같은 정보를 효과적으로 표현할 수 있음.

본 논문에서는 End-to-End 학습방법을 사용합니다.

End-to-End (E2E) 란?
데이터 입력(Input)부터 최종 출력(Output)까지, 중간 과정 없이 하나의 모델로 직접 학습하는 방식

모든 과정이 하나의 네트워크에서 자동으로 최적화됨
- 사람이 중간에 개입하여 수작업으로 데이터를 변환하거나 조정할 필요 없음.
- 데이터 입력만 주어지면 모델이 알아서 최적의 표현을 학습.
모든 과정이 하나의 네트워크에서 자동으로 최적화됨
- 사람이 중간에 개입하여 수작업으로 데이터를 변환하거나 조정할 필요 없음.
- 데이터 입력만 주어지면 모델이 알아서 최적의 표현을 학습.
더 적은 인공적인 개입 (Feature Engineering 이 필요없음)
- 기존에는 사람이 데이터를 가공(예: 특징 추출, 전처리) 해야 했지만, E2E 모델에서는 이런 과정이 필요 없이 딥러닝이 직접 특징을 학습함.

Method

1️⃣ Hybrid Triplane-Gaussian

하이브리드 3D 표현 방식 (Hybrid Representation)
1. Explicit (명시적) → 점 클라우드
  1. 3D 공간에서 객체의 대략적인 형상을 정의하는 점 집합 (Point Cloud).
2. Implicit (암시적) → Triplane
  1. 3개의 축 정렬된 평면(Triplane)으로 3D 공간의 특성을 저장하는 방식.
  2. 각 평면은 3D Gaussian 속성(색상, 투명도, 조명 등)을 포함한 특징 필드(Feature Field)를 인코딩.
  3. C: 특징 차원(Feature Channels), H: 높이, W: 너비
Triplane 구조 (Txy, Txz, Tyz)
1. Triplane T은 3개의 직교하는 평면(Orthogonal Feature Planes)으로 구성됨:
  1. Txy → XY 평면
  2. Txz → XZ 평면
  3. Ty → YZ 평면
2. 이 3개의 평면을 이용하여 3D 공간의 임의의 위치에서 특징 벡터를 추출할 수 있음.
3D 위치에서 Feature Vector 추출 (Querying Feature Vector)
- 특정 3D 좌표 x가 주어지면:
  1. 해당 좌표를 각 평면에 투영(Projection).
  2. 각 평면에서 Trilinear Interpolation을 사용해 특징을 보간(interp)하여 추출.
  3. 최종적으로 3개의 평면에서 얻은 특징을 연결(⊕, Concatenation)하여 최종 Feature Vector ft를 생성.
- 여기서:
  1. interp: Trilinear Interpolation (3D 공간에서의 보간 기법)
  2. ⊕: 특징 벡터를 연결(Concatenation)
  3. pxy,pxz,py: 각 평면에서의 투영된 위치

▶ 즉, 특징 벡터를 기반으로 Gaussian 속성을 디코딩하여 3D 모델을 정밀하게 표현 가능!!

More Details,

1️⃣ 3D Gaussian Decoder.

입력:
- 특정 위치 x ∈ R^ (Point Cloud의 점)
- Triplane에서 가져온 특징 벡터 f
과정:
- MLP(다층 퍼셉트론) ϕg을 사용해 3D Gaussian 속성을 예측
출력:
- Gaussian 속성들:
  - Opacity α (불투명도)
  - Anisotropic Covariance (비등방성 공분산) → 크기 & 회전 q
  - Spherical Harmonics shsh (SH 계수, 조명 정보)
  - 위치 오프셋 Δx → 점의 위치 보정

위치 오프셋 Δx 추가 (Surface Points 보정)
- 표면의 점들만 사용하면 정확한 Gaussian 표현이 어렵기 때문에,
- 추가적인 위치 오프셋 Δx 를 예측하여 최적의 위치를 조정함.
- 최종 위치는:

Triplane 특징 + 이미지 특징 결합 (Texture 품질 향상)
- Triplane에서 가져온 특징 f 만으로는 충분하지 않음.
  - : Triplane 기반의 3D 공간적 특징
  - fl : 이미지 기반의 로컬 특징
- 최종 특징 벡터 는:

이미지 기반 로컬 특징 추가 (Self-Occlusion 해결)
- Self-Occlusion (자체 가림 현상) 문제 해결을 위해, 이미지에서 직접 특징을 가져옴.
- 투영(Projection) 방식을 사용하여 Point Cloud의 각 점을 원본 이미지 위에 매핑:
  - 여기서 P()는 투영 함수(projection function)
  - π 는 카메라의 위치/각도 정보(Camera Pose)
  - P 는 점 클라우드(Point Cloud)
- 추가되는 로컬 이미지 특징:
  - RGB 색상
  - DINOv2 Feature (사전 학습된 이미지 특징)
  - Mask (객체 영역을 구분하는 마스크)
  - 2D Distance Transform (객체 경계 정보 활용)

✅ 왜 3D 좌표 를 Triplane에 Projection 하는가?

의문점: 3D 좌표 x 를 Triplane 에 투영 시키면 정보들이 똮~!! 나타나는가??
→ 아니용~ 투영 자체는 정보를 새로 만드는 게 아니라, 이미 Triplane 에 저장된 정보를 찾아오는 과정!!

Triplane 에는 이미 3D 공간의 정보가 간접적으로 저장되어 있음!
3D 위치 x 를 Triplane 에 투영하면, 저장된 특징 벡터를 불러올 수 있음
즉, Triplane 자체가 3D Gaussian 속성을 포함할 수 있도록 사전 학습됨!!

그럼 어떻게 Triplane 을 학습 했는가??

Triplane 은 학습 가능한 표현 (Learned Representation)
- 뉴럴 네트워크를 통해 학습되면서 3D 공간의 정보(밀도, Opacity, Spherical Harmonics 등)를 저장.
- 마치 "메모리 저장소" 처럼 동작
MLP 는 Triplane 을 직접 학습하며 3D 속성을 인코딩
- MLP는 단순한 선형 변환이 아니라, 3D 정보를 학습하여 인코딩된 구조
- Triplane 은 MLP 와 함께 학습되면서 단일 이미지에서 3D 구조를 효과적으로 표현할 수 있도록 최적화됨.
- 학습 과정 💚
  1. 이미지 → 2D Feature 추출
    1. 이미지가 입력되면, Transformer 기반 네트워크가 2D 이미지의 특징을 추출
  2. Triplane 을 생성하면서 3D 정보 학습
    1. 3개의 평면에 3D 정보를 저장하는 방식으로 학습됨
  3. Projection 을 통해 특징을 가져옴
    1. 특정 3D 위치에서 Projection 을 수행하면, 해당 위치에서 학습된 3D 특징을 가져올 수 있음
  4. MLP 를 사용하여 3D Gaussian 속성 디코딩
    1. ϕg(x,f) 에서 MLP 가 3D Gaussian 속성(밀도, Opacity, SH 등)을 복원
  5. Loss 를 통해 학습 최적화
    1. 렌더링된 이미지와 원본 이미지를 비교하며 학습이 진행

▶ 즉, Pre-trained 모델 없이도 Triplane 과 MLP 의 End-to-End 학습을 통해 3D 공간을 구현해냄.

2️⃣ Rendering.

이 논문은 3DGS 의 렌더링 방식을 차용하였습니다.

개념	설명
Differentiable Tile-Based Rasterization	미분 가능하고, 타일 단위로 나눠서 빠르게 렌더링
Fast α-Blending of Anisotropic Splats	비등방성 Gaussian을 빠르게 혼합하여 부드러운 렌더링
Fast Backward Pass by Tracking α Values	누적된 α 값을 추적하여 빠르게 역전파 가능
Higher Resolution & Lower GPU Cost	고해상도 이미지 학습 가능, 적은 GPU 메모리 사용

2️⃣ Reconstruction from Single-View Images

Image Encoding

입력 이미지를 어떻게 처리하여 3D 복원에 활용하는지에 대해 알아봅시다.

Pre-trained ViT 기반 DINOv2 를 사용해 이미지 추출
1. DINOv2 (ViT 기반 Encoder(transformer 기반)) 을 사용하여,
2. 입력 이미지를 여러 개의 패치(patch) 로 나눈 후, Transformer을 이용해 각 패치에 대한 Feature Tokens 를 추출
3. 이 Feature Tokens 이 Triplane 및 Point Cloud 생성을 위한 기초적인 특징 벡터 역할을 함
카메라 정보(Camera Parameters, 이미 알고있다고 가정)를 활용한 Adaptive Layer Normalization(AdaLN)
1. 3D 복원을 더 정확하게 하기 위해, 카메라 정보(시점 정보)를 이미지 특징에 반영
2. 카메라 정보란?
  1. 카메라 Extrinsic Matrix T∈R^4×4 → 카메라의 위치 및 방향 정보
  2. 카메라 Intrinsic Matrix K∈R^3×3 → 카메라 렌즈의 초점 거리, 왜곡 정보
3. AdaLN이 하는 일
  1. 카메라 매트릭스를 펼쳐서(Flatten) 벡터 형태로 변환 후, 고차원 카메라 특징 fc∈R^25로 매핑
  2. 이 카메라 특징을 활용해 이미지 특징을 조정 → 즉, ViT가 추출한 이미지 특징이 카메라 시점(Viewpoint)에 맞게 조절됨
  3. MLP를 사용하여 Scale(스케일)과 Shift(이동값)을 예측하여, 이미지 특징을 적절히 변환.

Transformer Backbone

포인트 클라우드(Points) 와 Triplane 을 위한 Feature Tokens 사용
- 논문에서는 두가지 3D 표현 방식(Points & Triplane) 에 대해 별도의 Feature Tokens를 사용
- 각각의 Feature Token 은 Transformer 에 입력되어, 3D 복원을 위한 특징을 학습함.
  - {fi}p: 포인트 클라우드에 대한 Feature Tokens
  - {fi}t: triplane 에 대한 Feature Tokens
Learnable Positional Embedding 을 사용하여 Feature Token 을 초기화
- Transformer 는 순서나 위치 정보를 직접 인식할 수 없기 때문에, "위치 정보를 추가" 해야함.
- 이를 위해, feature token 을 learnable positional embedding 으로 초기화.
Transformer 블록의 구성
- 각 Transformer 블록은 3개의 주요 레이어로 구성됨
- Self-Attention Layer
  - 각 Feature Token 이 같은 3D 표현 내에서 서로 정보를 교환하는 과정
  - 예를 들어, 포인트 클라우드 내부에서 어떤 점이 다른 점들과 어떻게 연관되는지 학습함
- Cross-Attention Layer
  - 이미지에서 추출한 토큰(Viewpoint-Augmented Image Tokens, 카메라 시점 정보를 포함한 이미지 특징)과 3D Token 을 연결하는 과정
  - 즉, 이미지에서 얻은 정보를 포인트 클라우드 및 Triplane에 반영하여 더 정확한 3D 복원 가능.
- Feed-Forward Layer (MLP)
  - Self-Attention과 Cross-Attention을 거친 Feature Token을 최종적으로 가공하는 단계.

Point Cloud Decoder

Point Cloud Decoder 의 역할
- Point Cloud Decoder 는 3D 객체의 대략적인 형상(geometry) 을 생성하는 역할을 함.
- 이 단계에서 생성된 Point Cloud 좌표를 기반으로 3D Gaussians 을 배치할 수 있음
- 즉, 포인트 클라우드가 먼저 생성되고, 이를 이용해 3DGS 수행.
Transformer 를 활용한 Point cloud 생성
- ViT 기반 Encoder가 2D 이미지에서 Feature Tokens을 추출.
- 6-layer Transformer Backbone 을 사용하여 Point Cloud 를 디코딩
  - → "Learnable Positional Embeddings" 을 사용하여 3D Point Cloud를 직접 생성.
  - 이 embedding들은 Point Cloud Token 역할을 하며, 최종적으로 3D 포인트가 됨
  - 여기서는 coarse 하게 2048 개의 point cloud 만을 decoding
- Transformer를 사용하여 학습된 토큰(Token)들을 3D 좌표(Point Cloud)로 변환하는 방식!

Point Upsampling with Projection-Aware Conditioning

위에서 만들어진 Point Cloud 점들은 low-resolution 이기 때문에 3D gaussian 을 생성하기에 충분하지 않음
2 step 의 Snowflake point deconvolution (SPD) 을 이용하여 2048개 → 16384 개의 point 로 densify 함
(up-sampling)
SnowflakeNet 의 coarse → detailed 과정
- Global Shape code 를 추출
  - 입력된 포인트 클라우드에서 전체적인 형상 Shape 를 표현하는 코드를 추출 → 벡터 정보
- Point Displacement (점 이동) 예측을 통해 업 샘플링
  - 기존 점에서 약간 이동한 새로운 점을 추가하면서 업 샘플링 수행
SnowflakeNet 은 포인트 클라우드만으로는 부족한 세부적인 형상을 보완하기 위해, 이미지 정보를 활용
- 이를 위해 Projection-Aware Conditioning 기법 적용
  - 이미지에서 얻은 특징을 3D 복원 과정에 반영하기 위해, 포인트 클라우드를 이미지 공간으로 투영(Projection) 하는 기법
  - 각 3D 포인트를 2D 이미지 상의 대응되는 위치로 매핑하여, 해당 위치의 이미지 특징을 가져옴
- 즉, 포인트 클라우드를 이미지에 투영하여,이미지에서 얻은 로컬특징을 Point Cloud 의 shape Code에 반영

Triplane Decoder with Geometry-Aware Encoding

Triplane Decoder 의 역할
- 3D 공간의 특징을 저장하는 Implicit Feature Field 를 생성
- 입력 값
  - 이미지(Image Tokens)
  - 초기 Point Cloud (대략적인 형상을 나타내는 점 집합)
- 출력 값
  - Triplane (3개의 2D 평면에 저장된 3D 공간 특징)
  - 이후, Triplane 을 기반으로 특정 위치에서 3D Gaussian 속성을 디코딩 가능.
- 10-layer Transformer 를 사용하여 더 정교한 특징 학습
기존의 단순 Positional Embedding 대신, Point Cloud를 기반으로 한 Positional Embedding을 사용하여 더 나은 Geometry-Aware Encoding을 수행!
Point Cloud 를 PointNet 을 사용하여 Local Feature 를 학습한 후, Triplane 에 투영(Projection)
- PointNet 을 사용하여 포인트 클라우드의 지역적인 특징을 학습
- 이 과정에서 같은 위치에 투영된 특징들은 Average Pooling 을 사용하여 하나의 값으로 합침

Training

최종적으로 3D Gaussian을 사용하여 렌더링한 이미지가 입력 이미지와 최대한 유사해야 함.

Loss	Description
LCD (Chamfer Distance)	예측된 포인트 클라우드가 GT 데이터와 잘 정렬되도록 학습
LEMD (Earth Mover’s Distance)	포인트 클라우드 간 최적의 이동 경로를 계산하여 정밀한 정렬 유도
LMSE (Mean Squared Error)	렌더링된 이미지가 원본 이미지와 최대한 유사하도록 학습
LMASK (Mask Loss)	객체의 형태(실루엣)가 정확히 복원되도록 마스크 정렬
LSSIM (Structural Similarity)	구조적 유사성을 증가시켜 더 자연스러운 3D 복원 가능
LLPIPS (Perceptual Loss)	고수준 특징을 비교하여 사람의 눈에 자연스러운 3D 복원 유도

AI는 블랙박스다......

'😎AI > 3D Reconstruction' 카테고리의 다른 글

[Paper Review] ThemeStation: Generating Theme-Aware 3D assets from Few Exemplars (0)	2025.03.11
[Notable] 3DGS(3D gaussian splatting) 은 Differentiable 한가? (0)	2025.02.17
[Paper Review][Workflow Review] DreamFusion: Text-to-3D Using 2D Diffusion (1)	2025.01.23
[Code Build][Ubuntu] Gaussian Frosting: Editable Complex Radiance Fields with Real-Time Rendering (1)	2025.01.10
[Code Build][Ubuntu] SuGaR: Surface-Aligned Gaussian Splatting for Efficient 3D Mesh Reconstruction and High-Quality Mesh Rendering (0)	2025.01.10

Sola Just AI

[Paper Review] Triplane Meets Gaussian Splatting: Fast and Generalizable Single-View 3D Reconstruction with Transformers