연구 참여 주제

1
Goal: Two human motion pseudo dataset curation w/ penetration loss
Task: 탱고, 복싱 등 두 사람의 interaction이 격렬히 일어나는 또는 dynamic이 높은 비디오로부터 Two human motion pseudo dataset curation
Method:
https://vye16.github.io/slahmr/에 penetration loss 적용 해보기
Motivation
사람은 상대방이 필요한 댄스, 스포츠 등과 같은 행동을 이미지 트레이닝을 통해서 상상하고, 다시 학습할 수 있음.
AI가 이러한 능력을 갖기 위해서, 해당 데이터셋이 필요한데, 두사람이 격렬하게 상호작용하는 데이터셋은 Lab에서 취득하기 힘들기 때문에, In the wild에서 구축하고자 함.
기대
한 사람에 특화된 모델을 만들어서, 한 개인에 대한 4D 행동 분석이 가능해질 것이라 기대
Goal: Two human motion pseudo dataset curation
Task: 탱고, 복싱 등 두 사람의 interaction이 격렬히 일어나는 또는 dynamic이 높은 비디오로부터 Two human motion pseudo dataset curation
Method:
Video human pose estimation
Human Interaction Prior, https://github.com/muelea/buddi
Motivation
사람은 상대방이 필요한 댄스, 스포츠 등과 같은 행동을 이미지 트레이닝을 통해서 상상하고, 다시 학습할 수 있음.
AI가 이러한 능력을 갖기 위해서, 해당 데이터셋이 필요한데, 두사람이 격렬하게 상호작용하는 데이터셋은 Lab에서 취득하기 힘들기 때문에, In the wild에서 구축하고자 함.
기대
한 사람에 특화된 모델을 만들어서, 한 개인에 대한 4D 행동 분석이 가능해질 것이라 기대
2
[caption graph]
task: video retrieval, video reasoning
caption graph에 대한 feature를 뽑아서 video retrieval 성능 확인
생성된 caption graph를 활용하여 LLM fine-tuning -> reasoning
method
video당 frame/clip/long-clip 단위의 계층적 캡션(caption graph)을 생성
off-the-shelf 캡셔닝 모델 활용
3
Task: 3D talking head generation
Speech가 입력되었을때 언어적, 비언어적 신호를 모두 표현할 수 있는 3D 말하는 얼굴(3D talking head) 연구를 진행
Expressive 3D talking head generation with non-verbal signals
본 연구실에서 수행한 [LaughTalk, WACV24]의 확장 연구 진행
기존 LaughTalk에서는 non-verbal signal 중 laugh만 다뤘음
이를 더욱 다양한 Non-verbal signal (shout, crying 등)으로 확장하고자 함
Step1: 다양한 non-verbal signal을 포함하는 2D video dataset 수집
기존 data collection pipeline 부분 개선하여 데이터 수집
CELEBV-Text, CELEBV-HQ 등의 annotation을 활용
Step2: 수집한 2D video dataset을 3D data로 reconstruction
Step3: 3D talking head 모델 설계 및 학습
참고 연구
DECA: 3D face reconstruction
Spectre: Talking aware 3D face reconstruction
FaceFormer: 3D talking head
EmoTalk: 3D talking head with emotions
4
Task: Occlusion aware human mesh reconstruction
3DPW 데이터셋 기준 MPJPE 70 달성
최근 Baseline 코드 구현 및 테스트
test time optimization 기반으로 목표 성능 개선
method
test time optimization 기법 활용
추가적인 방법론은 survey 필요
ref.
방학 연참생 / 학기 중 유급 인턴 형태 모두 가능
챌린지 형태로 과제로 진행도 가능
5
Goal: 기존 일반 image domain에서의 image2image translation 기법들을 satellite domain에 적용해보기 (target task: SAR2EO translation)
1.
image domain에서의 image2image translation 기법 조사 및 공유
2.
SAR2EO translation에 적용 가능한 방법들 적용해보기
비고
Keywords: Generative models (Diffusion, GAN, etc.), image2image translation, Satellite domain
유급 인턴 (80만원/월)
6
Task: Multi-view diffusion의 surface normal 버전 개발
배경
Zero123와 같은 multi-view diffusion은 RGB 이미지로 fine-tuning하기 때문에output image가 RGB domain으로 bias 되는 현상 있음
Fantasia3D에서 normal rendering을 활용한 것이나, 이후 3D generation task에서 보면 normal rendering을 활용한 SDS loss가 geometry 성능 향상에 큰 역할을 함
방법
따라서 Zero123와 같은 multi-view diffusion을 multi-view aware한 성질은 유지하면서 output domain만 RGB에서 normal rendering 하도록 fine-tuning 또는 ControlNet 같은 방법론 고려 가능
Objaverse rendering code 활용하여 학습 가능
7
Task: Neural surface reconstruction에서 geometry 뿐 아니라 color 성능도 향상시킨 architecture 탐색 및 개발
배경
기존 NeuS와 같은 surface reconstruction 모델은 geometry에 주로 집중해왔고, NeRF 계열과 비교하여 color recon. 부분 성능이 부족했다고 생각됨
관련하여 최근 Color-NeuS (3DV 2024)에 geometry 뿐 아니라 color까지 recon.하는 방법 발표
Nvdiffrec (CVPR 2022, DMTet + PBR)은 NeuS, NeRF 같은 ray marching 기반 방법이 아니라 rasterization을 활용하고, initial template이 주어져야 한다는 점이다르지만 PBR color rendering까지 동작 함
방법
이전 literatures 특징, 장/단점, 한계점을 파악해 neural surface recon.에서 geometry + color 성능 모두 향상되는 방법론 개발
8
Task: In-camera parameter conditioned diffusion model
배경
Multi-view diffusion은 condition으로 relative view를 받는데, 여기서는 in-camera parameters (예를 들면 jpeg 내부에 저장되어 있는 parameters들 활용)을 condition으로 받는 diffusion model 학습도 가능하지 않을지
In-camera parameters condition 조절을 통해서 원하는 photometry를 가지는 이미지 생성
방법
Multi-view diffusion이나 controlNet의 condition 주는 방법 활용하여, 해당 condition을 in-camera parameter로 변경