•
1
Goal: Two human motion pseudo dataset curation w/ penetration loss
◦
Task: 탱고, 복싱 등 두 사람의 interaction이 격렬히 일어나는 또는 dynamic이 높은 비디오로부터 Two human motion pseudo dataset curation
◦
Method:
▪
https://vye16.github.io/slahmr/에 penetration loss 적용 해보기
◦
Motivation
▪
사람은 상대방이 필요한 댄스, 스포츠 등과 같은 행동을 이미지 트레이닝을 통해서 상상하고, 다시 학습할 수 있음.
▪
AI가 이러한 능력을 갖기 위해서, 해당 데이터셋이 필요한데, 두사람이 격렬하게 상호작용하는 데이터셋은 Lab에서 취득하기 힘들기 때문에, In the wild에서 구축하고자 함.
◦
기대
▪
한 사람에 특화된 모델을 만들어서, 한 개인에 대한 4D 행동 분석이 가능해질 것이라 기대
◦
Goal: Two human motion pseudo dataset curation
◦
Task: 탱고, 복싱 등 두 사람의 interaction이 격렬히 일어나는 또는 dynamic이 높은 비디오로부터 Two human motion pseudo dataset curation
◦
◦
Motivation
▪
사람은 상대방이 필요한 댄스, 스포츠 등과 같은 행동을 이미지 트레이닝을 통해서 상상하고, 다시 학습할 수 있음.
▪
AI가 이러한 능력을 갖기 위해서, 해당 데이터셋이 필요한데, 두사람이 격렬하게 상호작용하는 데이터셋은 Lab에서 취득하기 힘들기 때문에, In the wild에서 구축하고자 함.
◦
기대
▪
한 사람에 특화된 모델을 만들어서, 한 개인에 대한 4D 행동 분석이 가능해질 것이라 기대
•
2
[caption graph]
◦
task: video retrieval, video reasoning
▪
caption graph에 대한 feature를 뽑아서 video retrieval 성능 확인
▪
생성된 caption graph를 활용하여 LLM fine-tuning -> reasoning
◦
method
▪
video당 frame/clip/long-clip 단위의 계층적 캡션(caption graph)을 생성
▪
off-the-shelf 캡셔닝 모델 활용
•
3
◦
Task: 3D talking head generation
▪
Speech가 입력되었을때 언어적, 비언어적 신호를 모두 표현할 수 있는 3D 말하는 얼굴(3D talking head) 연구를 진행
▪
Expressive 3D talking head generation with non-verbal signals
•
◦
기존 LaughTalk에서는 non-verbal signal 중 laugh만 다뤘음
◦
이를 더욱 다양한 Non-verbal signal (shout, crying 등)으로 확장하고자 함
•
Step1: 다양한 non-verbal signal을 포함하는 2D video dataset 수집
◦
기존 data collection pipeline 부분 개선하여 데이터 수집
◦
•
Step2: 수집한 2D video dataset을 3D data로 reconstruction
•
Step3: 3D talking head 모델 설계 및 학습
▪
참고 연구
•
DECA: 3D face reconstruction
•
Spectre: Talking aware 3D face reconstruction
•
FaceFormer: 3D talking head
•
EmoTalk: 3D talking head with emotions
•
4
◦
Task: Occlusion aware human mesh reconstruction
▪
3DPW 데이터셋 기준 MPJPE 70 달성
▪
최근 Baseline 코드 구현 및 테스트
▪
test time optimization 기반으로 목표 성능 개선
◦
method
▪
test time optimization 기법 활용
▪
추가적인 방법론은 survey 필요
◦
ref.
▪
방학 연참생 / 학기 중 유급 인턴 형태 모두 가능
▪
챌린지 형태로 과제로 진행도 가능
•
5
◦
Goal: 기존 일반 image domain에서의 image2image translation 기법들을 satellite domain에 적용해보기 (target task: SAR2EO translation)
1.
image domain에서의 image2image translation 기법 조사 및 공유
2.
SAR2EO translation에 적용 가능한 방법들 적용해보기
◦
비고
▪
Keywords: Generative models (Diffusion, GAN, etc.), image2image translation, Satellite domain
▪
유급 인턴 (80만원/월)
•
6
◦
Task: Multi-view diffusion의 surface normal 버전 개발
◦
배경
▪
Zero123와 같은 multi-view diffusion은 RGB 이미지로 fine-tuning하기 때문에output image가 RGB domain으로 bias 되는 현상 있음
▪
Fantasia3D에서 normal rendering을 활용한 것이나, 이후 3D generation task에서 보면 normal rendering을 활용한 SDS loss가 geometry 성능 향상에 큰 역할을 함
◦
방법
▪
따라서 Zero123와 같은 multi-view diffusion을 multi-view aware한 성질은 유지하면서 output domain만 RGB에서 normal rendering 하도록 fine-tuning 또는 ControlNet 같은 방법론 고려 가능
▪
Objaverse rendering code 활용하여 학습 가능
◦
Reference
▪
Fantasia3D: https://fantasia3d.github.io/
▪
Zero123: https://zero123.cs.columbia.edu/
▪
Objaverse: https://objaverse.allenai.org/
•
7
◦
Task: Neural surface reconstruction에서 geometry 뿐 아니라 color 성능도 향상시킨 architecture 탐색 및 개발
◦
배경
▪
기존 NeuS와 같은 surface reconstruction 모델은 geometry에 주로 집중해왔고, NeRF 계열과 비교하여 color recon. 부분 성능이 부족했다고 생각됨
▪
관련하여 최근 Color-NeuS (3DV 2024)에 geometry 뿐 아니라 color까지 recon.하는 방법 발표
▪
Nvdiffrec (CVPR 2022, DMTet + PBR)은 NeuS, NeRF 같은 ray marching 기반 방법이 아니라 rasterization을 활용하고, initial template이 주어져야 한다는 점이다르지만 PBR color rendering까지 동작 함
◦
방법
▪
이전 literatures 특징, 장/단점, 한계점을 파악해 neural surface recon.에서 geometry + color 성능 모두 향상되는 방법론 개발
◦
Reference
▪
Color-NeuS: https://arxiv.org/abs/2308.06962
▪
Nvdiffrec: https://nvlabs.github.io/nvdiffrec/
•
8
◦
Task: In-camera parameter conditioned diffusion model
◦
배경
▪
Multi-view diffusion은 condition으로 relative view를 받는데, 여기서는 in-camera parameters (예를 들면 jpeg 내부에 저장되어 있는 parameters들 활용)을 condition으로 받는 diffusion model 학습도 가능하지 않을지
▪
In-camera parameters condition 조절을 통해서 원하는 photometry를 가지는 이미지 생성
◦
방법
▪
Multi-view diffusion이나 controlNet의 condition 주는 방법 활용하여, 해당 condition을 in-camera parameter로 변경