최근 마이크로소프트(MS)에서 스틸 사진 한 장으로 사람들이 말하고, 몸짓을 하며, 실감나게 움직이는 동영상을 생성할 수 있는 새로운 인공지능(AI) 시스템인 'VASA-1'을 공개했습니다. 이 기술은 정지된 이미지에 생동감을 불어넣어 마치 살아 있는 것처럼 보이게 만들어 준다는 점에서 주목할 만한 혁신이라고 할 수 있는데요. 지금부터 VASA-1의 특징과 장점에 대해 자세히 살펴보도록 하겠습니다.
얼굴 표정과 입 모양을 정교하게 구현하는 VASA-1
VASA-1은 단순히 스틸 사진을 움직이게 만드는 것이 아니라, 주어진 음성에 맞춰 입 모양과 표정을 매우 정교하게 구현해냅니다. 얼굴의 미묘한 감정 변화와 자연스러운 머리 움직임까지 생성할 수 있다는 것이 이 기술의 가장 큰 강점인데요. 이는 얼굴의 여러 부분에서 작동하는 다이내믹스를 종합하여 풍부하고 실제적인 표현을 가능하게 만드는 혁신 덕분이라고 합니다.
이러한 AI도구를 다양한 산업에서 사용될 수 있는데요, 이러한 기술 습득은 미래 산업에서 꼭 필요한 직군중 하나로 보여집니다.
아래에 AI관련 무료 교육 정보도 정리 해 두었으니 관심있으신 분들은 버튼을 클릭하셔서 꼭 확인 해 보세요
사용자가 직접 제어할 수 있는 VASA-1
VASA-1이 더욱 특별한 이유는 사용자가 생성 과정을 직접 제어할 수 있다는 점입니다. 슬라이더 바를 조절하여 모션 순서, 눈 응시 방향, 머리 거리, 감정 표현 등을 자유자재로 조정할 수 있기 때문에, 원하는 대로 동영상을 만들어낼 수 있습니다. 이는 기존의 사진-영상 변환 기술과는 차별화되는 VASA-1만의 장점이라고 볼 수 있겠네요.
다양한 콘텐츠 생성이 가능한 VASA-1
또한 VASA-1은 학습 데이터셋에 포함되지 않은 다양한 콘텐츠도 생성해낼 수 있습니다. 예술 사진이나 노래, 비영어 음성 등 기존 AI 모델로는 다루기 어려웠던 소재들도 VASA-1을 활용하면 자연스러운 동영상으로 만들 수 있다고 하니, 그 활용 범위가 무궁무진할 것 같습니다.
VASA-1의 성능
VASA-1은 성능 면에서도 매우 우수한 것으로 알려져 있는데요. 오프라인 배치 처리 모드에서는 초당 45프레임, 온라인 스트리밍 모드에서는 최대 초당 40프레임의 속도로 512x512 해상도의 동영상을 생성할 수 있다고 합니다. 이는 실시간 활용이 가능한 수준의 빠른 처리 속도라고 볼 수 있겠죠.
특징 | 설명 |
---|---|
정교한 얼굴 표정 구현 | 주어진 음성에 맞춰 입 모양과 감정 표현을 섬세하게 만들어냄 |
사용자 제어 가능 | 슬라이더 바로 모션, 눈 방향, 감정 등을 직접 조정 가능 |
다양한 콘텐츠 생성 | 예술 사진, 노래, 비영어 음성 등 학습 데이터 외 소재도 활용 가능 |
빠른 처리 속도 | 초당 최대 45프레임(오프라인), 40프레임(온라인) 고화질 동영상 생성 |
마치며
VASA-1로 만든 동영상이 실제 영상을 완벽하게 재현하기는 어렵겠지만, 정지 이미지에 생명력을 불어넣는 기술로서는 상당히 인상적인 성과라고 할 수 있을 것 같습니다. 앞으로 이 기술이 교육, 엔터테인먼트, 마케팅 등 다양한 분야에서 활발히 활용될 수 있기를 기대해 봅니다.
'IT 정보,리뷰,구매정보' 카테고리의 다른 글
메타 메갈로돈 활용 방법, 대형언어모델 주요 특징은? (0) | 2024.04.24 |
---|---|
메타 오픈소스 언어모델 라마 3 활용 방법 (0) | 2024.04.24 |
AI 음악 창작 플랫폼 라이브(LAIVE) 음악 만드는 방법 (0) | 2024.04.24 |
어도비 프리미어 프로 AI 다운로드, 영상 편집의 새로운 패러다임 알아보기 (0) | 2024.04.24 |
스테이블 디퓨전 3: AI 이미지 생성 기술 알아보기 (0) | 2024.04.24 |