본문 바로가기

Boldness/Fun

엔비디아 사운드 생성형 AI Fugato 공개 및 데모 듣는 곳(사용 X)

반응형

https://youtu.be/qj1Sp8He6e4?si=DIVLcaro2_PtpThO

소개 영상 보면 설명 단박에 끝! 하지만 자세한 사항이 궁금하시다면 아래 글을 읽어보세요.

특정 사운드 제거, 생성, 기존 음원이나 멜로디를 덧붙이는 등 써보고 싶은 기능들이 많았다. 개인적으로 음악 작업을 종종 하는데 보통 육퇴후에 하다보니 보칼 멜로디짜고 하는게 쉽지 않다. Fugato AI가 도움을 줄 수 있을 것 같다.
데모 사이트(Fugato 생성한 사운드 데모를 들어볼 수 있다) : https://fugatto.github.io

https://fugatto.github.io/

Your browser does not support the video tag. Fugatto is a framework for audio synthesis and transformation given text instructions and optional audio inputs. The framework includes the generative model Fugatto, a dataset creation technique that exploits re

fugatto.github.io


원문 출처 : https://blogs.nvidia.co.kr/blog/fugatto-gen-ai-sound-model/

Fugatto라는 새로운 AI 사운드 생성기가 등장하여 사용자가 텍스트를 통해 오디오 출력을 직접 조작할 수 있는 혁신적인 기능을 제공합니다. 이는 기존의 노래 작곡이나 음성 수정 능력보다 훨씬 더 뛰어난 유연성을 보여줍니다. 음악 제작자, 광고업체, 언어 학습 툴 개발자 등 다양한 분야에서 활용될 수 있으며, 특히 개인의 창의성을 극대화하는 데 기여합니다. 이 모델은 사용자가 상상하는 모든 음향을 구현할 수 있어 사용자는 마치 예술가처럼 느낄 수 있습니다. Fugatto는 미래의 오디오 합성과 변형 기술의 발전을 이끌 중요한 기초를 제공합니다.
핵심 용어

1. 🎵 Fugatto: 혁신적인 AI 사운드 생성기

Fugatto는 텍스트와 오디오 파일을 조합하여 음악, 목소리, 소리를 생성하거나 변형할 수 있는 강력한 도구이다 .
이 AI 모델은 텍스트 프롬프트를 기반으로 음악 스니펫을 생성하거나, 기존 곡에서 악기를 제거 및 추가하고, 목소리의 악센트나 감정을 변경할 수 있다 .
사용자는 Fugatto를 통해 한 번도 들어보지 못한 완전히 새로운 소리를 만들어낼 수 있다 .
Fugatto는 인간이 소리를 이해하고 생성하는 방식을 목표로 한 모델이며, 이는 라파엘 발레와 Fugatto 개발팀이 추구하고 있는 비전이다 .
이 모델은 데이터와 모델 규모를 활용하여, 자유롭게 형성된 명령어를 결합할 수 있는 기초 AI 모델로서 첫 발을 내딛었다 .

2. 🎵 다양한 활용 사례의 샘플 플레이리스트

음악 프로듀서는 Fugatto를 이용해 곡의 아이디어를 신속히 프로토타입하거나 편집할 수 있으며, 다양한 스타일과 악기를 시도할 수 있다 .
광고 에이전시는 Fugatto를 활용하여 기존 캠페인을 여러 지역이나 상황에 맞게 조정할 수 있으며, 목소리에 다양한 억양과 감정을 적용할 수 있다 .
언어 학습 도구는 사용자가 선택한 어떤 목소리로도 개인화될 수 있으며, 특정 친척이나 친구의 목소리로 온라인 코스를 쉽게 상상할 수 있다 .
비디오 게임 개발자는 Fugatto 모델을 사용하여 게임 내 사전 녹음된 자산을 사용자의 플레이에 맞게 수정하거나, 텍스트 지침과 선택적인 오디오 입력으로 새로운 자산을 즉석에서 생성할 수 있다 .
Fugatto는 사용자가 설명하는 모든 것을 생성할 수 있으며, 고급 조정과 소량의 노래 데이터를 통해 사전 훈련되지 않은 작업인 고품질의 노래 목소리 생성도 가능하다 .

3. 🎨 예술적 제어 기능 제공

Fugatto는 예술적 조합을 위한 여러 기능을 추가로 제공한다.
모델은 ComposableART라는 기법을 사용하여 학습 시 별도로 사용된 지시사항들을 조합한다.
사용자들은 텍스트 지시사항에서 억양의 무게감과 슬픔의 정도 등을 세밀하게 조정할 수 있다.
Rohan Badlani는 사용자가 각 속성에 얼마나 강조를 둘 것인지 주관적이거나 예술적으로 선택할 수 있도록 기능을 설계했다고 밝혔고, 이는 예술가 같은 경험을 가능하게 한다.
모델은 시간에 따라 변화하는 소리 생성이 가능하며, 예를 들어 비 오는 소리가 점차 사라지는 천둥 소리를 생성할 수 있다.
사용자는 소리 풍경이 어떻게 변하는지를 세밀하게 제어할 수 있으며, 이전에 본 적 없는 소리 풍경을 창조할 수도 있다.

반응형