오픈AI ‘소라’ 서비스 공개
현재는 15초 영상이 최대
AI 동영상 경쟁 본격화
현재는 15초 영상이 최대
AI 동영상 경쟁 본격화
인공지능(AI) 대중화 시대를 맞아 동영상 개발 경쟁이 달아오르고 있다.
기술 혁신 속도가 빨라지면서 텍스트 입력시 이미지가 만들어지는 AI는 실사에 가까울 정도로 기술력 수준이 올라왔다. 이에비해 동영상의 경우, 데이터 확보, 처리속도 등 아직까지 기술적인 난제가 많아 차별화가 가능하다. 뿐만 아니라 유튜브, 틱톡 등에서 바로 사용가능해 활용도가 훨씬 높다는 분석이다.
챗GPT 개발사 오픈AI는 15일(현지시간) 텍스트를 입력하면 동영상을 만들어주는 ‘텍스트 투 비디오(Text to Video)’ AI 모델인 ‘소라(Sora)’를 공개했다.
텍스트를 입력하면 동영상을 만들어주는 오픈AI ‘소라’로 만들어진 영상을 캡처한 사진. [출처 = 오픈AI]오픈AI가 이날 홈페이지를 통해 공개한 데모 버전에 따르면 ‘소라’는 최대 1분 길이의 동영상을 생성할 수 있고, 프롬프트(AI에 내리는 지시)에 충실한 그림을 그려준다. “스타일리한 여성이 따뜻하게 빛나는 네온사인과 움직이는 도시 간판으로 가득한 도쿄 거리를 걷고 있다. 검은색 가죽 재킷, 긴 빨간색 드레스, 검은색 부츠를 착용하고 검은색 지갑을 들고 있다”라고 텍스트를 입력하자 이에 맞춰 여성이 실제로 도쿄거리를 걷는 영상이 만들어졌다. 기존 ‘텍스트 투 비디오’ AI에 비해 어색한 부분이 없는 결과물 이었다.
오픈AI는 ‘소라’를 회사 제품에 통합하기에 앞서 전문가팀에 맡겨 안전성 여부를 평가한다는 계획이다. 실제 상용화하기까지는 시간이 걸릴 것으로 예상된다.
오픈AI가 월등히 뛰어난 성능의 동영상 생성AI 모델을 내놓으면서 다른 기업들은 비상이 걸렸다. 구글과 메타는 2022년 각각 ‘이마겐 비디오’와 ‘메이크어비디오’라는 이름의 ‘텍스트 투 비디오’모델을 내놨지만 어색한 부분이 많다는 평가가 많고, 이후 향상된 버전을 공개하지 못한 상태다.
이 분야에 뛰어든 스타트업들도 오픈AI와 정면 대결을 피할수 없게 됐다.
텍스트를 입력하면 동영상을 만들어주는 오픈AI ‘소라’로 만들어진 영상을 캡처한 사진. [출처 = 오픈AI]이미지 생성 엔진 ‘스테이블 디퓨전’을 만든 스태빌리티AI가 지난해 11월 비디오 생성 모델을 내놨고, 이미지 생성AI로 유명한 미드저니도 ‘텍스트 투 비디오’ 모델을 준비하고 있다. AI영상 편집툴을 만드는 런웨이ML은 ‘젠-2’라고 하는 동영상 생성 서비스를 하고 있다. 실리콘밸리 스타트업인 ‘피카랩스’도 영상 생성 AI 서비스를 공개하면서 지난해 5500만달러의 투자를 받았다.
한편 구글은 이날 자체 개발한 멀티모달 인공지능(AI) 모델 제미나이 1.0 프로의 업데이트 버전을 공개했다. 구글은 제미나이 1.5가 기존 1.0 보다 동시에 정보를 처리할 수 있는 능력이 크게 향상됐다고 밝혔다. 구글에 따르면 이 약 1시간 분량의 동영상, 11시간 분량의 음성, 70만 개 이상의 단어를 한번에 처리할 수 있다. 구글은 데모영상을 통해 제미나이 1.5가 44분 길이의 영화 줄거리를 요약하는 모습을 보여줬다.