ETRI, 문장 입력하면 2초 만에 뚝딱 이미지 만든다
한국전자통신연구원
작성일 :
한국전자통신연구원(ETRI)은 문장을 입력해 이미지를 만드는데 기존 대비 5배 빠른 ‘코알라(KOALA)’3종 모델과 이미지나 영상을 불러와 질의응답을 할 수 있는 대화형 시각언어모델 ‘코라바(Ko-LLaVA)’2종 등 총 5종 모델을 일반에 공개한다고 밝혔다.
연구진은 모델 크기를 1/3로 축소했고, 고해상도 이미지를 기존 대비 2배, 달리(DALL-E) 3 대비 5배가량 빠르게 개선했다.
ETRI는 모델 생성 속도를 2초 내외로 만들고 모델의 크기도 대폭 줄여, 최근 문장(텍스트)에서 이미지를 만드는 국내·외 경쟁 속에서 8GB의 저용량의 메모리를 갖는 저가의 그래픽처리장치(GPU)에서도 구동할 수 있다고 밝혔다.
ETRI에서 자체 개발한 파라미터별 ‘코알라(KOALA)’ 3종 모델은 허깅페이스(HuggingFace) 환경에서 공개됐다.
실제로 연구진이 “달 아래 화성에서 책을 읽고 있는 우주비행사의 사진”이라는 문장을 입력하자, ETRI가 만든 코알라 700M(7억 개)는 1.6초 만에 이미지를 뚝딱 만들어 냈다.
칼로(카카오브레인)는 3.8초, 달리 2(오픈AI)는 12.3초, 달리 3(오픈AI)는 13.7초가 걸렸다.
ETRI는 기존 공개S/W인 스테이블 디퓨전 모델 2종, 기업에서 공개한 BK-SDM, 칼로(Karlo), 달리(DALL-E) 2, 달리(DALL-E) 3의 4종을 포함, 총 9개 모델을 직접 비교 체험해 볼 수 있는 사이트 및 모델 제공 사이트를 만들어 공개했다.