“조명, 풍경 등 사실적인 이미지 생성… 정확도는 부족”
“MAI 출시하며 오픈AI와 거리두기 속도”
마이크로소프트(MS)가 최근 첫 이미지 생성 모델 ‘MAI-Image-1(MAI)’를 출시했다. MS는 사진 수준의 사실적인 이미지 생성을 목표로 MAI를 개발했다고 밝혔다. 현재 이미지 생성 모델 시장은 오픈AI의 챗GPT가 선점하고 구글의 나노 바나나가 치고 올라오고 있다. MS가 후발주자로 이용자들의 관심을 끌어모을지 주목된다.
MS는 지난 13일(현지시각) 자사 홈페이지를 통해 MAI를 공개한다고 밝혔다. MAI는 MS가 내놓은 첫 이미지 생성 모델이다. MS는 “창작자에게 진정한 가치를 제공한다는 목표로 MAI를 훈련했으며, 반복적이거나 일반화된 스타일의 출력이 나오지 않도록 세심하게 주의를 기울였다“라고 설명했다. MS는 또 MAI가 반사광 등 조명이나 풍경 등 사실적인 이미지를 생성하는 데 뛰어나다고 했다.
인공지능(AI) 모델 비교 사이트 LMArena에서 MS MAI, 오픈AI 챗GPT, 구글 나노 바나나(제미나이 2.5 플래시 이미지)를 비교했다. 세 모델 모두에게 ‘로스앤젤레스 FC의 손흥민 선수가 골을 넣은 뒤 세레모니를 하는 모습을 구현해달라’고 요청했다. 동료들이 달려와 함께 기뻐하는 모습도 연출해달라고 지시했다.
그러나 MAI는 손흥민 선수라고는 볼 수 없는 동양인 남성 선수의 모습을 내놨다. MS의 설명처럼 조명, 관객, 잔디밭 등 배경 연출은 경쟁사 대비 정교했지만, 정확도 면에서는 부족한 모습을 보였다. 챗GPT도 손흥민 선수와 전혀 다른 모습을 그렸다. 나노 바나나가 구현한 이미지의 경우 배경은 MAI보다 투박했지만, 다른 모델 대비 손흥민 선수에 가까운 인물의 모습을 구현해 냈다.
MAI는 해외 유명인사의 외형은 성공적으로 묘사했다. 세 모델에 ‘미국 영화배우 브래드 피트가 F1 영화 촬영장에서 연기하는 모습을 그려달라’라고 주문했다. MAI는 브래드 피트를 사실적으로 표현했을 뿐 아니라, 촬영장이라는 특징에 맞게 주위에 레이싱카나 카메라 등 촬영 장비를 배치했다. 촬영용 조명의 빛 번짐이나 그림자 표현 면에서는 MAI가 경쟁사에 앞섰다.
MAI는 정치적 인물 등 특정 대상에 대한 요청은 거부했다. MS는 자체 인공지능(AI) 윤리 정책에 따라 정치적 인물에 대한 답변을 제한하고 있다. 세 모델 모두에게 ‘도널드 트럼프 미국 대통령이 연설하는 모습을 그려달라’라고 지시했다. 챗GPT와 나노 바나나는 약 30초 후 이미지를 제공했지만, MAI는 ‘오류가 생겼다’라며 이미지 생성을 거부했다. MS 측은 이에 대해 “윤리적이고 안전한 AI 모델을 만들고 있다”라고 설명했다.
MAI는 챗GPT나 나노 바나나처럼 원하는 이미지를 AI를 이용해 다른 이미지로 변형시키는 작업도 할 수 없었다. LMArena에서 MAI를 이용해 고양이 사진을 3D(차원) 피규어 장난감처럼 구현해달라고 지시하자, ‘선택된 이미지 생성 모델이 해당 기능을 제공하지 않는다’라는 안내가 떴다. 반면 챗GPT와 나노 바나나에서는 요청한 이미지를 제공했다.
MS는 오픈AI의 초기 투자자로, 자사의 코파일럿(Copilot)에 챗GPT 검색 엔진을 이용하는 등 긴밀한 협업 관계를 유지했다. 그러나 오픈AI가 MS로부터 더 많은 컴퓨팅 자원과 자금을 요구하고, 기업 고객을 대상으로 AI 제품을 판매하기 시작하면서 두 회사가 멀어진 것으로 알려졌다. 최근에는 MS가 오픈AI의 경쟁사인 앤트로픽의 AI 모델이나 일론 머스크가 이끄는 AI 스타트업 xAI의 ‘그록’을 도입하기도 했다.
이미지 생성 모델 후발주자인 MS가 시장을 점령하고 있는 오픈AI를 따라잡을 수 있을지 미지수다. 시장조사업체 디멘드세이지에 따르면, 챗GPT의 생성형 AI 시장 점유율은 81.13%로 업계 1위다.
IT매체 더버지는 “MS가 MAI 같은 자체 AI 모델 훈련에 대규모 투자를 진행 중”이라며 “두 회사(MS와 오픈AI)의 관계는 점점 복잡해지고 있다”라고 평가했다.