GETTYIMAGES
검색 활용 능력 부족한 메타AI와 그록3
이번 실험은 구글 AI 모드, 구글 AI 오버뷰, 오픈AI GPT-5, 오픈AI 챗GPT-4 터보, 앤트로픽 클로드, 메타 메타AI, xAI 그록3, 퍼플렉시티 퍼플렉시티, 마이크로소프트 빙 코파일럿 등 9개 AI 도구를 대상으로 진행됐다. 구글 AI 모드는 웹을 깊이 있게 검색해 여러 출처를 종합한 뒤 답변을 제공하고, AI 오버뷰는 구글 검색창에 검색어를 입력하면 검색 결과를 요약해서 보여준다. 그록 최신 모델인 그록4는 무료 버전이 없어 테스트 대상에 포함되지 않았다.워싱턴포스트는 30개의 까다로운 질문을 던진 뒤 900개 답변을 받아, 전문 사서 3명에게 의뢰해 답변 정확성을 1~10점으로 평가했다. 모든 AI 도구는 무료 기본 버전(7~8월 기준)으로 테스트했으며, 질문은 퀴즈, 전문 자료 검색, 최근 사건, 내재된 편향(편견), 이미지 인식 등 5가지 부문으로 구성했다.
그 결과 AI 모드가 100점 만점에 60.2점으로 가장 높은 점수를 받았다(표 참조). 그 뒤를 이어 GPT-5가 55.1점으로 2위, 퍼플렉시티가 51.3점으로 3위를 차지했다. 빙 코파일럿은 49.4점으로 4위, 챗GPT-4 터보는 48.8점으로 5위, AI 오버뷰는 46.4점으로 6위, 클로드는 43.9점으로 7위, 그록3는 40.1점으로 8위를 기록했다. 메타 AI는 33.7점으로 최하위에 그쳤다.
1위에 오른 구글 AI 모드는 퀴즈와 최근 사건 부문에서 상대적으로 정확한 답을 제시했다. 워싱턴포스트는 “AI 모드는 퀴즈와 최근 사건 대응에서 독보적인 강점을 보였다”며 “다만 결과를 내는 데 시간이 오래 걸리고 접근 방식이 다소 번거롭다는 한계가 있다”고 지적했다.
전문 자료 검색에서는 빙 코파일럿이 가장 높은 점수를 받았다. 반면 퍼플렉시티와 그록3는 틀린 답을 내면서도 링크를 제시해 혼란을 야기했다. 출처를 표기함으로써 마치 정답처럼 보이게 했지만 실제로는 사실과 다른 답을 내놓은 것이다.
이미지 인식에서는 퍼플렉시티가 가장 높은 점수를 받았다. 편향성과 관련해서는 챗GPT-4 터보가 가장 치우치지 않는 답을 내놓았다. GPT-5는 전반적 성능 개선을 보여 2위를 차지했지만 일부 영역에서는 챗GPT-4 터보보다 오히려 낮은 점수를 받았다. 메타AI와 그록3는 검색 활용 능력 부족으로 최하위권에 머물렀다. 메타AI는 답변을 자주 거부했으며 그록3는 X(옛 트위터)에 지나치게 의존해 퀴즈 부문에서 형편없는 결과를 냈다.
상당수 질문에 제대로 답하지 못해
워싱턴포스트는 “이번 테스트는 AI의 약점을 의도적으로 공략했지만 상당수 일상 질문에 AI가 여전히 제대로 답하지 못한다는 사실이 드러났다”고 분석했다. 이어 “AI가 정보의 최신성과 출처의 신뢰도를 판별하는 데 어려움을 겪고 있으며, 잘못된 답을 자신 있게 내놓기도 했다”며 “비판적 사고를 통해 AI가 내놓은 답변을 한 차례 더 검증하는 것이 바람직하다”고 전했다.또한 “테스트 질문의 64%는 전통적인 구글 검색으로 더 빨리 정확한 답을 얻을 수 있었다”는 사서들의 평가를 전하면서 “AI는 복잡한 질문에서는 ‘건초더미 속 바늘’을 찾는 데 유용했지만, 단순 검색에서는 오히려 ‘노이즈’를 만들 수 있다”며 “AI가 구글을 대체하기까지는 아직 갈 길이 멀다”고 결론지었다.
이한경 기자
hklee9@donga.com
안녕하세요. 주간동아 이한경 기자입니다. 관심 분야인 거시경제, 부동산, 재테크 등에 관한 취재하고 있습니다.
[오늘의 급등주] “ESS 수요 증가” 에코프로 강세
[영상] “3중 규제 초강력 ‘10·15 대책’… 서울 집값 조정 가능성 크다”