◆ 해외 법정 뒤집은 'AI 생성 가짜 판례'
지난 16일 영국 가디언 보도에 따르면, 초드허리 라흐만(Chowdhury Rahman)이라는 이름의 변호사가 AI 생성 판례를 재판부에 제출했다가 적발돼 물의를 빚었다. 라흐만은 온두라스 국적 자매의 망명 사건 항소심 준비 과정에서 챗GPT와 유사한 생성형 AI를 사용한 것으로 전해진다. 그러나 그가 항소 이유서에 적시한 총 12개의 판례 중 일부는 아예 존재하지 않았고 다른 것들은 인용된 법적 주장과 전혀 무관한 것으로 밝혀졌다.
이 사건에 대해 마크 블런델 항소심 판사는 "라흐만은 재판부의 시간을 낭비하고 AI 활용 사실도 숨기려 했다"고 질타했다. 또한 그를 변호사 규제 기관인 변호사표준위원회(Bar Standards Board)에 보고할 것을 고려 중이라고 밝혔다.
블런델 판사는 "인용된 결정 중 단 하나도 항소 이유서에 명시된 법적 주장을 뒷받침하지 못했다"고 지적하며, 변호사가 AI 사용 사실을 숨기려 한 점도 질타했다. 또 다른 <가디언> 보도 사례에서도 한 변호사가 앤트로픽의 클로드(Claude)와 마이크로소프트 코파일럿(Copilot)이라는 두 개의 AI를 교차 검증에 사용했음에도, 4개의 존재하지 않는 가짜 판례를 제출했다가 적발됐다. 판사는 "AI 기술에 대한 과신과 기본적인 전문가의 과실이 만난 사례"라고 강하게 비판했다.
앞서 8월에 서호주에서도 비슷한 일이 있었다. 한 변호사가 챗GPT, 클로드, 코파일럿 같은 여러 AI를 이용해 교차검증 후 제출한 판례 4건도 실제로 존재하지 않았던 사건이다.
해당 사건에 대해 애런 게라드(Arran Gerrard) 판사는 변호사를 서호주 법률 실무 위원회에 회부하고 연방정부 소송 비용 8370달러를 부담하라고 명령했다. 게라드 판사는 "이 사건은 AI에 전적으로 의존하는 법조인들이 직면한 위험성을 명백히 보여준다"며 "이와 유사한 사례가 법조계의 신뢰를 심각하게 훼손하는 수준으로 증가 중"이라고 경고했다.
◆ 경찰과 변호사도...한국도 위험지대
국내 사정도 다르지 않다. 지난 17일 국회 행정안전위원회 국정감사 현장에서는 AI 위험에 안이했던 경찰청이 도마 위에 올랐다. 이날 더불어민주 권칠승 의원은 경기 용인동부경찰서가 아동복지법 위반 사건에 내린 불송치 결정문에 '가짜 법리'가 사용됐다며 유재성 경찰청장 직무대행을 질타했다.
현장에서 공개된 경기 용인동부경찰서 결정문 일부에 따르면 '일시적 언행만으로는 정신 건강에 해를 끼친다고 단정하기 어렵고, 반복성·지속성이 인정돼야 한다'는 등의 내용을 대법원과 서울북부지법 판결이 인용돼 있다. 하지만 이는 실제 판결문에 존재하지 않는 내용이었으며 챗GPT로 작성된 사실이 드러났다. 특히 경찰청 자체 법률 AI가 있음에도 범용 챗GPT를 활용해 불필요한 문제가 발생한 건이었다.
법원에서도 유사한 사건이 이어지고 있다. 지난 9월 법률신문 보도에 따르면 한 지방법원 형사 재판부는 A 변호사가 제출한 의견서에 인용된 판결 5개가 법원 전산망에 존재하지 않음을 확인했다.
◆ 가짜 판례 생성은 왜 끊이지 않나
법조인들도 깜빡 속을 수 있는 '가짜 판례'는 왜 생성되는 걸까? 이는 현세대 AI의 엔진 역할을 하는 대형언어모델(LLM)의 기술적 특성에 기인한다. AI가 그럴싸한 거짓말을 하는 문제, 흔히 '환각(Hallucination)'으로 잘 알려진 이 문제는 아직 기술적으로 100% 근절이 불가능한 문제로 꼽힌다. LLM이 문장을 생성하는 과정은 사람처럼 정확한 맥락과 사실에만 근거를 두지 않는다. 학습된 데이터, 주어진 데이터에서 맥락상 통계적으로 가장 그럴듯한 다음 단어를 예측해 생성하는 '확률형 시스템'이다.
지난 몇 년 간 AI 모델 기술이 개선되면서 '정답 생성의 확률'은 그만큼 높아졌지만 완전한 건 아니다. 또한 AI 기술 전문가들은 "만약 환각을 100% 통제하려고 할 경우 오히려 AI의 창의성이 감소하고, 생성 가능한 결과물도 줄어드는 문제가 있다"고 설명한다.
무엇보다 AI는 사용자 요구에 부응하려는 경향이 있다. 컴퓨터 시스템의 보상은 '사용자의 긍정적 반응'이다. 따라서 학습 과정에서 모델은 인간이 선호하는 답변에 가중치를 부여한다. 만약 변호사가 "A라는 주장을 뒷받침할 판례를 찾아줘"라고 명령했을 때 적절한 판례가 없다면, AI는 사용자를 만족시키기 위해 그럴듯한 판례 창작이라는 수를 택할 수 있다는 뜻이다.
또한 애초에 범용 AI가 판례와 같은 법률 지식에 강하지 않다는 점도 한계다. 특히 한국은 판례 데이터 접근성이 유독 낮은 국가로 꼽힌다. 현재 미국 연방법원이나 유럽 주요국은 판결문 선고 후 일정 기간(24시간~1개월) 이내에 이를 대부분 무료로 공개한다.
반면 한국은 극소수 판결문을 제외하면 수요자가 1건당 1000원의 수수료를 내고 판결문 열람을 신청해야 한다. 판결문 내 개인정보 비실명화 작업과 관련 예산 부족이 유료화의 근거지만, 원하는 판례 데이터를 구하는 것이 상대적으로 힘든 구조다. 이런 환경에서 챗GPT와 같은 범용 AI 서비스에서 한국 판례 검색에 높은 정확도를 기대하는 건 어렵다.
아직 이 문제에 대한 기술적 해법은 환각 발생 가능성을 '최대한 낮추는 것' 정도다. 이를 위해 신뢰할 수 있는 고품질 데이터의 AI 학습과 RAG(검색증강생성) 같은 기술 접목이 중요하다. RAG는 AI가 내부 학습 데이터에만 의존해 답을 창작하지 않는다. 대신 검증된 외부 데이터베이스(DB)에서 관련 문서를 먼저 검색한 뒤 그 내용을 기반으로 답변을 생성하도록 강제하는 기술이다. 실제로 이런 기술이 적용된 법률(Legal) AI 전문 서비스들도 있다. BHSN의 앨리비(allibee), 로앤컴퍼니의 슈퍼로이어, 엘박스(LBox) 등이 대표적이다. 이들 서비스는 범용 AI보다 사용료는 비싸지만 고품질 데이터 학습, 법률 특화 RAG 기술 등이 적용되어 보다 신뢰할 수 있는 사용 환경을 제공한다.
하지만 이조차 '만능'은 아니다. 리걸 AI 업계 관계자는 "환각도 여러 종류가 있다. 아예 존재하지 않는 답을 만드는 것, 실제 데이터를 활용하지만 연관성이 다소 떨어지는 답을 생성하는 것 등"이라며 "리걸 AI 서비스들은 기본적으로 높은 신뢰도를 자랑한다. 최소한 범용 AI처럼 아예 없는 사실을 지어내지 않는 것이 특징"이라고 설명했다. "다만 결과물의 적합도 수준은 일부 만족도의 차이가 있을 수 있기 때문에 전문 법조인의 최종 검토 과정도 간과할 수 없는 것"이라고 덧붙였다.
◆ 기술을 불완전해... 본질은 '사용자의 책임감'
이 관계자의 말처럼 전문가들은 근본적으로 법조인의 AI 리터러시(Literacy, 문해력)가 문제라고 입을 모은다. AI가 생성한 결과물은 어디까지나 '보조적 수단'임에도 100% '맹신'하는 법조인들의 인식이 문제라는 것이다. 앞서 서호주 법원에서 AI 생성 판례가 적발된 변호사 역시 "AI가 생성한 내용은 신뢰할 수 있다는 잘못된 가정으로 모든 인용을 검증하지 않았다"고 인정한 사실이 전해진다.
더 큰 문제는 AI가 만든 가짜 판례를 걸러내기 위해 낭비되는 법원과 상대 변호사의 노동력과 행정력 등이다. 또한 이런 문제가 반복될수록 AI 시대에 AI를 통제할 수 있어야 할 '인간 전문가'의 신뢰도와 직업 가치 하락으로 이어질 수밖에 없다.
오정익 법무법인 원 인공지능앤테크팀장(변호사)은 "AI 기술의 특성상 앞으로도 판결문 데이터만 많이 공개된다고 환각 현상이 개선될지 의문"이라며 "물론 기술로 환각을 제어하는 노력도 중요하다. 하지만 그보다 앞서 올바른 AI 활용 교육과 이해가 더 중요한 시점"이라고 지적했다. 이어 "모든 기술은 사용자에 따라 부작용과 폐해가 결정돼 왔다. 그건 이 시대의 AI도, 그 AI를 활용하는 법조인들도 마찬가지"라고 덧붙였다.