AI 공습일 실험서 그록만 2월 28일 적중
챗GPT·제미나이·클로드는 1~8일 차이
예측력보다 확률 추정·실험 설계 논란
예루살렘포스트는 지난달 25일 주요 AI 플랫폼 4종을 대상으로 가상 미-이란 충돌 시나리오를 제시하고 공습 일자를 선택하게 하는 실험을 진행했다.

일론 머스크 xAI의 그록은 이 실험에서 2월 28일을 두 차례 일관되게 제시했으며, 실제 미국·이스라엘의 이란 공습은 지난달 28일 새벽 단행됐다.
그록의 답변 화면이 공습 이후 X(구 트위터) 플랫폼을 통해 빠르게 확산되며 AI 예측력 논쟁에 불을 지폈다. 관건은 이것이 실질적 예측력인지, 확률 추정의 우연 일치인지다.
4종 AI 예측 결과 비교

실험에 참여한 AI 4종의 예측 결과는 뚜렷한 차이를 보였다. 그록은 2월 28일을 두 차례 동일하게 제시하며 일관성을 유지했다.
반면 챗GPT(오픈AI)는 처음 3월 1일을 제시했다가 추가 질의 후 3월 3일로 답변을 수정했으며, 구글 제미나이는 외교·군사 변수를 분석해 3월 4-6일 범위를 제시했다.
클로드(앤스로픽)는 초기 날짜 답변을 거부했다가 반복 질의 끝에 3월 7일 또는 8일을 제시했다. 실제 공습일인 2월 28일과 가장 근접한 답변을 낸 것은 그록이 유일했으며, 나머지 3종은 최소 1일에서 최대 8일까지 차이가 났다.
사용자 압박에 AI 구체 답변 유도

이번 실험에서 주목할 점은 실험 방법 자체다. 예루살렘포스트는 날짜 답변을 거부한 AI 모델에 반복 질의와 추가 질문을 이어가며 구체적 날짜를 유도했다.
이에 따라 AI가 사용자 압박에 반응해 본래 유보하려던 답변을 구체화하는 경향이 드러났다는 지적이 나온다.
실험 설계의 인위성이 결과 해석에 영향을 줄 수 있다는 점에서, 그록의 적중을 예측 능력으로 단정하기 어렵다는 평가도 제기됐다. 이스라엘 국방 관계자에 따르면 해당 작전은 수개월 전부터 계획됐으며, 실행일은 몇 주 전에 확정된 것으로 알려졌다.
예지능력 과대해석 경계해야

이번 결과를 AI의 예지능력으로 해석하는 것은 적절하지 않다는 분석이 제기된다.
그록은 기밀 정보에 접근한 것이 아니라 공개된 뉴스 사이클과 외교·군사 변수를 바탕으로 확률을 추정한 것이며, 지난달 26일 제네바 핵협상 3차 회담 등 공개 일정이 분석 근거로 작용했을 수 있다.
그록이 X 플랫폼과 실시간으로 연동돼 정보 확산 속도가 빠른 점도 이번 화제화에 영향을 미쳤다. 결국 좁혀진 선택지 안에서 하나가 일치한 결과로, 확률 추정과 우연 일치 가능성을 배제할 수 없다.
신뢰보다 검증이 먼저

이번 실험은 AI가 공개 정보를 바탕으로 일정 수준의 확률 추정을 수행할 수 있다는 점을 보여줬지만, 동시에 사용자 압박에 따라 답변이 달라지는 경향과 우연 일치를 예측 적중으로 과대해석하는 위험성도 드러냈다.
그록의 단독 적중이 화제가 된 만큼, 나머지 3종 AI가 모두 빗나간 사실도 함께 고려할 필요가 있다.
AI가 제시하는 날짜나 전망은 확률 추정에 기반한 참고 정보일 뿐이며, 이를 사실로 받아들이기보다 공개된 근거와 함께 비판적으로 검토하는 접근이 바람직하다. AI 답변의 일관성과 근거 투명성을 함께 따져보는 습관이 필요한 시점이다.






전체 댓글 0