스탠포드 대학 연구진이 발표한 최근 논문에 따르면, 챗GPT를 포함한 주요 AI 챗봇들은 믿음과 현실을 구분하는 데 심각한 문제를 드러내고 있어, 이들이 잘못된 정보를 퍼뜨릴 가능성에 대한 우려가 커지고 있다.
연구진은 “대부분의 AI 모델은 지식과 사실의 관계를 제대로 이해하지 못한다. 지식은 본질적으로 진실과 연결되어야 한다는 점을 모른다”고 지적했다. 이러한 결과는 챗봇들이 일관된 추론을 하기보다, 단순한 패턴 매칭에 의존하는 경향이 있다는 점을 보여준다.
현재 의료, 법률 등 중요한 분야에서 AI의 활용이 확대되는 가운데, 사실과 허구를 구분하는 능력의 부족은 심각한 문제로 이어질 수 있다. “이같은 구분 능력의 결여는 진단을 오도하거나, 법적 판단을 왜곡시키며, 잘못된 정보의 확산을 촉진할 수 있다”고 연구진은 경고했다.
연구진은 Claude, GPT, DeepSeek, Gemini 등 24종의 대형 언어 모델을 대상으로 1만 3천 개 이상의 질문을 통해, 챗봇들이 믿음, 지식, 사실을 구분하는 능력을 평가했다. 결과적으로, 이러한 시스템은 거짓 믿음과 진실된 믿음을 명확히 구별하는 데 실패했고, 구형 모델일수록 그 성능이 더 떨어졌다. 챗GPT 역시 구별 능력이 부족한 것으로 확인됐다.
2024년 이후 출시된 최신 모델(GPT-4o 등)은 사실을 식별하는 정확도가 91.1%~91.5% 수준이었으나, 이전 모델들은 71.5%~84.8%로 나타났다. “이는 AI 챗봇들이 지식의 본질적 특성을 제대로 이해하지 못한 채, 불완전한 추론 전략에 의존하고 있다는 방증”이라고 연구진은 설명했다.
특히 대형 언어 모델의 현실 인식은 아직 매우 취약하다. 예를 들어, 최근 Grok이라는 AI에 ‘영국 총리 10명의 포스터를 만들어 달라’고 요청한 결과, Rishi Sunak을 ‘Boris Johnson’으로 잘못 인식하는 등 명백한 오류가 다수 발견됐다.
이에 따라, 연구진과 전문가들은 법률, 의료 등 생명이나 권리를 다루는 분야에서 AI의 도입은 “시급히 개선이 필요”하다며, 단순한 주관적 판단과 객관적 사실을 구별하는 시스템 개발을 촉구했다.
마드리드 자치대학교 컴퓨터 언어학 전문가 Pablo Haya Coll 교수는 “신념과 지식을 혼동하는 것은 중대한 판단 오류로 이어질 수 있다”며, AI 챗봇이 더 신중한 답변을 하도록 훈련하는 방안도 제시했다.
스탠포드 연구진은 “AI 기술의 근본적 한계를 극복하지 못한다면, 고위험 분야에서의 광범위한 도입은 위험하다”고 결론지었다.




SKOREA.NEWS