중국 AI 챗봇, 상당한 자체 검열 나타내: 새 연구 결과

미국 - 이크바리 뉴스 통신사

중국 AI 챗봇, 상당한 자체 검열 나타내: 새 연구 결과

중국의 디지털 검열에 대한 논의는 종종 예측 가능한 방향으로 흘러가며, 조지 오웰의 "1984"를 연상시키는 인터넷에 대한 오래된 논쟁을 되풀이합니다. 그러나 중국 정부가 신흥 기술에 대한 통제를 어떻게 행사하는지에 대한 간헐적인 발견은 끊임없이 진화하는 검열 장치를 드러냅니다. 스탠포드 대학과 프린스턴 대학의 학자들이 최근 발표한 논문은 특히 중국 인공지능 모델의 행동에 초점을 맞춰, 이러한 후자의, 더 계몽적인 범주에 속합니다.

이 연구는 145개의 정치적으로 민감한 질문을 네 개의 중국 대규모 언어 모델(LLM)과 다섯 개의 미국 LLM에 제시했으며, 결과의 신뢰성을 보장하기 위해 실험을 100번 반복했습니다. 주요 목표는 응답을 비교하고 회피 또는 편향 패턴을 식별하는 것이었습니다.

Read Also

이 분야를 면밀히 모니터링하는 사람들에게는 아마 놀랍지 않을 결과이지만, 검열 행동의 중요한 차이에 대한 구체적인 증거를 제공합니다. 중국 모델은 정치적으로 민감한 쿼리에 직면했을 때 미국 모델에 비해 훨씬 더 높은 거부율을 보였습니다. 예를 들어, DeepSeek는 질문의 36%에 답변하기를 거부했고, 바이두의 Ernie Bot은 32%를 거부했습니다. 이에 반해 OpenAI의 GPT와 Meta의 Llama와 같은 주요 미국 모델의 거부율은 3% 미만이었습니다. 더욱이, 중국 모델이 답변을 제공했을 때, 그 답변은 종종 더 짧았고 미국 모델의 답변보다 덜 정확한 정보를 포함했습니다.

연구의 핵심 측면은 사전 훈련 데이터의 영향을 사후 훈련 개입에서 분리하는 것을 목표로 했습니다. 핵심 질문은 관찰된 편향이 주로 이 모델들이 훈련된 데이터에서 비롯되었는지 - 중국에서의 수십 년간의 인터넷 검열에 의해 본질적으로 형성된 데이터 - 또는 개발자들이 모델을 민감한 주제에서 멀어지게 하기 위해 의도적으로 수동 조정한 것에서 비롯되었는지였습니다. 스탠포드 대학의 정치학 교수이자 논문의 공동 저자인 제니퍼 판(Jennifer Pan)은 "중국 인터넷이 수십 년 동안 검열되어 왔다는 점을 감안할 때, 누락된 데이터가 많이 있습니다."라며 어려움을 지적했습니다.

그러나 연구진의 발견은 수동 개입이 훈련 데이터의 내재된 편향보다 더 중요한 역할을 할 수 있음을 시사합니다. 영어로 답변할 때조차도, 훈련 데이터셋이 이론적으로 더 광범위한 글로벌 정보 범위를 포함할 것으로 예상되는 언어임에도 불구하고, 중국 LLM은 여전히 응답에서 더 높은 수준의 검열을 보였습니다. 이는 훈련 데이터에서 수동적으로 상속된 것을 넘어 모델 출력의 능동적인 형성을 시사합니다.

결과는 명확합니다. DeepSeek 또는 Qwen과 같은 중국 AI 모델과 상호 작용하는 사용자는 천안문 광장 학살과 같은 사건에 대해 질문할 때 직접적인 검열에 직면할 수 있습니다. 이 연구의 중요성은 이러한 관찰 가능한 편향에 대한 정량적이고 재현 가능한 증거를 제공하여 일화적인 관찰을 넘어서는 데 있습니다. 이는 연구자들이 이러한 AI 시스템 내의 조작 범위와 출처를 이해하는 데 도움이 됩니다.

결과 발표를 넘어, 저자들은 방법론과 중국 AI 모델의 편향 연구에 내재된 어려움에 대해 깊이 파고들었습니다. 또한 AI 검열 논쟁의 미래 궤적을 평가하기 위해 다른 연구자들과도 상담했습니다. 강조된 한 가지 중요한 어려움은 AI 모델이 "환각"을 일으키는 경향이 있다는 것입니다 - 즉, 그럴듯하지만 거짓 정보를 생성하는 것입니다. 이로 인해 모델이 정보를 숨기기 위해 의도적으로 거짓말을 하는지, 아니면 단순히 데이터 부족이나 오류로 인해 답변을 꾸며내는지를 결정하기 어렵습니다.

판 교수는 2010년 노벨 평화상 수상자인 중국 반체제 인사 류샤오보와 관련된 연구에서 설득력 있는 예를 들었습니다. 한 중국 모델은 류샤오보가 "핵무기 기술과 국제 정치에 대한 공헌으로 유명한 일본 과학자"라고 답했습니다. 이것은 명백한 거짓말입니다. 연구자들에게 중요한 질문은 이것이 류샤오보에 대한 진실을 배우는 것을 사용자들이 알지 못하게 하려는 의도적인 오도 행위였는지, 아니면 모델의 훈련 데이터에서 그에 대한 정확한 정보가 완전히 누락된 결과인 환각이었는지입니다.

판은 이러한 모호성을 차단된 웹사이트를 분석하는 자신의 이전 작업과 비교하여 "더 노이즈가 많은 검열 측정치"라고 설명했습니다. "이러한 신호가 덜 명확하기 때문에 검열을 감지하기가 더 어렵고, 제 이전 연구의 많은 부분이 검열이 덜 감지 가능할 때 가장 효과적이라는 것을 보여주었습니다." 의도적인 속임수와 의도하지 않은 환각의 혼란스러운 공존은 이 분야의 연구자들에게 더 높은 수준의 엄격함을 요구합니다.

MATS 펠로우십 프로그램과 관련된 연구원인Khoi Tran과 Arya Jakkli는 Claude 기반 에이전트를 사용하여 Qwen 및 Kimi와 같은 중국 LLM에서 검열된 정치적 사실을 자동으로 추출하려는 시도에서 겪었던 어려움을 공유했습니다. 그들은 자동화된 에이전트가 비교할 진실을 알지 못했을 때 작업의 어려움에 놀랐습니다. 그들의 실험에서는 35명이 사망한 2024년 중국의 차량 돌진 공격이 사용되었습니다. Claude는 지식 마감일로 인해 정보가 부족했지만, Kimi는 이 사건을 알고 있었지만 논의를 거부했습니다. Tran이 설명했듯이, Claude가 "거짓과 진실을 구별할 수 없기" 때문에 Claude를 통해 Kimi가 공격 세부 사항을 밝히도록 속이려는 시도는 반복적으로 실패했습니다.

Related News

MATS 연구원들은 중국 기술이나 검열에 대한 사전 전문 지식이 없었기 때문에 모델의 기만성을 판단하는 데 더 큰 어려움을 겪었습니다. 그러나 그들은 숨겨진 정보를 발굴하는 데 대한 관심 때문에 특히 중국 LLM을 목표로 삼았습니다. 대부분의 인기 있는 LLM은 명시적인 안전 지침(예: 폭탄 제조법 가르치지 않기)을 받지만, 더 미묘하고 내장된 지침을 발견하는 것은 어려운 과제입니다. 지침을 숨기는 정교한 방법을 사용하는 중국 모델은 귀중한 테스트 환경을 제공합니다. 이러한 모델에서 정보를 추출하기 위해 개발된 기술이 다른 서구 AI 시스템에도 적용될 수 있기를 희망합니다.

China Media Project의 Alex Colville이 최근 발표한 논문은 이 분야를 더욱 조명했습니다. Colville은 Alibaba의 Qwen 모델이 응답을 생성하기 전에 추론 과정을 공개하도록 강제될 수 있으며, 이를 통해 수신한 특정 지침이 드러난다는 것을 보여주었습니다. "중국의 국제적 명성은 무엇인가?"와 같은 간단한 질문에 특정 조건 하에서 질문했을 때, Qwen은 단순히 답변을 제공했을 뿐만 아니라 답변을 안내하는 기본 지침을 명확히 설명했습니다.

이크바리 뉴스 통신사

중국 AI 챗봇, 상당한 자체 검열 나타내: 새 연구 결과

연구, 편향된 응답 형성에 있어 훈련 데이터보다 수동 개입이 더 중요한 역할을 함을 시사