정치적 민감 질문에 응답 테스트
‘국가 권력 전복 선동’ 등 민감한 키워드 수집해야
무작정 답변 거부하는 것도 제한
영국 파이낸셜타임스(FT)는 17일(현지시간) 복수의 소식통을 인용해 중국 사이버공간관리국(CAC)이 바이트댄스, 알리바바, 문샷 등 AI 관련 기술 기업들을 대상으로 자사 AI 모델에 대한 정부 검토를 의무화하고 있다고 보도했다.
이러한 노력에는 수많은 질문에 대한 LLM의 답변을 일괄 테스트하는 작업이 포함되며, 그중 상당수의 질문이 정치적으로 민감한 주제나 시진핑 중국 국가주석과 관련된 내용인 것으로 전해졌다. 중국 전역의 CAC 지역 본부 관계자들이 이러한 작업을 수행하고 있다. 모델 훈련 데이터, 기타 안전 프로세스도 검토 대상이다.
이는 개별 기업의 자체 검열로 이어지고 있다. 중국 항저우의 한 AI 회사 직원은 “우리는 첫 시도에서 통과하지 못했는데, 이유가 명확하지 않아 약간의 추측과 조정이 필요했다”며 “두 번째는 통과했지만 수개월이 걸렸다”고 말했다.
기본 모델은 답변에 제한이 없어서 필터링이 매우 중요하다. 필터링 작업은 학습 데이터에서 문제가 되는 정보를 걸러내고 민감한 키워드의 데이터베이스를 구축하는 것에서 시작된다. 2월 발표된 중국 AI 기업에 대한 운영지침에 따르면 AI 회사는 ‘국가 권력 전복 선동’, ‘국가 단결 훼손’ 등 핵심 사회주의 가치를 위반하는 수천 개의 민감한 키워드와 질문을 수집해야 한다. 민감한 키워드는 매주 업데이트될 예정이다.
그 결과 대부분의 중국 챗봇은 텐안먼 사태나 시 주석 풍자 이미지 관련 질문에 대해 “다른 질문을 해보라”, “아직 이 질문에 답하는 방법을 배우지 못했다”며 답변을 거부하고 있다.
다만 중국 관리들은 AI가 모든 정치적 주제를 회피하는 것을 지양하고 있다. CAC는 안전 테스트 중 LLM이 거부할 수 있는 질문 수에 제한을 둔 것으로 알려졌다. 2월 발표된 준국가 표준에 따르면 LLM은 질문의 5% 이상을 거부해선 안 된다.