저는 “다층 방어 체계”가 요즘 유행인가? 라는 생각을 하던 때가 있었습니다. 사실 그 환경에서는 리스크의 확률적인 문제를 이해하는 사람도 없었고, 위에서는 그냥 100% 아님 실패로 봤었습니다. 실제로 국가 단위의 2-3개월의 공격을 스크린샷 몇개와 임직원 ID 일부(3% 내외) 유출로 초기에 막아냈는데, 어찌됬건 해킹을 당한거 아니냐? 라는 논리로 보안팀 책임자가 모두 경질되고, 다른 회사의 보안 전문가라는 사람들이 그 자리를 채우고 다시 같은 일을 반복했습니다.
제가 다층 방어 체계에 관심을 가지기 시작한건 의외로 프로그램 개발을 하면서 인데 개인정보의 검색에 대한 다층 탐색 체계를 구현해서 운영하면서 관심을 가지게 되었습니다. 서로 다른 관점에서 같은 것을 보호하기 위한 설계였는데 지나고 보니 보안 체계 자체를 이렇게 설계 하면 좀 더 안전하겠구나… 비용 문제는 어떻게 할수 있었을까? 라는 생각을 해보게 됬습니다. 지금과 같은 시각이면 비용문제도 나름 잘 해결 할수 있을거 같긴한데 간단히 설계 해서 전 직장 동료란 술자리에서 한번 이야기 해봐야겠네요.
목차
서론: 인공지능 경제 인프라의 확산과 보안 패러다임의 근본적 전환
2026년 현재, 인공지능(AI) 기술, 특히 대규모 언어 모델(LLM)과 생성형 AI의 확산은 현대 기업의 비즈니스 구조를 혁신하는 핵심 동력이 되었습니다. 기업들은 이제 AI를 단순한 보조 도구를 넘어 의사결정의 중추로 활용하고 있으나, 이는 동시에 기존의 사이버 보안 체계로는 대응하기 어려운 새로운 형태의 취약점을 양산하고 있습니다.
전통적인 소프트웨어 보안이 결정론적 논리 구조 내에서 버그를 찾는 데 집중했다면, 현대의 AI 보안은 모델의 확률론적 특성과 열린 결말을 갖는 생성 능력으로 인해 발생하는 비정상적 행동을 예측하고 제어하는 데 초점을 맞춰야 합니다. 이러한 배경 하에 다층 방어 체계(Defense in Depth)의 핵심인 ‘AI 레드티밍(Red Teaming)’은 모델의 추론 방식, 콘텐츠 생성 메커니즘, 그리고 시스템 간의 상호작용에서 발생할 수 있는 잠재적 위험을 식별하기 위한 필수적인 프로세스로 자리 잡았습니다. 본 고에서는 무너진 보안벽을 다시 세우기 위해 Content Safety API와 자동화 도구를 활용한 실시간 필터링 체계 및 지속적인 취약점 스캐닝 전략을 설계와 방법론 중심으로 심층 분석합니다.
1. AI 레드티밍의 정의와 현대 보안 패러다임의 전이
AI 레드티밍은 조직의 AI 자산에 대해 실제 공격자의 전술, 기법, 절차(TTPs)를 모방하여 시뮬레이션 공격을 수행하는 구조화된 적대적 테스트 프로세스입니다. 이는 전통적인 침투 테스트(Penetration Testing)와 유사해 보일 수 있으나, 그 대상과 범위에서 근본적인 차이를 보입니다.
1.1. 인프라 보안에서 모델 거버넌스로의 확장
전통적인 레드티밍이 네트워크나 서버의 보안 경계를 뚫는 데 집중했다면, AI 레드티밍은 모델의 논리적 결함, 윤리적 실패, 정책 위반 사례를 찾아내는 데 주력합니다. AI 시스템은 동일한 입력에 대해서도 결과가 달라지는 비결정론적(Non-deterministic) 특성을 가지므로, 보안 취약점을 완전히 파악하기 위해서는 일회성 테스트가 아닌 반복적인 피드백 루프의 형태로 운영되어야 합니다.
1.2. 비결정론적 취약성의 위협 모델링
AI 보안은 단순히 ‘예 또는 아니오’의 문제가 아니라 ‘어느 정도까지 안전한가’의 문제입니다. 특히 2025년 업데이트된 NIST AI RMF 가이드라인에 따르면, 생성형 AI는 포이즈닝(Poisoning), 회피(Evasion), 데이터 추출, 모델 조작 등 광범위한 위협 카테고리에 노출되어 있습니다. 이를 방어하기 위한 다층 방어 체계는 모델 자체의 안전 훈련(Alignment) 위에 독립적인 보안 레이어를 겹겹이 쌓는 구조로 설계되어야 합니다.
2. 실시간 필터링 체계 설계: Content Safety API의 활용
다층 방어 체계의 가장 첫 번째 방어선은 입출력을 실시간으로 감시하는 모더레이션 레이어입니다. Azure와 OpenAI 등 주요 기술 기업들은 모델의 가드레일을 보강하기 위한 강력한 Content Safety API를 제공하고 있습니다.
2.1. Azure AI Content Safety의 고도화된 기능 (2025-2026)
2026년 현재 Azure AI Content Safety는 단순한 텍스트 검사를 넘어 다각적인 방어 기능을 제공합니다.
- 프롬프트 쉴드(Prompt Shields): 탈옥 공격(Jailbreak)과 간접 공격(Indirect Prompt Injection)을 모두 처리할 수 있는 통합 API를 제공합니다. 사용자가 모델을 조작하여 안전 프로토콜을 우회하려는 시도를 실시간으로 차단합니다.
- 근거성 감지(Groundedness Detection): AI의 답변이 신뢰할 수 있는 사용자 제공 소스에 기반하고 있는지 판별합니다. 이는 환각 현상을 줄이고 정보의 정확성을 높이는 데 기여합니다.
- 보호된 자료 감지: 코드나 텍스트에서 알려진 저작권 자료가 무단으로 출력되는 것을 방지합니다.
2.2. OpenAI Moderation API 및 실시간 모더레이션
OpenAI의 모더레이션 API는 괴롭힘, 혐오, 자해, 성적, 폭력 등 다양한 카테고리를 매우 빠른 응답 속도로 분류합니다. 2025년 말부터는 추론 기능이 강화된 플래그십 모델 라인에 이러한 안전 도구들이 더욱 긴밀하게 통합되어, 모델이 생성 프로세스 중에 스스로 안전 가이드라인을 위반하는지 체크하는 능력이 향상되었습니다.
2.3. 임계값(Threshold) 튜닝과 UX의 조화
Content Safety API를 적용할 때 가장 중요한 설계 요소는 필터링 강도를 결정하는 임계값 설정입니다.
- 엄격한 임계값: 공공 플랫폼이나 교육용 서비스에 적합하지만, 정상적인 요청도 차단될 수 있는 ‘가짜 양성(False Positives)’이 늘어날 수 있습니다.
- 완화된 임계값: B2B 애플리케이션이나 전문 엔지니어링 도구에서 오탐지를 방지하기 위해 사용되지만, 유해 콘텐츠가 통과될 위험이 존재합니다.
3. 지속적인 취약점 스캐닝: 레드티밍 자동화 도구
다층 방어 체계를 유지하기 위해서는 방패가 뚫리지 않는지 끊임없이 점검하는 자동화된 ‘공격 시나리오 실행’이 필수적입니다. 2025년 이후의 레드티밍 도구들은 멀티모달 및 에이전틱 시스템에 대한 지원을 대폭 강화했습니다.
3.1. PyRIT: 멀티모달 및 복합 공격 오케스트레이션
Microsoft에서 개발한 PyRIT은 텍스트뿐만 아니라 이미지, 오디오, 비디오 등 다양한 모달리티를 통한 변환 공격을 지원합니다. 2025년 업데이트를 통해 스스로 도구를 사용하고 의사결정을 내리는 에이전틱 시스템(Agentic Systems)에 대한 공격 시뮬레이션 기능이 추가되었습니다.
3.2. Promptfoo: 개발자 중심의 보안 스캐닝
OpenAI에 인수된 Promptfoo는 개발자들이 LLM 애플리케이션을 배포하기 전 프롬프트 주입 및 탈옥 시도에 대해 테스트할 수 있는 강력한 도구를 제공합니다. 특히 CI/CD 파이프라인에 통합되어 새로운 코드가 배포될 때마다 자동으로 취약점을 점검하는 데 최적화되어 있습니다.
3.3. Giskard 및 기타 오픈소스 도구
Giskard는 50개 이상의 전문 프로브를 활용하여 다회차 대화 시뮬레이션에서 모델의 성능을 평가합니다. 또한 ARTKIT과 같은 도구들은 다단계 공격 체인을 생성하여 모델이 안전한 범위를 벗어나도록 유도하는 정교한 시나리오를 자동화합니다.
4. 다층 방어 체계의 설계 방법론: NIST AI RMF 2025
효과적인 보안 정책은 기술적 필터링을 넘어 조직적인 거버넌스 프레임워크와 조화를 이루어야 합니다. NIST AI RMF 2025 업데이트는 이를 위한 4대 핵심 기능을 제시합니다.
- Govern (거버넌스): 조직 내 위험 관리 문화를 구축하고 명확한 역할과 책임을 할당합니다. 2025년에는 단순히 윤리적 논의를 넘어 준법 및 보안 구조와 일치하는 강력한 거버넌스가 강조됩니다.
- Map (매핑): AI 시스템의 한계와 사용 사례를 정의하고 맥락에 따른 잠재적 위험을 식별합니다. 특히 공급망 및 제3자 모델 평가가 중요한 요소로 도입되었습니다.
- Measure (측정): 레드티밍과 같은 적대적 테스트를 통해 위험의 크기를 정량적, 정성적으로 분석합니다. 2025년 업데이트에서는 독성(Toxicity)뿐만 아니라 편향성, 설명 가능성, 모델 취약성 등이 측정 지표에 포함됩니다.
- Manage (관리): 식별된 위험에 대해 우선순위를 정하고 완화 전략을 실행합니다. 인간 개입(Human-in-the-loop) 제어와 사고 대응 계획 수립이 핵심입니다.
5. 실무적 다층 방어 아키텍처 설계 원칙
실제로 시스템을 구축할 때 적용해야 하는 다층 방어 체계의 구체적인 설계 원칙은 다음과 같습니다.
- 입력 사전 필터링 및 프롬프트 격리: 사용자 프롬프트가 모델에 전달되기 전 Content Safety API로 검사하고, 구분자(Delimiters)를 사용하여 시스템 명령과 사용자 데이터를 명확히 분리합니다.
- 출력 사후 필터링: 모델 응답이 나가기 전 환각, 유해성, 기밀 정보 유출 여부를 최종 확인합니다.
- 최소 권한의 원칙 (Least Privilege): AI 에이전트가 이메일이나 DB 등의 외부 도구를 호출할 때, 해당 작업을 수행하는 데 필요한 최소한의 API 권한만 부여하여 피해 범위를 제한합니다.
- 실시간 행동 모니터링: 에이전틱 AI 환경에서는 모델의 ‘중간 추론 단계’를 조작하는 공격이 발생할 수 있습니다. 따라서 비정상적인 도구 호출 패턴을 실시간으로 감지하는 체계가 필요합니다.
결론: 지속 가능한 신뢰를 향한 다층 방어 전략의 가치
AI 보안은 더 이상 정적인 방어벽 하나에 의존할 수 없습니다. 공격자들은 모델의 확률론적 특성과 자연어의 모호함을 극도로 활용하여 지속적으로 변모하고 있기 때문입니다.
사실 이렇게 보면 다층 방어 체계라기 보다는 그냥 프로세스별 방어 기법으로 보이시죠?
프로세스 보안은 앞 단계가 뚫리면 뒷 단계가 무력화되기 쉬운 구조를 가집니다. 반면, 다층 방어는 “한 겹이 뚫려도 다음 겹이 독립적으로 작동한다”는 전제에서 출발합니다.
- 프로세스적 사고: “입력 단계에서 필터링했으니 모델은 안전한 값만 받을 거야.”
- 다층 방어적 사고: “입력 필터(Content Safety API)가 신종 탈옥 기법을 놓칠 수 있어. 그러니 모델 자체의 거절 기본값(Alignment)도 강화하고, 시스템 프롬프트(System Prompt)로 한 번 더 제약을 걸고, 결과물이 나갈 때 출력 필터로 최종 확인하자.”
즉, 실패를 가정(Assume Breach)하고, 각 계층이 서로를 보완하는 중첩된 안전망을 만드는 것이 핵심입니다.
프로세스 보안이 단순히 ‘순서’라면, 다층 방어는 ‘성격이 다른 방패’를 겹쳐 쓰는 것입니다.
| 계층 (Layer) | 방어 도구 | 역할 및 성격 |
| 제1계층: 입구 방어 | Content Safety API | 외부 침입자(악성 프롬프트)를 실시간으로 스캔하고 차단하는 ‘경비원’ |
| 제2계층: 논리 방어 | 시스템 프롬프트 | 모델이 따라야 할 행동 강령을 정의하는 ‘헌법’ |
| 제3계층: 모델 방어 | RLHF (정렬 기술) | 모델이 유해한 질문에 본능적으로 거부감을 느끼게 하는 ‘도덕성’ |
| 제4계층: 권한 방어 | 최소 권한 API (RBAC) | 공격이 성공하더라도 시스템 전체를 망가뜨리지 못하게 가두는 ‘격벽’ |
만약 프로세스별 보안이었다면 각 단계가 독립적으로 존재하기 어렵겠지만, 다층 방어에서는 입력 필터가 없어도 모델 정렬 기술이 작동하고, 모델 정렬이 무너져도 권한 제어(RBAC)가 피해를 최소화 할 것 같습니다.
사례 : ‘양파’ 구조와 ‘성벽’ 구조의 비유
이해를 돕기 위해 비유를 들어볼게요.
- 프로세스 보안 (성벽): 성문 하나만 잘 지키면 된다고 믿는 방식입니다. 하지만 성문이 부서지면(필터 우회) 바로 왕궁(데이터/시스템)까지 고속도로가 뚫립니다.
- 다층 방어 (양파): 성벽을 넘었더니 해자가 있고, 해자를 건넜더니 미로가 있으며, 미로를 통과했더니 또 다른 내성이 나타나는 구조입니다.
