두번째 책에는 AI보안을 추가!
인생첫책 전략적 해커에 이어서 현재 집필중인 두번째 책에는 3~4개 Chapter를 추가하려고 준비중에 있다고 했었는데 그중의 한 아이템이 바로 AI보안이었다. ChatGPT로 대표되는 생성형 AI가 새롭게 주목을 받으면서 이제 거스를 수 없는 대세 흐름이 되었기 때문이다. 이미 나도 책 집필부터해서 사용 안하는 곳이 없지 않은가? 개인이 더 이상 개인이 아닌 팀으로, 아니 개인을 하나의 회사로 움직일 수 있도록 해주는 막강한 녀석이다.
NIST, 적대적 기계 학습 관련 가이드라인 발표
그런데 놀랍게도 불과 며칠전 미국 국립표준기술원(NIST)이 적대적 기계 학습(Adversarial Machine Learning, 이하 AML)에 대한 새로운 가이드라인인 NIST AI 100-2e2023 발표했다. 소오름! 정말 Miracle 2024!
개인적으로 이 가이드라인은 AML의 복잡한 지형을 탐색하고 이해하는 데 큰 도움을 줄 것이라 생각한다.
※ 여기서 잠깐! 대체 AML이 무엇인가?
AML은 AI 시스템을 조작하여 원하는 결과를 얻으려는 공격의 한 유형이다. 이러한 공격은 자율 주행 자동차를 혼란에 빠뜨리거나, 대출 승인 시스템을 속여 돈을 빼돌리거나, 심지어 의료 진단을 왜곡시켜 환자의 조기 치료 가능성을 없애 버릴 수도 있다.
가이드라인 발표가 가지는 의미
나는 이 가이드라인의 발표를 두손두발들어 대환영한다! AML 공격은 AI 시스템의 보안을 위협하는 심각한 문제이며, 이 가이드라인이 AI 시스템을 더욱 안전하게 만드는 데 도움이 될 것으로 확신한다.
사실 NIST에서 이러한 가이드라인을 발표했다는 사실 자체가 AML 공격에 대한 이해와 대응을 위한 중요한 진전으로 볼 수 있지 않을까? AML 공격은 매우 정교해지고 있으며, 이를 방어하기 위해서는 다양한 기술과 전략이 필요하다. NIST AI 100-2e2023은 이러한 기술과 전략을 이해하고 적용하는 데 도움이 될 것이다.
특히 AML 공격의 분류와 용어를 정의함으로써, AML 공격에 대한 이해를 돕고, 이에 대한 대응을 체계화할 수 있을 것이고, AML 공격에 대한 완화 및 관리 방법을 제시함으로써, AI 시스템 개발자와 운영자에게 실질적인 도움을 줄 수 있을 것!
앞으로 이 가이드라인이 AI 보안의 발전에 기여할 수 있기를 바랍니다.
저도 블로그에서 계속해서 AML에 대한 정보를 공유하겠습니다!
NIST AI 100-2e2023 나만의 요약
1. 일반적인 AML 공격
특이한 점이 없어보이는 이미지가 자율 주행 자동차를 혼란에 빠뜨리는 것을 상상해보자. 또는 조작된 데이터를 대출 승인 시스템에 입력하여 부적절한 사람들에게 권한을 부여하는 상황은? 이것들은 AML 공격의 극히 단편적인 사례에 불과하며 주로 네 가지 유형으로 분류된다.
- 회피 공격(Evasion Attacks) : 모델을 속여 합법적인 입력을 잘못 분류하도록 만드는 공격이다. 예를 들어, 정지 표지 모양을 약간만 변경하면 교통 신호 인식 시스템이 이를 무시하도록 속일 수 있다.
- 독살 공격(Poisoning Attacks) : 모델 훈련 중 악성 데이터를 삽입하여 출력을 왜곡하는 공격이다. 허위 금융 기록을 신용 모델에 주입하여 향후 대출 결정에 영향을 미칠 수 있다.
- 개인정보 침해 공격(Privacy Attacks) : 취약점을 악용하여 모델에서 민감한 정보를 추출하는 공격이다. 악의적인 행위자는 회사의 추천 엔진을 분석하여 회사 내부 기밀 정보에 대한 힌트 또는 직접적인 인사이트를 얻을 수 있다.
- 악용 공격(Misuse Attacks) : 모델의 의도하지 않은 기능을 악의적인 목적으로 이용하는 공격이다. 피싱 이메일을 감지하도록 훈련된 스팸 필터가 합법적인 이메일을 스팸으로 표시하여 중요한 의사소통을 방해할 수 있다.
※ AML 공격은 모델 또는 훈련 데이터에 대한 적은 지식으로도 공격이 가능하게 한다.
NIST 보고서는 공격자의 지식 수준에 따라 AML 공격을 세 가지 종류로 나누었다. White-box 공격은 공격자가 AI 시스템에 대한 완전한 지식을 가지고 있는 반면, Gray-box 공격은 모델 구조는 알지만 파라미터는 모르는 등 부분적인 지식을 바탕으로 이루어진다. 이 중 가장 주목해야 할 것은 Black-box 공격이며, 여기서는 공격자는 공격 대상인 모델이나 훈련 데이터에 대한 지식이 거의 없거나 전혀 없다.
폐쇄 소스 또는 신뢰할 수 있는 모델 제공업체의 제품이라는 이유만으로 AI 도구가 안전하다고 가정해서는 안된다. 일반 사용자와 동일한 접근 권한을 가진 Black-box 공격자들은 다양한 방법을 사용하여 모델 정보와 개인 데이터를 추출하고 특정 머신 러닝 도구의 성능을 저하시킬 수 있다.
예를 들어, Black-box evasion attack에서는 예측 AI 모델에 일반 쿼리를 던져 모델의 예측 라벨 및 신뢰 점수에 대한 이해를 구축하며 이를 통해 모델의 약점을 파악하고 결국 모델을 속여 잘못된 응답을 이끌어내는 악의적인 예시(adversarial example)를 만들 수 있다. 이러한 공격은 상대적으로 적은 수의 쿼리 (1,000개 미만)로도 성공적으로 수행될 수 있으므로 쿼리 제한 조치로는 억제하기 어렵다.
또 다른 시나리오에서는 Black-box 공격자들은 정밀하게 작성된 프롬프트를 사용하여 대규모 언어 모델(LLM)을 "탈옥"하여 개인 정보를 출력하거나 피싱 이메일 및 악성코드와 같은 악의적인 콘텐츠를 생성할 수 있다.
※ 악용 위험이 더 높은 Generative AI
NIST 가이드라인은 공격자의 목표와 목적에 따라 AML 공격을 가용성 파괴, 무결성 위반, 개인 정보 유출, 악용 등 네 가지 주요 카테고리로 분류했다.
이때 첫 세 가지 분류는 Predictive AI와 Generative AI 모두에 적용되지만, 악용 카테고리는 최근 몇 년간 LLM 및 이미지 생성 도구의 급속한 발전으로 인해 중요한 관심사로 등장한 Generative AI만 해당된다.
악용 위반은 피싱 이메일 생성이나 악성코드 작성과 같은 악의적인 콘텐츠를 생성하기 위해 AI 도구를 무기화하는 것을 의미한다. 또한 여기에는 대화형 봇, 이미지 생성기 및 기타 AI 도구를 사용하여 허위 정보를 퍼뜨리고 차별과 혐오감을 조장하는 행위도 포함될 수 있다.
공격자 기술에는 직접 프롬프트 주입, 간접 프롬프트 주입, 데이터 오염 등이 포함된다. 한 연구 그룹은 간접 프롬프트 주입을 사용하여 Bing의 GPT-4 구동 대화형 봇이 알베르트 아인슈타인이 노벨상을 수상하지 않았다고 잘못 부인하도록 조작하는 데 성공했다.
또한 FraudGPT 및 WormGPT와 같은 탈옥 및 적대적 LLM이 온라인 해킹 커뮤니티에서 판매됨에 따라 사이버 방어자들은 이러한 새로운 AML 카테고리에 대해 경계해야 한다.
※ 원격으로 데이터 Source를 오염시켜 악의적인 프롬프트를 주입하기
간접 프롬프트 주입 공격은 데이터 중독의 독특한 형태로, 공격자가 모델이 출력물을 결정하는 데 사용하는 데이터를 원격으로 조작하는 것을 포함한다. 여기에는 공격자가 악의적인 콘텐츠와 지시를 포함하도록 편집할 수 있는 웹사이트, 문서 및 데이터베이스가 속한다.
예를 들어, AI 도구가 더 이상 사용되지 않는 도메인에서 정보를 가져오도록 훈련되었다면, 공격자는 그 도메인 이름을 구매하고 악의적인 콘텐츠를 업로드할 수 있다. 이는 공격자가 사용자에게 전파하려는 허위 정보나 증오 콘텐츠를 포함할 수 있으며, 심지어는 유해한 출력을 초래할 수 있는 AI에 대한 지시까지 포함할 수 있다.
지시에 따라 간접 프롬프트는 AI가 사용자를 악성 링크로 유도하거나, 서비스 거부(DoS) 공격으로 이어지는 시간 소모적인 작업을 실행하거나, 심지어는 한 연구원이 보여준 것처럼 챗봇틍 통해 사용자의 채팅 데이터를 제3자에게 전송하도록 만들 수 있다.
과거 연구에 따르면 AI 모델이 사용하는 데이터 세트의 0.1%만 중독시켜도 성공적으로 조작할 수 있다는 사실이 밝혀졌다. NIST 가이드라인은 이러한 수준의 데이터 중독은 달성하기 어렵지 않다고 언급하면서, 연구 그룹의 연구를 인용했다. 이 연구 그룹은 주요 데이터 세트의 0.01%를 단지 60달러만에 중독할 수 있음을 보여주었다.
이 연구원들은 위키피디아와 같은 crowd-sourced 정보 저장소가 웹에서 데이터에 의존하는 모델을 간접적으로 조작하기 위한 또 다른 공격 경로를 만들어낸다고 지적했다.
웹 규모 데이터 세트를 활용하는 AI 개발자는 이러한 위험을 인식하고 출력 모니터링, 인간 피드백 강화 학습(RLHF) 및 유해한 입력과 출력을 차단하는 필터와 같은 완화 방법을 활용해야 한다.
2. 강력한 ML 모델 기술
다행히도 우리는 위와 같은 위협에 대해 무방비 상태는 아니다. ML 모델을 강화하는 몇 가지 전략은 다음과 같다.
- 데이터 강화(Data Fortification) : 강력한 데이터 정리/검증 기술을 구현해 이상값과 악성 데이터가 모델을 손상하기 전에 제거한다.
- 모델 독립적 방어(Model Agnostic Defenses) : 회복력을 향상시키기 위해서 모델을 일부러 조작된 공격에 노출시키는 적대적 훈련처럼 다양한 ML모델에서 사용하는 기술을 활용한다.
- 앙상블 학습(Ensemble Learning) : 개별적인 취약점을 극복하기 위해 여러 모델을 결합하여 전체적인 모델의 방어력을 높인다.
- 설명 가능 인공 지능(Explainable AI, XAI) : 모델의 결정 이유를 밝혀주는 도구를 활용하여 잠재적인 편향이나 조작 시도를 식별하고 완화한다.
3. AML의 실제 적용
AML이 보안 이슈를 만들어 내기도 하지만 역설적이게도 그안의 잠재력은 악의적인 의도를 넘어서는 측면도 있다. 아래와 같은 몇 가지 긍정적인 적용 사례를 살펴보자.
- 의료 진단: 의료 영상 알고리즘이 암세포와 건강한 세포 사이의 미묘한 차이를 탐지하기 어려울 때가 있다. 적대적 훈련은 암세포가 변장한 모습을 알고리즘에게 가르쳐 이러한 숨겨진 암세포 찾기를 도와주어 궁극적으로는 더 빠른 진단과 더 효과적인 치료로 이어질 수 있다.
- 사이버 보안 위협 탐지: 해커는 악의적인 코드를 숨겨 공격을 은폐할 수 있다. 적대적 훈련은 방어 시스템이 이러한 위장된 공격을 식별하고 막아내는 데 도움을 줄 수 있다. 마치 숙련된 무술 고수가 상대의 눈속임 기술을 꿰뚫어보듯이?
- 자연어 처리 (NLP): 우리가 대화하는 방식은 사람이다보니 정확하고 명료하지 않은 경우가 많다. 챗봇이 우리의 뜻을 정확히 이해하도록 하려면 다양한 언어적 트릭을 고려해야 한다. 적대적 훈련은 챗봇에게 이러한 언어적 함정을 인식하고 올바르게 해석할 수 있도록 가르칠 수 있다.
4. AI 공격으로부터 완벽한 보호는 없다!
NIST 보고서는 다양한 AML 공격 유형에 대한 완화 전략을 제시하면서도, AI를 잘못된 방향으로 유도하는 것으로부터 완벽하게 보호하는 방법은 아직까지 존재하지 않으며, AI 개발자와 사용자는 그렇게 주장하는 사람들을 경계해야 한다고 밝혔다.
따라서 새롭게 개발된 AI 시스템을 배포하기 전에 AI개발자는 물론 사용자 역시도 조심해야 한다고 경고한다.
완화 접근 방식은 보고서에 명시된 모든 공격 유형을 고려해야 하며, 공격자의 지식, 목표 및 능력뿐만 아니라 공격이 훈련 단계, 배포 단계 등 어느 단계에서 발생할지도 고려해야 한다.
저자들은 AI 모델과 사용자를 보호하는 데는 개발자가 개인정보 보호, 공정성, 정확성과 같은 속성을 우선 순위로 정할 때 고려해야 하는 상충 관계가 포함될 가능성이 높다고 지적한다.
※ NIST AI 100-2e2023은 본 글의 첨부에서 확인이 가능하고, NIST의 웹사이트에서도 무료로 다운로드할 수 있다.
https://nvlpubs.nist.gov/nistpubs/ai/NIST.AI.100-2e2023.pdf
'두번째 책! (준비중)' 카테고리의 다른 글
Keynote Speaker 초대를 받다 from 2024 SA NEVPI Conference (0) | 2024.01.12 |
---|---|
도대체 책은 왜? 어떻게 쓰게 되셨어요? (0) | 2024.01.10 |
벌써 6장 마무리? (0) | 2024.01.07 |
6장의 흐름까지 잡다! (0) | 2024.01.05 |
기업문화를 해킹하다! Hacking Enterprise Culture for Security (0) | 2024.01.04 |
댓글