대규모 언어 모델(LLM)이란 무엇인가요?
대규모 언어 모델(LLM)은 인간의 언어를 이해하고 생성하도록 설계된 최첨단 자연어 처리(NLP) 개발 기술입니다. LLM은 방대한 양의 텍스트 데이터로 학습된 고급 AI 모델로, 언어 패턴을 인식하고 문맥을 이해하며 일관되고 맥락에 맞는 응답을 생성할 수 있습니다. NLP가 기계가 언어를 이해하는 데 필요한 기본 기술을 제공하는 반면, LLM은 기계가 인간과 같은 언어 이해 및 생성 능력을 모방할 수 있도록 크게 강화한 전문화된 접근 방식입니다.
현재 운영 중인 LLM에는 어떤 것이 있나요?
LLM은 자연어 처리의 최전선을 대표하며, 현재 Google의 Gemini, Meta의 Galactica 및 Llama, OpenAI의 GPT 시리즈, 그리고 Falcon 40B 및 Phi-1과 같은 여러 모델이 이 분야를 지배하고 있습니다. 다양한 아키텍처와 매개변수 크기를 갖춘 이 모델들은 쿼리에 대한 답변부터 긴 구절에 걸쳐 일관되고 맥락에 맞는 텍스트를 생성하는 작업까지 다양한 작업에 탁월한 성능을 발휘합니다.
Google이 도입한 BERT는트랜스포머 기반 아키텍처로 기초적인 토대를 마련했습니다. 반면, 최근 출품작인 메타의 갤럭티카는 과학계에 심대한 영향을 미칠 수 있는 오해의 소지가 있는 '환각'을 만들어낸다는 이유로 조사를 받고 있는 가운데 과학계를 노골적으로 겨냥하고 있습니다. 한편, OpenAI의 GPT 시리즈, 특히 GPT-3와 GPT-4는 170조 개가 넘는 파라미터와 텍스트와 이미지를 모두 처리할 수 있는 기능을 갖춘 것으로 알려진 획기적인 성능을 자랑합니다. 이 모델의 뛰어난 성능으로 인해 이론적으로 인간 지능과 동등하거나 이를 능가하는 기계 능력인 인공 일반 지능(AGI)에 가까워졌다는 추측이 나왔습니다.
그러나 도전은 계속되고 있습니다. 이러한 모델의 대규모와 복잡성으로 인해 예측할 수 없는 결과가 나올 수 있으며, 엄청난 교육 요구 사항으로 인해 환경적 지속 가능성과 편향된 결과에 대한 우려가 제기될 수 있습니다.
하지만 우려 속에서도 LLM의 발전은 웹 검색 개선과 같은 일상적인 작업부터 의학 연구 및 사이버 보안과 같은 중요한 영역에 이르기까지 다양한 분야에서 발전을 약속합니다. 이 분야가 발전함에 따라 잠재력과 주의 사이의 균형은 여전히 가장 중요합니다.
LLM의 작동 방식
인간과 유사한 언어를 이해하고 생성하는 데 탁월하기 위해 LLM은 신경망 네트워크, 방대한 학습 데이터 세트, 트랜스포머라는 아키텍처를 조합하여 사용합니다.
신경망 네트워크
대규모 언어 모델의 핵심은 딥 러닝 모델이라고 하는 여러 계층으로 구성된 신경망입니다. 이러한 네트워크는 상호 연결된 노드 또는 뉴런으로 구성되며, 학습 단계에서 입력 데이터의 패턴을 인식하는 방법을 학습합니다. LLM은 웹사이트, 책, 기사 등 다양한 소스를 아우르는 방대한 양의 텍스트를 학습하여 문법, 구문, 의미론, 문맥 정보를 학습할 수 있습니다.
패턴을 인식하도록 설계된 알고리즘을 기반으로 신경망은 일종의 기계 인식, 라벨링 또는 원시 입력의 클러스터링을 통해 감각 데이터를 해석합니다. 신경망의 아키텍처는 노드 간의 연결이 순환을 이루지 않는 단순한 피드포워드 네트워크부터 정교한 계층과 여러 피드백 루프가 있는 복잡한 구조에 이르기까지 다양합니다.
컨볼루션 신경망(CNN): 특히 격자형 토폴로지를 가진 데이터를 처리하는 데 효과적입니다. 예를 들어 이미지 데이터는 2D 픽셀 그리드로 생각할 수 있습니다.
순환 신경망(RNN): 텍스트 및 음성과 같은 순차적 데이터에 적합합니다. 각 단계의 출력은 이전 계산과 지금까지 처리된 내용에 대한 특정 종류의 메모리에 따라 달라집니다.
트랜스포머
트랜스포머 아키텍처는 2017년 바스와니 등이 소개한 LLM의 핵심 구성 요소입니다. 트랜스포머는 장거리 종속성 및 병렬화 문제로 어려움을 겪었던 RNN 및 LSTM과 같은 초기 시퀀스 모델의 한계를 해결합니다. 트랜스포머는 자체 주의라는 메커니즘을 사용하여 모델이 입력 컨텍스트에서 서로 다른 단어의 중요성을 평가하고 시퀀스 내 거리에 관계없이 단어 간의 관계를 파악할 수 있도록 합니다.
토큰화
토큰화는 LLM으로 텍스트를 처리하는 첫 번째 단계입니다. 입력된 텍스트는 토큰이라는 작은 단위로 나뉘며, 토큰은 신경망이 처리할 수 있는 숫자 표현(벡터)으로 변환됩니다. 학습하는 동안 모델은 입력 토큰과 그 관계를 기반으로 상황에 맞는 출력 토큰을 생성하는 방법을 학습합니다.
훈련 과정에는 역전파라는 기술을 통해 신경망 연결의 가중치를 조정하는 과정이 포함됩니다. 모델의 예측과 학습 데이터의 실제 대상 토큰 간의 차이를 최소화함으로써 모델은 보다 정확하고 일관된 언어를 생성하는 방법을 학습합니다.
학습이 완료된 대규모 언어 모델은 소규모의 작업별 데이터 세트에서 단기간 동안 모델을 학습시켜 감정 분석, 요약 또는 질문 답변과 같은 특정 작업이나 도메인에 맞게 미세 조정할 수 있습니다. 이 프로세스를 통해 LLM은 일반화된 언어 이해력을 대상 작업의 뉘앙스와 요구 사항에 맞게 조정할 수 있습니다.
관련 문서: 인공 지능 설명
LLM의 이점
대규모 언어 모델은 다음과 같은 다양한 이점을 제공합니다:
- 고급 자연어 이해: LLM은 언어의 맥락과 뉘앙스를 이해할 수 있으므로 보다 관련성 있고 인간적인 답변을 제공할 수 있습니다.
- 다용도성: LLM은 텍스트 생성, 요약, 번역, 질의응답 등 다양한 업무에 적용할 수 있으며, 업무별 교육이 필요하지 않습니다.
- 번역: 여러 언어로 훈련된 LLM은 여러 언어 간에 효과적으로 번역할 수 있습니다. 일부에서는 패턴을 기반으로 알려지지 않았거나 잃어버린 언어의 의미를 도출할 수도 있다는 이론도 있습니다.
- 일상적인 작업 자동화: LLM은 요약, 문구 바꾸기, 콘텐츠 생성 등 텍스트 관련 작업을 수행할 수 있어 비즈니스와 콘텐츠 제작자에게 특히 유용할 수 있습니다.
- 긴급 능력: 방대한 양의 데이터를 학습했기 때문에 LLM은 다단계 연산, 복잡한 질문에 대한 답변, 연쇄 사고 프롬프트 생성 등 예상치 못한 놀라운 능력을 발휘할 수 있습니다.
- 디버깅 및 코딩: 사이버 보안에서 LLM은 기존 방법보다 더 빠르게 코드를 작성하고 디버깅하는 데 도움을 줄 수 있습니다.
- 위협 패턴 분석: 사이버 보안에서 LLM은 지능형 지속 위협(APT)과 관련된 패턴을 식별하여 사고 어트리뷰션 및 실시간 완화를 지원할 수 있습니다.
- 응답 자동화: 보안 운영 센터에서 LLM은 대응을 자동화하고, 스크립트와 도구를 생성하며, 보고서 작성을 지원하여 보안 전문가가 일상적인 업무에 소비하는 시간을 줄여줍니다.
이러한 장점에도 불구하고 LLM에는 관리해야 할 단점과 윤리적 고려 사항이 있다는 점을 기억하는 것이 중요합니다.
LLM의 과제
LLM의 인상적인 언어 능력이 제공하는 이점에 매료되기 쉽지만, 조직은 그에 따른 잠재적인 문제도 인식하고 이에 대처할 준비가 되어 있어야 합니다.
운영상의 과제
- 환각: LLM은 때때로 기괴하고 사실이 아닌 출력을 생성하거나 센티멘탈한 인상을 줄 수 있습니다. 이러한 출력은 모델의 학습 데이터에 기반하지 않으며 "환각"이라고 합니다.
- 편향: 편향된 데이터로 학습된 LLM은 특정 그룹, 인종 또는 계층에 대해 차별적이거나 편향된 결과를 산출할 수 있습니다. 교육 후에도 사용자 상호작용에 따라 편견은 진화할 수 있습니다. Microsoft의 테이는 편견이 어떻게 나타나고 확대될 수 있는지를 보여주는 악명 높은 사례입니다.
- 글리치 토큰 또는 적대적 예시: 이는 모델이 잘못되거나 오해의 소지가 있는 출력을 생성하도록 만들어진 특정 입력으로, 사실상 모델을 "오작동"시키게 합니다.
- 설명 가능성 부족: LLM이 특정 결정을 내리거나 특정 결과물을 생성하는 방식을 이해하기 어렵기 때문에 문제를 해결하거나 개선하기가 어려울 수 있습니다.
- 과도한 의존: LLM이 다양한 분야에 통합되면서 지나치게 의존하게 되면 인간의 전문성과 직관이 배제될 수 있는 위험이 있습니다.
LLM 사용 사례 및 구축 옵션
LLM은 조직에 여러 가지 선택적 구현 패턴을 제공하며, 각각 다른 도구 세트와 관련 보안 영향에 의존합니다.
사전 교육을 받은 LLM 사용
OpenAI 및 Anthropic과 같은 클라우드 제공업체는 관리하고 보호하는 강력한 LLM에 대한 API 액세스를 제공합니다. 조직은 이러한 API를 활용하여 기본 인프라를 관리할 필요 없이 애플리케이션에 LLM 기능을 통합할 수 있습니다.
또는 Meta의 LLaMa와 같은 오픈 소스 LLM을 조직의 자체 인프라에서 실행하여 더 많은 제어 및 사용자 지정 옵션을 제공할 수 있습니다. 단점으로는 오픈 소스 LLM을 안전하게 구현하고 유지 관리하려면 상당한 컴퓨팅 리소스와 AI 전문 지식이 필요하다는 점입니다.
LLM 구축 모델
- API 기반 SaaS: 인프라는 LLM 개발자(예: OpenAI)가 제공 및 관리하며 퍼블릭 API를 통해 프로비저닝됩니다.
- CSP 관리: LLM은 클라우드 하이퍼스케일러가 제공하는 인프라에 구축되며 Azure, OpenAI, Amazon Bedrock과 같은 프라이빗 또는 퍼블릭 클라우드에서 실행할 수 있습니다.
- 자체 관리: LLM은 오픈 소스 또는 자체 개발 모델에만 해당되는 회사 자체 인프라에 구축됩니다.
사전 교육을 받은 LLM은 콘텐츠 생성, 챗봇, 감성 분석, 언어 번역, 코드 어시스턴트 등 다양한 기능을 제공합니다. 이커머스 회사에서는 제품 설명을 생성하는 데 LLM을 사용할 수 있고, 소프트웨어 개발 회사에서는 프로그래머의 생산성을 높이기 위해 LLM 기반 코딩 어시스턴트를 활용할 수 있습니다.
사전 교육을 받은 LLM과 관련된 보안 영향
쉽게 액세스할 수 있는 클라우드 API와 오픈 소스 모델을 사용할 수 있게 되면서 애플리케이션에 고급 AI 언어 기능을 추가하는 데 대한 장벽이 크게 낮아졌습니다. 이제 개발자는 AI 및 ML에 대한 깊은 전문 지식을 유지하지 않고도 LLM을 소프트웨어에 연결할 수 있습니다. 이는 혁신을 가속화하지만, 적절한 보안 및 규정 준수 감독이 부족한 섀도 AI 프로젝트의 위험을 증가시킵니다. 한편 개발팀은 데이터 프라이버시, 모델 거버넌스, 출력 제어 문제를 충분히 고려하지 않고 LLM을 실험하고 있을 수 있습니다.
미세 조정 및 검색 증강 생성(RAG)
특정 애플리케이션에 맞게 LLM을 사용자 지정하기 위해 조직은 원하는 작업과 관련된 소규모 데이터 세트에서 미세 조정하거나 질문 답변 및 콘텐츠 요약을 위해 LLM을 지식 베이스와 통합하는 RAG를 구현할 수 있습니다.
이러한 사용 사례에는 내부 데이터에 액세스할 수 있는 전문 AI 비서(예: 고객 지원, HR 또는 IT 헬프데스크용)와 Q&A 앱(예: 문서, 코드 리포지토리 또는 교육 자료용)이 있습니다. 예를 들어, 통신 회사의 고객 서비스 챗봇은 제품 설명서, FAQ 또는 과거 지원 상호 작용을 미세 조정하여 기술 문제 및 계정 관리와 관련하여 고객을 더 잘 지원할 수 있습니다.
미세 조정 및 RAG와 관련된 보안 영향
조직은 미세 조정 및 RAG를 통해 특정 도메인 및 데이터에 맞게 LLM을 조정하여 보다 타겟팅되고 정확한 결과물을 얻을 수 있습니다. 그러나 이러한 사용자 지정 프로세스에는 종종 교육 중에 모델이 민감한 내부 정보에 노출되는 경우가 있습니다. 승인된 데이터만 미세 조정에 사용하고 결과 모델의 보안을 유지하려면 강력한 데이터 거버넌스 관행이 필요합니다.
모델 교육
일부 대형 기술 기업 및 연구 기관에서는 자체 LLM 교육에 투자하기도 합니다. 이는 대규모 컴퓨팅 성능과 데이터 세트가 필요한 매우 리소스 집약적인 프로세스이지만, 조직이 모델 아키텍처, 학습 데이터 및 최적화 프로세스를 완벽하게 제어할 수 있습니다. 또한 조직은 결과 모델에 대한 모든 지적 재산권을 보유합니다.
모델 학습은 신약 개발, 재료 과학 또는 자율 시스템과 같은 고급 애플리케이션으로 이어질 수 있습니다. 예를 들어 의료 조직은 의료 기록과 영상 데이터에서 질병을 진단하는 데 도움이 되는 모델을 개발할 수 있습니다.
모델 트레이닝과 관련된 보안 영향
맞춤형 LLM을 교육하면 복잡한 블랙박스 모델을 다룰 때 모델 동작의 책임성과 감사 가능성을 유지하는 방법에 대한 어려운 질문이 제기됩니다. 교육 프로세스 자체는 막대한 컴퓨팅 리소스를 소모하므로 남용이나 간섭을 방지하기 위해 교육 환경에 대한 강력한 격리 및 액세스 제어가 필요합니다. 첫째, 조직은 고성능 컴퓨팅 인프라를 구축하고 새로운 보안 문제를 야기할 수 있는 대규모 데이터 세트를 신중하게 큐레이션해야 합니다.
LLM 보안 문제
엔터프라이즈 환경에서 대규모 언어 모델을 구축할 때 가장 우려되는 점은 교육 중에 민감한 데이터가 포함될 가능성이 있다는 점입니다. 데이터가 이러한 모델에 통합된 후에는 어떤 정보가 모델에 입력되었는지 정확하게 파악하기가 어려워집니다. 교육에 사용되는 수많은 데이터 소스와 이 데이터에 액세스할 수 있는 다양한 개인을 고려할 때 이러한 가시성 부족은 문제가 될 수 있습니다.
기밀 정보의 의도치 않은 노출을 방지하려면 데이터 소스에 대한 가시성을 확보하고 액세스 권한을 가진 사람을 엄격하게 통제하는 것이 중요합니다.
또 다른 우려는 사이버 공격에 LLM이 악용될 수 있다는 점입니다. 악의적인 공격자는 LLM을 활용하여 개인을 속이고 민감한 데이터에 무단으로 액세스하기 위해 설득력 있는 피싱 이메일을 제작할 수 있습니다. 소셜 엔지니어링으로 알려진 이 방법은 매력적이고 기만적인 콘텐츠를 만들 수 있어 데이터 보호의 문제를 더욱 심화시킬 수 있습니다.
엄격한 액세스 제어 및 보호 장치가 없으면 악의적인 공격자가 잘못된 정보, 선전 또는 기타 유해한 콘텐츠를 쉽게 퍼뜨릴 수 있게 되어 심각한 데이터 침해의 위험이 증가합니다.
LLM은 거의 무한대에 가까운 긍정적인 활용도를 가지고 있지만, 이러한 행위를 방지하는 기존 필터를 우회하여 악성 코드를 생성할 수 있는 잠재력을 지니고 있습니다. 이러한 취약성은 데이터 유출이 단순한 정보 도용에 그치지 않고 위험한 콘텐츠와 코드를 생성하는 새로운 사이버 위협 시대로 이어질 수 있습니다.
예를 들어, LLM을 조작하면 전체 시스템을 위험에 빠뜨릴 수 있는 악성 소프트웨어, 스크립트 또는 도구를 생성할 수 있습니다. '보상 해킹'의 가능성은 사이버 보안 영역에서 경각심을 불러일으키며, 의도하지 않은 방법으로 목적을 달성할 수 있는 방법이 발견되어 민감한 데이터에대한 우발적인 접근 또는 수집으로 이어질 수 있음을 시사합니다.
LLM 애플리케이션에 대한 의존도가 높아짐에 따라 조직과 개인은 이러한 새로운 위협을 경계하고 항상 데이터를 보호할 수 있도록 준비해야 합니다.
그림 1: 주요 OWASP 보안 위험으로부터 LLM 보호
OWASP 톱 10: LLM 보안 위험
기존의 애플리케이션 취약성은 LLM 내에서 새로운 보안 위험을 야기합니다. 하지만 OWASP는 적시에 OWASP 10대 LLM 보안 위험을 발표하여 개발자들에게 새로운 메커니즘과 LLM을 사용하는 애플리케이션에 대한 기존의 치료 전략을 조정해야 할 필요성을 경고했습니다.
LLM01: 프롬프트 주입
프롬프트 인젝션은 교묘한 입력을 통해 대규모 언어 모델을 조작하여 LLM이 공격자의 의도를 실행하도록 만들 수 있습니다. 직접 주입을 사용하면 악성 행위자가 시스템 프롬프트를 덮어씁니다. 공격자는 간접 프롬프트 주입을 통해 외부 소스의 입력을 조작합니다. 두 방법 모두 데이터 유출, 소셜 엔지니어링 및 기타 문제가 발생할 수 있습니다.
LLM02: 안전하지 않은 출력 처리
안전하지 않은 출력 처리는 LLM 출력을 면밀히 검토하지 않고 수락하여 백엔드 시스템을 노출시킬 때 발생하는 취약점입니다. 다운스트림 컴포넌트가 효과적인 검토 없이 LLM 출력을 맹목적으로 받아들일 때 발생합니다. 오용하면 웹 브라우저에서 크로스 사이트 스크립팅(XSS) 및 크로스 사이트 요청 위조(CSRF)는 물론 백엔드 시스템에서 서버 측 요청 위조(SSRF), 권한 상승, 원격 코드 실행이 발생할 수 있습니다.
LLM03: 훈련 데이터 중독
학습 데이터 중독은 공통 크롤링, 웹 텍스트, 오픈 웹 텍스트, 서적 및 기타 소스를 통해 LLM 학습 데이터를 조작할 때 발생합니다. 이러한 조작은 백도어, 취약성 또는 편견을 유발하여 LLM의 보안을 손상시키고 성능 저하, 다운스트림 소프트웨어 악용 및 평판 손상을 초래합니다.
LLM04: 모델 서비스 거부
모델 서비스 거부 공격은 공격자가 리소스 집약적인 작업을 트리거하기 위해 LLM을 악용하여 서비스 성능 저하와 비용 증가를 초래할 때 발생합니다. 이러한 취약성은 LLM의 까다로운 특성과 사용자 입력의 예측 불가능한 특성으로 인해 더욱 증폭됩니다. 모델 서비스 거부 공격 시나리오에서 공격자는 불균형적인 양의 리소스를 요구하는 방식으로 LLM에 관여하여 공격자와 다른 사용자 모두에게 서비스 품질 저하를 초래하는 동시에 잠재적으로 상당한 리소스 비용을 발생시킵니다.
LLM05: 공급망 취약성
LLM의 공급망 취약성은 학습 데이터, ML 모델, 구축 플랫폼을 손상시켜 보안 침해 또는 전체 시스템 장애를 일으킬 수 있습니다. 취약한 구성 요소 또는 서비스는 오염된 학습 데이터, 안전하지 않은 플러그인, 오래된 소프트웨어 또는 취약한 사전 학습된 모델에서 발생할 수 있습니다.
LLM06: 민감한 정보 공개
LLM 애플리케이션은 민감한 데이터, 기밀 정보 및 독점 알고리즘을 노출하여 무단 액세스, 지적 재산 도용 및 데이터 유출로이어질 수 있습니다. 이러한 위험을 완화하기 위해 LLM 애플리케이션은 데이터 살균을 사용하고, 적절하고 엄격한 사용자 정책을 구현하며, LLM에서 반환하는 데이터 유형을 제한해야 합니다.
LLM07: 안전하지 않은 플러그인 디자인
플러그인은 안전하지 않은 입력과 불충분한 액세스 제어로구성되어 데이터 유출, 원격 코드 실행, 권한 상승으로 이어질 수 있는 악의적인 요청에 취약할 수 있습니다. 개발자는 악용을 방지하기 위해 엄격한 매개변수화된 입력과 보안 액세스 제어 지침을 따라야 합니다.
LLM08: 과도한 대행사
과도한 대행은 의도하지 않은 결과를 초래하는 조치를 취하는 LLM 기반 시스템을 의미합니다. 이 취약점은 LLM에 너무 많은 자율성, 과도한 기능 또는 과도한 권한을 부여하는 데서 비롯됩니다. 개발자는 플러그인 기능을 꼭 필요한 기능으로 제한해야 합니다. 또한 사용자 승인을 추적하고, 모든 작업에 대해 사람의 승인을 요구하며, 다운스트림 시스템에서 승인을 구현해야 합니다.
LLM09: 과도한 의존
사용자나 시스템이 적절한 감독 없이 LLM에 과도하게 의존할 경우 부적절한 콘텐츠가 생성될 수 있습니다. LLM09의 잠재적 결과로는 잘못된 정보, 보안 취약성, 법적 문제 등이 있습니다.
LLM10: 모델 도난
LLM 모델 도용은 독점 LLM에 대한 무단 액세스, 복사 또는 유출을 포함합니다. 모델 도난은 금전적 손실과 경쟁 우위 상실은 물론 평판 손상과 민감한 데이터에 대한 무단 액세스를 초래합니다. 조직은 독점적인 LLM을 보호하기 위해 엄격한 보안 조치를 시행해야 합니다.
대규모 언어 모델 FAQ
NLP는 컴퓨터가 인간의 언어를 이해하고 해석하며 생성할 수 있도록 하는 데 중점을 둔 AI 및 언어학의 하위 분야입니다. NLP는 감성 분석, 기계 번역, 텍스트 요약, 명명된 개체 인식 등 광범위한 작업을 포괄합니다. NLP 기술에는 일반적으로 텍스트 데이터를 처리하고 분석하기 위한 계산 알고리즘, 통계 모델링, 머신 러닝이 포함됩니다.
LLM은 딥 러닝 모델, 특히 신경망의 일종으로 NLP 작업을 대규모로 처리하도록 설계되었습니다. GPT-3 및 BERT와 같은 LLM은 방대한 양의 텍스트 데이터를 학습하여 복잡한 언어 패턴, 문법 및 의미를 학습합니다. 이러한 모델은 트랜스포머 아키텍처라는 기술을 활용하여 장거리 종속성 및 문맥 정보를 언어로 캡처할 수 있습니다.
NLP와 LLM의 주요 차이점은 NLP는 인간의 언어를 처리하기 위한 다양한 기술과 접근 방식을 포괄하는 광범위한 분야인 반면, LLM은 고급 NLP 작업을 위해 설계된 특정 유형의 신경망 모델이라는 점입니다. LLM은 NLP 영역의 최신 접근 방식으로, 기존 NLP 방식에 비해 인간과 유사한 언어를 이해하고 생성하는 데 있어 향상된 성능과 기능을 제공합니다.
생성적 적대 네트워크(GAN)는 주어진 데이터 세트와 유사한 새로운 데이터 샘플을 생성하도록 설계된 머신 러닝 모델의 한 종류입니다. GAN은 경쟁 방식으로 동시에 학습되는 두 개의 신경망, 즉 제너레이터와 판별자로 구성됩니다. 생성기는 합성 샘플을 생성하고, 판별기는 생성된 샘플을 평가하여 실제 데이터와 구별합니다.
생성기는 판별기를 속이는 시도를 통해 데이터 생성 기능을 지속적으로 개선하여 실제 샘플과 생성된 샘플을 식별하는 능력을 향상시킵니다. 생성된 샘플이 실제 데이터와 거의 구별할 수 없을 때까지 이 적대적인 프로세스가 지속적으로 진행되므로 GAN은 이미지 합성, 데이터 증강, 스타일 전송과 같은 애플리케이션에 특히 유용합니다.
가변 자동 인코더(VAE)는 입력 데이터를 저차원 잠재 공간으로 인코딩한 다음 이 압축된 표현에서 데이터를 재구성하여 복잡한 데이터 분포를 표현하는 방법을 학습하는 일종의 생성 모델입니다. VAE는 입력 데이터를 잠재 공간의 확률 분포에 매핑하는 인코더와 이 분포에서 샘플링된 지점에서 데이터를 재구성하는 디코더의 두 가지 신경망으로 구성됩니다.
VAE 모델은 재구성 오류를 최소화하도록 훈련되며, 학습된 분포가 미리 정의된 사전 분포와 일치하도록 하는 정규화 항을 사용합니다. VAE는 잠재 공간에서 샘플링한 무작위 포인트를 디코딩하여 새로운 데이터 샘플을 생성할 수 있으므로 이미지 생성, 데이터 노이즈 제거, 표현 학습과 같은 애플리케이션에 적합합니다.