AI 시스템 컴플라이언스와 오픈소스 관리
AI 코딩 도구로 생성한 코드 관리를 넘어, AI 시스템 자체에도 오픈소스 관리가 필요합니다. AI 프레임워크, 사전 훈련 모델, 학습 데이터셋은 모두 오픈소스·오픈 데이터를 광범위하게 사용합니다.
ISO/IEC 5230(라이선스 컴플라이언스)과 ISO/IEC 18974(보안 보증)를 운영 중인 기업이라면 AI 시스템 개발 단계에서도 동일한 원칙을 적용해야 합니다.
오픈소스가 사용되는 세 가지 영역
AI 시스템
├── 1. AI 프레임워크 · 라이브러리
│ (PyTorch, TensorFlow, Hugging Face Transformers, LangChain 등)
│ → 기존 ISO 5230 프로세스 그대로 적용
│
├── 2. 사전 훈련 모델 (Pre-trained Model)
│ (Llama, Mistral, Falcon, BERT 등)
│ → 모델별 커스텀 라이선스 개별 확인 필수
│
└── 3. 학습 데이터셋
(Common Crawl, Wikipedia, CC-BY 데이터셋 등)
→ 오픈 데이터 라이선스 의무 이행
1. AI 프레임워크 · 라이브러리
일반 소프트웨어 의존성과 동일하게 ISO/IEC 5230 프로세스를 적용합니다. 기존 SBOM 생성 도구(syft, cdxgen, FOSSLight 등)로 AI 코드 저장소도 함께 스캔합니다.
| 프레임워크 | 라이선스 | 상업적 사용 | 주요 의무 |
|---|---|---|---|
| PyTorch | BSD 3-Clause | ✅ | 저작권 표시 |
| TensorFlow | Apache 2.0 | ✅ | 저작권 표시, 변경 고지 |
| Hugging Face Transformers | Apache 2.0 | ✅ | 저작권 표시 |
| LangChain | MIT | ✅ | 저작권 표시 |
| scikit-learn | BSD 3-Clause | ✅ | 저작권 표시 |
2. 사전 훈련 모델 (Pre-trained Model)
사전 훈련 모델은 일반 오픈소스 라이브러리와 달리 커스텀 라이선스를 사용하는 경우가 많습니다. 특히 상업적 사용 제한, MAU 기반 조건, 파생 모델 공개 의무가 포함될 수 있어 주의가 필요합니다.
| 라이선스 유형 | 대표 모델 | 상업적 사용 | 파생 모델 공개 |
|---|---|---|---|
| Apache 2.0 | Falcon, Mistral 7B | ✅ | ❌ |
| MIT | GPT-2, GPT-J | ✅ | ❌ |
| Llama Community License | Llama 3 | 조건부 (MAU 7억 이하) | ❌ |
| CC-BY 4.0 | 일부 학술 모델 | ✅ | 저작자 표시 필요 |
| CC-BY-NC | 일부 연구 모델 | ❌ 비상업적 한정 | — |
AI 모델 라이선스는 표준화되어 있지 않습니다. Hugging Face 모델 허브 등에서 모델 카드(Model Card)와 라이선스를 반드시 직접 확인하세요.
- 상업적 사용 허용 여부
- MAU 또는 매출 기반 제한 조건
- Fine-tuning 파생 모델 공개 의무
- AI 시스템에 사용한 모델 명시 의무
AI SBOM에 모델 정보 포함
SBOM에 사전 훈련 모델을 포함하는 AI SBOM을 구성합니다. SPDX 3.0 AI Profile 기반 예시:
- name: 'meta-llama/Llama-3.1-8B'
version: '3.1'
license: 'Llama Community License Agreement'
primaryPurpose: 'inference'
modelCard: 'https://huggingface.co/meta-llama/Llama-3.1-8B'
기존 SBOM 도구는 모델 파일을 자동 감지하지 못하므로, 모델·데이터셋 항목은 수동으로 추가 기록합니다.
3. 학습 데이터셋
AI 모델 학습에 사용한 데이터셋에 오픈 데이터 라이선스가 적용된 경우 의무를 이행해야 합니다.
| 라이선스 | 저작자 표시 | 상업적 사용 | 동일 조건 변경 허락 |
|---|---|---|---|
| CC0 | ❌ | ✅ | ❌ |
| CC-BY 4.0 | ✅ | ✅ | ❌ |
| CC-BY-SA 4.0 | ✅ | ✅ | ✅ |
| CC-BY-NC 4.0 | ✅ | ❌ 비상업적 한정 | ❌ |
- CC-BY 계열: 모델 카드 또는 시스템 문서에 데이터셋 출처를 명시합니다.
- CC-BY-SA: 파생 모델의 라이선스 처리를 법무팀과 사전 협의합니다.
ISO/IEC 42001과 오픈소스 담당자 역할
기업이 ISO/IEC 42001 AI 관리 시스템을 준비하는 경우, 아래 조항이 오픈소스 관리와 직접 연결됩니다.
| ISO 42001 조항 | 오픈소스 담당자 역할 |
|---|---|
| §5.2 AI 정책 | AI 정책에 오픈소스 사용 원칙 포함 |
| §6.1.2 AI 리스크 평가 | OSS 라이선스·취약점 리스크 식별·평가 |
| §7.5 문서화 | AI SBOM 수립·유지 |
| §8.5 AI 생애주기 | 개발 단계별 OSS 컴플라이언스 검토 |
| §8.6 AI 데이터 | 데이터셋 라이선스 관리 |
| §8.8 외부 AI 조달 | 외부 오픈소스 모델 공급망 검증 |
ISO/IEC 42001 인증은 AI 시스템 거버넌스 전반을 다루며, ISO 5230/18974 자체 인증과는 별도로 진행합니다. ISO 5230/18974 체계를 먼저 구축한 기업은 위 교차 항목을 재활용하여 ISO 42001 준비를 효율화할 수 있습니다.
더 알아보기
- OpenChain KWG — AI 컴플라이언스 가이드: 7. AI 컴플라이언스
- OpenChain KWG — ISO/IEC 42001 가이드: 오픈소스 담당자를 위한 ISO 42001 실무 지침
- SPDX 3.0 AI Profile: SPDX 공식 문서