Data-Centric AI 개요
Data-Centric AI는 모델 자체보다 데이터의 품질과 관리에 중점을 둔 접근 방식
이는 기존의 Model-Centric AI와 대비되는 개념으로, 데이터의 중요성을 강조
개념과 중요성
Data-Centric AI는 고품질 데이터를 통해 AI 모델의 성능을 향상시키는 것을 목표
이는 "garbage in, garbage out" 원칙에 기반하여, 입력 데이터의 품질이 출력 결과의 품질을 결정한다는 점을 강조
Model-Centric AI와의 차이점
- Model-Centric AI: 데이터는 고정하고 모델을 개선하는 데 집중
- Data-Centric AI: 모델은 고정하고 데이터의 품질을 개선하는 데 집중
미래 방향성
Data-Centric AI는 AI 개발의 새로운 패러다임으로 자리잡고 있으며, 앞으로 더욱 중요해질 것으로 예상
특히 데이터 품질 관리, 데이터 증강, 액티브 러닝 등의 기술이 주목
데이터 기획
데이터 구축의 첫 단계는 철저한 기획입니다.데이터 구축 파이프라인
- 목적 설정
- 데이터 수집 방법 결정
- 라벨링 전략 수립
- 품질 관리 계획
- 데이터 저장 및 관리 방안
데이터 구축 기획서 작성 방법
- 구축 목적 명확히 정의
- 필요한 데이터의 양과 특성 명시
- 예산 및 일정 계획 수립
- 품질 기준 설정
데이터 수집
다양한 방법을 통해 필요한 데이터를 수집합니다.수집 방법
- 웹 크롤링
- 센서 데이터 수집
- 사용자 생성 데이터
- 공개 데이터셋 활용
주의사항
- 데이터 수집의 법적, 윤리적 문제 고려
- 데이터의 다양성 확보
- 개인정보 보호 준수
데이터 라벨링
수집된 데이터에 의미 있는 레이블을 부여하는 과정입니다.라벨링 가이드라인 작성
- 명확하고 일관된 기준 제시
- 예시를 통한 설명
- 모호한 케이스에 대한 처리 방법 명시
라벨링 툴 소개
- 이미지 라벨링: LabelImg, RectLabel
- 텍스트 라벨링: Doccano, Prodigy
- 비디오 라벨링: CVAT, LabelBox
데이터 클렌징
라벨링된 데이터의 품질을 높이는 과정입니다.라벨링 에러 수정 방법
휴먼에러, 라벨링 규칙 에러를 처리
라벨링에러는 노이즈이기 때문에 모델이 의도한 대로 동작x,
- 자동화된 에러 검출 시스템 활용
- 전문가 리뷰 프로세스 도입
- 크로스 체킹을 통한 검증
IAA(Inter-Annotator Agreement) 학습
- 여러 라벨러 간의 일치도 측정
- Kappa 계수 등의 지표 활용
- 불일치 사례 분석 및 가이드라인 개선
IAA(Inter-Annotator Agreement) 평가 방법에는 여러 가지가 있지만, 주요한 세 가지 방법은 다음과 같습니다:
Cohen's Kappa
Cohen's Kappa는 두 명의 관찰자(또는 평가자) 사이의 일치도를 평가하는 방법
특징:
- 두 명의 평가자 간 신뢰도를 측정하는 데 사용
- 우연히 일치할 확률을 고려하여 계산
- -1에서 1 사이의 값을 가지며, 1에 가까울수록 높은 일치도
Fleiss' Kappa
Fleiss' Kappa는 세 명 이상의 관찰자가 있을 때 사용되는 일치도 평가 방법
특징:
- 여러 평가자 간의 일치도를 동시에 평가할 수 있음
- Cohen's Kappa를 확장한 개념
- 여러 범주에 대한 평가에도 적용 가능
F1-score
F1-score는 정밀도(Precision)와 재현율(Recall)의 조화평균으로, 분류 모델의 성능을 평가하는 데 주로 사용
특징:
- 0에서 1 사이의 값을 가지며, 1에 가까울수록 좋은 성능을 나타냄
- 불균형 데이터셋에서 유용
- 정밀도와 재현율을 동시에 고려하여 모델의 전반적인 성능을 평가
이 중 Cohen's Kappa와 Fleiss' Kappa가 주로 IAA 평가에 사용되며, F1-score는 분류 모델의 성능 평가에 더 많이 사용
IAA 평가 시에는 평가자의 수와 평가 대상의 특성에 따라 적절한 방법을 선택
데이터 마무리
구축된 데이터셋을 최종적으로 정리하고 활용 준비를 합니다.데이터 스플릿 및 릴리즈 방법
- 훈련/검증/테스트 세트로 분할
- 데이터 불균형 고려
- 버전 관리 및 문서화
합성 데이터 생성
- GAN을 활용한 이미지 생성
- 텍스트 데이터 증강 기법
- 데이터 불균형 해소를 위한 오버샘플링
액티브 러닝 소개
- 모델의 불확실성이 높은 데이터 선별
- 효율적인 라벨링 자원 활용
- 점진적인 모델 성능 향상
각 단계에서 데이터의 품질과 관리에 집중함으로써, 더 나은 AI 모델을 개발 가능 데이터는 AI의 심장이라고 할 수 있으며, 이를 잘 관리하는 것이 중요