본문 바로가기
카테고리 없음

DataCentric

by tankwoong 2024. 9. 24.
반응형

Data-Centric AI 개요

Data-Centric AI는 모델 자체보다 데이터의 품질과 관리에 중점을 둔 접근 방식

이는 기존의 Model-Centric AI와 대비되는 개념으로, 데이터의 중요성을 강조

 

개념과 중요성

Data-Centric AI는 고품질 데이터를 통해 AI 모델의 성능을 향상시키는 것을 목표

이는 "garbage in, garbage out" 원칙에 기반하여, 입력 데이터의 품질이 출력 결과의 품질을 결정한다는 점을 강조

 

Model-Centric AI와의 차이점

  • Model-Centric AI: 데이터는 고정하고 모델을 개선하는 데 집중
  • Data-Centric AI: 모델은 고정하고 데이터의 품질을 개선하는 데 집중

미래 방향성
Data-Centric AI는 AI 개발의 새로운 패러다임으로 자리잡고 있으며, 앞으로 더욱 중요해질 것으로 예상

특히 데이터 품질 관리, 데이터 증강, 액티브 러닝 등의 기술이 주목

데이터 기획

데이터 구축의 첫 단계는 철저한 기획입니다.데이터 구축 파이프라인

  1. 목적 설정
  2. 데이터 수집 방법 결정
  3. 라벨링 전략 수립
  4. 품질 관리 계획
  5. 데이터 저장 및 관리 방안

데이터 구축 기획서 작성 방법

  • 구축 목적 명확히 정의
  • 필요한 데이터의 양과 특성 명시
  • 예산 및 일정 계획 수립
  • 품질 기준 설정

데이터 수집

다양한 방법을 통해 필요한 데이터를 수집합니다.수집 방법

  • 웹 크롤링
  • 센서 데이터 수집
  • 사용자 생성 데이터
  • 공개 데이터셋 활용

주의사항

  • 데이터 수집의 법적, 윤리적 문제 고려
  • 데이터의 다양성 확보
  • 개인정보 보호 준수

데이터 라벨링

수집된 데이터에 의미 있는 레이블을 부여하는 과정입니다.라벨링 가이드라인 작성

  • 명확하고 일관된 기준 제시
  • 예시를 통한 설명
  • 모호한 케이스에 대한 처리 방법 명시

라벨링 툴 소개

  • 이미지 라벨링: LabelImg, RectLabel
  • 텍스트 라벨링: Doccano, Prodigy
  • 비디오 라벨링: CVAT, LabelBox

데이터 클렌징

라벨링된 데이터의 품질을 높이는 과정입니다.라벨링 에러 수정 방법

휴먼에러, 라벨링 규칙 에러를 처리

라벨링에러는 노이즈이기 때문에 모델이 의도한 대로 동작x, 

  • 자동화된 에러 검출 시스템 활용
  • 전문가 리뷰 프로세스 도입
  • 크로스 체킹을 통한 검증

IAA(Inter-Annotator Agreement) 학습

  • 여러 라벨러 간의 일치도 측정
  • Kappa 계수 등의 지표 활용
  • 불일치 사례 분석 및 가이드라인 개선

IAA(Inter-Annotator Agreement) 평가 방법에는 여러 가지가 있지만, 주요한 세 가지 방법은 다음과 같습니다:

Cohen's Kappa

Cohen's Kappa는 두 명의 관찰자(또는 평가자) 사이의 일치도를 평가하는 방법

특징:

  • 두 명의 평가자 간 신뢰도를 측정하는 데 사용
  • 우연히 일치할 확률을 고려하여 계산
  • -1에서 1 사이의 값을 가지며, 1에 가까울수록 높은 일치도

Fleiss' Kappa

Fleiss' Kappa는 세 명 이상의 관찰자가 있을 때 사용되는 일치도 평가 방법

특징:

  • 여러 평가자 간의 일치도를 동시에 평가할 수 있음
  • Cohen's Kappa를 확장한 개념
  • 여러 범주에 대한 평가에도 적용 가능

F1-score

F1-score는 정밀도(Precision)와 재현율(Recall)의 조화평균으로, 분류 모델의 성능을 평가하는 데 주로 사용

특징:

  • 0에서 1 사이의 값을 가지며, 1에 가까울수록 좋은 성능을 나타냄
  • 불균형 데이터셋에서 유용
  • 정밀도와 재현율을 동시에 고려하여 모델의 전반적인 성능을 평가

이 중 Cohen's Kappa와 Fleiss' Kappa가 주로 IAA 평가에 사용되며, F1-score는 분류 모델의 성능 평가에 더 많이 사용

IAA 평가 시에는 평가자의 수와 평가 대상의 특성에 따라 적절한 방법을 선택

데이터 마무리

구축된 데이터셋을 최종적으로 정리하고 활용 준비를 합니다.데이터 스플릿 및 릴리즈 방법

  • 훈련/검증/테스트 세트로 분할
  • 데이터 불균형 고려
  • 버전 관리 및 문서화

합성 데이터 생성

  • GAN을 활용한 이미지 생성
  • 텍스트 데이터 증강 기법
  • 데이터 불균형 해소를 위한 오버샘플링

액티브 러닝 소개

  • 모델의 불확실성이 높은 데이터 선별
  • 효율적인 라벨링 자원 활용
  • 점진적인 모델 성능 향상

각 단계에서 데이터의 품질과 관리에 집중함으로써, 더 나은 AI 모델을 개발 가능 데이터는 AI의 심장이라고 할 수 있으며, 이를 잘 관리하는 것이 중요

반응형