DataCentric

Data-Centric AI 개요

Data-Centric AI는 모델 자체보다 데이터의 품질과 관리에 중점을 둔 접근 방식

이는 기존의 Model-Centric AI와 대비되는 개념으로, 데이터의 중요성을 강조

개념과 중요성

Data-Centric AI는 고품질 데이터를 통해 AI 모델의 성능을 향상시키는 것을 목표

이는 "garbage in, garbage out" 원칙에 기반하여, 입력 데이터의 품질이 출력 결과의 품질을 결정한다는 점을 강조

Model-Centric AI와의 차이점

Model-Centric AI: 데이터는 고정하고 모델을 개선하는 데 집중
Data-Centric AI: 모델은 고정하고 데이터의 품질을 개선하는 데 집중

미래 방향성
Data-Centric AI는 AI 개발의 새로운 패러다임으로 자리잡고 있으며, 앞으로 더욱 중요해질 것으로 예상

특히 데이터 품질 관리, 데이터 증강, 액티브 러닝 등의 기술이 주목

데이터 기획

데이터 구축의 첫 단계는 철저한 기획입니다.데이터 구축 파이프라인

목적 설정
데이터 수집 방법 결정
라벨링 전략 수립
품질 관리 계획
데이터 저장 및 관리 방안

데이터 구축 기획서 작성 방법

구축 목적 명확히 정의
필요한 데이터의 양과 특성 명시
예산 및 일정 계획 수립
품질 기준 설정

데이터 수집

다양한 방법을 통해 필요한 데이터를 수집합니다.수집 방법

웹 크롤링
센서 데이터 수집
사용자 생성 데이터
공개 데이터셋 활용

주의사항

데이터 수집의 법적, 윤리적 문제 고려
데이터의 다양성 확보
개인정보 보호 준수

데이터 라벨링

수집된 데이터에 의미 있는 레이블을 부여하는 과정입니다.라벨링 가이드라인 작성

명확하고 일관된 기준 제시
예시를 통한 설명
모호한 케이스에 대한 처리 방법 명시

라벨링 툴 소개

이미지 라벨링: LabelImg, RectLabel
텍스트 라벨링: Doccano, Prodigy
비디오 라벨링: CVAT, LabelBox

데이터 클렌징

라벨링된 데이터의 품질을 높이는 과정입니다.라벨링 에러 수정 방법

휴먼에러, 라벨링 규칙 에러를 처리

라벨링에러는 노이즈이기 때문에 모델이 의도한 대로 동작x,

자동화된 에러 검출 시스템 활용
전문가 리뷰 프로세스 도입
크로스 체킹을 통한 검증

IAA(Inter-Annotator Agreement) 학습

여러 라벨러 간의 일치도 측정
Kappa 계수 등의 지표 활용
불일치 사례 분석 및 가이드라인 개선

IAA(Inter-Annotator Agreement) 평가 방법에는 여러 가지가 있지만, 주요한 세 가지 방법은 다음과 같습니다:

Cohen's Kappa

Cohen's Kappa는 두 명의 관찰자(또는 평가자) 사이의 일치도를 평가하는 방법

특징:

두 명의 평가자 간 신뢰도를 측정하는 데 사용
우연히 일치할 확률을 고려하여 계산
-1에서 1 사이의 값을 가지며, 1에 가까울수록 높은 일치도

Fleiss' Kappa

Fleiss' Kappa는 세 명 이상의 관찰자가 있을 때 사용되는 일치도 평가 방법

특징:

여러 평가자 간의 일치도를 동시에 평가할 수 있음
Cohen's Kappa를 확장한 개념
여러 범주에 대한 평가에도 적용 가능

F1-score

F1-score는 정밀도(Precision)와 재현율(Recall)의 조화평균으로, 분류 모델의 성능을 평가하는 데 주로 사용

특징:

0에서 1 사이의 값을 가지며, 1에 가까울수록 좋은 성능을 나타냄
불균형 데이터셋에서 유용
정밀도와 재현율을 동시에 고려하여 모델의 전반적인 성능을 평가

이 중 Cohen's Kappa와 Fleiss' Kappa가 주로 IAA 평가에 사용되며, F1-score는 분류 모델의 성능 평가에 더 많이 사용

IAA 평가 시에는 평가자의 수와 평가 대상의 특성에 따라 적절한 방법을 선택

데이터 마무리

구축된 데이터셋을 최종적으로 정리하고 활용 준비를 합니다.데이터 스플릿 및 릴리즈 방법

훈련/검증/테스트 세트로 분할
데이터 불균형 고려
버전 관리 및 문서화

합성 데이터 생성

GAN을 활용한 이미지 생성
텍스트 데이터 증강 기법
데이터 불균형 해소를 위한 오버샘플링

액티브 러닝 소개

모델의 불확실성이 높은 데이터 선별
효율적인 라벨링 자원 활용
점진적인 모델 성능 향상

각 단계에서 데이터의 품질과 관리에 집중함으로써, 더 나은 AI 모델을 개발 가능 데이터는 AI의 심장이라고 할 수 있으며, 이를 잘 관리하는 것이 중요

저작자표시 비영리 변경금지 (새창열림)

WoongLab

DataCentric

Data-Centric AI 개요

데이터 기획

데이터 수집

데이터 라벨링

데이터 클렌징

Cohen's Kappa

Fleiss' Kappa

F1-score

데이터 마무리

티스토리툴바