본문 바로가기
대외활동/AICE대학생 서포터즈

[AICE 자격증] AI 구현 프로세스_1 (3일차)

by RucA 2024. 3. 6.
728x90
반응형

대표 이미지

AICE 자격증 학습 블로그 챌린지 (3일차)

다음은 제공된 3일차 스터디 플랜이다.

3일차 스터디 플랜
유데미 3일차 학습 분량

 

강의 시간은 적어서 오늘은 빠르게 끝나겠구나 했는데, 생각보다 내용이 꽉꽉 담긴 고봉밥이어서 3일차 분량을 2번 나눠서 내일까지 업로드 해야겠다... 물론 개인적인 3일차 수강은 모두 끝냈다

 


 

1. 문제 정의하기

 

[AI가 적용될 수 있는 상황]

1. 데이터, 규칙이 복잡한 경우 : 전통적 프로그래밍과 달리 데이터 기반으로 스스로 학습, 자동 규칙 생성으로 효율적

2. 다양한 데이터를 활용할 경우: 과거에는 반정형, 비정형 데이터는 잘 활용되지 못했으나, 데이터 저장방식, 알고리즘 및 학습 방식의 발전으로 적극적 활용

3. 미지의 영역에 대한 연구와 해결이 필요한 경우 : 규칙을 찾아내는 AI의 능력으로 미지 영역 개척

 

- 구조 관점의 데이터 구분

유형 설명 종류
정형 데이터 (Structured Data) 행과 열의 정형화된 구조 기반으로 고정된 필드에 저장되어 값과 형식이 일관됨 관계형 데이터베이스(RDBMS), 엑셀 등
반정형 데이터 (Semi-structured Data) 구조와 형태를 가지지만, 값과 형식에 일관성을 가지지 않음 로그, 스크립트 등
비정형 데이터 (Unstructured Data) 구조와 형태가 정해지지 않고, 고정된 필드에 저장되지 않음 텍스트, 이미지, 오디오, 비디오 등

 

-비정형 데이터의 학습 사례

  -- 텍스트 데이터 : 형태소 기반 특성 학습

  -- 이미지 데이터 : 사이즈 필터 특성 학습

 

[AI의 5가지 주요 기능]

1. 예측 (귀추 예측, 선호 예측, 맥락 예측) : 데이터 학습, 패턴 파악으로 결과를 예측

2. 생성 (심미적 생성, 실용적 생성) : 텍스트, 음성, 사진, 동영상 등을 생성

3. 소통 (응대, 대화) : 기계에 대화 기능 부여, 답변과 질문을 다양하게 연출

4. 자동화 (자동 처리, 자동 최적화, 의사결정 자동화) : 사람에 의지하지 않고 더 효율적 방법 찾아 최적화

5. 인식 (이미지 인식, 음성 인식, 감정 인식, 맥락 인식) : 대상의 다양한 특성을 인지, 상황을 판단

 

2. 데이터 수집하기

[수집할 데이터의 종류]

- 데이터 위치 관점의 유형 구분

유현 설명 종류
내부 데이터 - 동일한 시스템계 및 업무 영역 내부에 위치한 데이터
- 데이터 수명주기 관리 용이
- 민감한 정보가 포함되어 있을 수 있음
- 서비스 (인증, 거래 등)
- 네트워크 (방화벽, 시스템 등)
- 마케팅 (VOC, 판매정보 등)
외부 데이터 - 외부 시스템 및 업무 영역에 위치한 데이터
- 데이터 구매 또는 수집 절차 고려 필요
- 공개된 데이터
- 소셜 (SNS, 커뮤니티 등)
- 공공 (의료, 지역, 기상정보 등)

 

[데이터 수집 방식]

- 크롤링 (Crawling) : 다양한 웹 문서 및 콘텐츠를 수집하는 방식

- RSS (Rich Site Summary) : 웹 사이트에 게시된 새로운 글을 공유하는 프로토콜 활용 수집

- Open API : 응용 프로그램을 통한 실시간 데이터 수신 -> 공개 API과 통신하며 수집

- 스트리밍 (Streaming): 네트워크를 통한 미디어 데이터의 실시간 수집

 

[편향과 결측치에 대한 이해]

- 데이터 편향(Bias) : 수집된 데이터의 불균형이 있어 특정 값으로 치우침

- 데이터 결측치(Missing value) : 손실되고 비어있는 값

- 학습이 제대로 일어나려면 충분히 많고 깔끔한 데이터를 수집할 필요가 있음

 

3~5. 데이터 분석 및 전처리하기

 

[데이터 타입 확인]

구분 설명
수치형 (Numerical) 연속형 연속되는 값
이산형 셀수 있는 값 사람 수
문자형 (Object) 문자 및 숫자로 구성된 데이터 로그인 ID
범주형 (Categorical)  순서형 범주로 구분되며, 순서 O 학점
명목형 범주로 구분되며, 순서 X 남녀
불리언형 (Boolean) 논리 값인 참, 거짓 중 하나 참, 거짓

 

[기술 통계]

- 통계적인 방법을 활용해 수집한 데이터를 요약, 묘사, 설명하는 기법

 

- 데이터가 어떻게 모여 있는지를 표현하는 통계량 : 개수, 평균값, 중앙값, 최빈값

- 데이터가 어떻게 흩어져 있는지를 표현하는 통계량 : 최솟값, 최댓값, 분산, 표준편차, 사분위수, 첨도, 왜도

  -- 첨도 (Kurtosis) : 데이터 분포가 정규분포 대비 뾰족한 정도(0보다 크면 더 뾰족, 작으면 완만)

  -- 왜도 (Skewness) : 데이터 분포가 정규분포 대비 비대칭한 정도(0보다 크면 왼쪽에 편중, 작으면 오른쪽에 편중)

유데미 : 첨도, 왜도

 

[데이터 시각화]

구분 시각화 도구 설명
데이터 자체 분석 히스토그램 (Histogram) 수치형 데이터의 구간별 빈도수
표현
분포 차트 (Densityplot) 수치형 데이터의 구간별 빈도수, 범주형 데이터의 클래스별 분포를 색상(Hue)으로 표현
박스 차트 (Boxplot) 수치형 데이터의 통계정보(위에서부터 최댓값, 제 3사분위, 제 2사분위, 제 1사분위, 최솟값)를 박스모양으로 표현
카운트플롯 (Countplot) 범주형 데이터의 클래스별 값의
개수 표현 
데이터 간 관계 분석 산점도 (Scatterplot) 두 수치형 데이터 간의 관계를
좌표평면 상의 점으로 표현
히트맵 (Heatmap) 두 수치형 데이터 간의 상관관계를 색상으로 표현

 

- 박스차트 추가설명

유데미 : 박스차트

- 최솟값(Minimum) : 해당 범주 내 데이터 중 가장 작은 값

- 하위 장벽(Lower Fence) : 박스 바깥의 하단에 위치한 선으로, 통계적으로 Q1 - (1.5 * IQR)의 위치

- Q1(1사분위수) : 박스 하단의 선으로 데이터 분포 상 25% 수준에 위치

- 중앙값(Median, Q2, 2사분위수) : 박스 중간의 선으로 데이터 분포 상 50% 수준에 위치

- Q3(3사분위수) : 박스 상단의 선으로 데이터 분포 상 75% 수준에 위치

- 상위 장벽(Upper Fence) : 박스 바깥의 상단에 위치한 선으로, 통계적으로 Q3 + (1.5 * IQR)의 위치

- 최댓값(Maximum) : 해당 범주 내 데이터 중 가장 큰 값

- IQR(InterQuartile Range) : Q1과 Q3 사이의 거리

- 이상치 : 통계적으로 하위 장벽과 상위 장벽을 벗어나는 값으로, 점으로 표현됨

만약 하위 장벽보다 최솟값이 더 크거나, 상위 장벽보다 최댓값이 더 작은 경우, 각각 하위 장벽 = 최솟값, 상위 장벽 = 최댓값

 

- 상관계수(Correlation) 추가 설명

유데미 : 상관계수

- 피어슨(Pearson) 상관계수 : 일반적으로 사용되는 상관계수로, 절대값이 0.7 이상일 경우 강한 상관관계로 간주(단, 절대적 해석 기준 X)

 

[결측치 처리]

- 분석 방향에 따라 결과에 크게 차이가 나므로 실무자의 견해와 데이터 현실을 반영해 결측치를 처리해야 함

 

- 제거(Drop) : 데이터가 충분히 많거나 결측치가 영향을 미치지 않는 경우 효과적

  -- 결측치가 너무 많은 컬럼은 제거할 수도 있음. 단, 정보가 반드시 손실되므로 비지니스 관점 영향도 신중히 고려

 

- 대체(Fill) : 데이터가 충분하지 않은 경우 활용

  -- 수치형 : 평균값, 중앙값으로 대체하거나 상관관계, 예측모델을 사용해 예측값으로 대체

  -- 범주형 : 일반적으로 최빈값으로 대체, 유사 벡터값(다른 특성이 비슷한 데이터의 값)으로 대체도 가능

 

[이상치 처리]

- 이상치(Outlier) : 전체 데이터의 추세/패턴 등에서 벗어난 값을 가진 데이터 (모델 성능에 좋지 않은 영향 끼칠 가능성 존재)

 

- 이상치 탐지 방법 : IQR 값 활용(박스 차트의 상위/하위 장벽 개념)

  -- 일반적으로 사용하는 방식, 절대적이진 않음

  -- 데이터 상황에 맞게 1.5보다 크거나 작은 값을 선택 가능

  -- 물론 IQR 기법 이외의 이상치를 정의하는 다른 기준을 적용할 수 있음

 

- 이상치 처리 시 주의할 점:

  -- 분류 모델일 경우, 카테고리 별 박스 차트를 그려 이상치 분포 확인

  -- 분포에 따라 의미 있는 이상치일 수도 있으므로 신중해야 함

이상치가 의미 없는 경우 이상치가 의미 있는 경우

 

- 컬럼이 너무 많은 경우 모두 확인하기가 어려움

  -- 평균값과 중앙값이 차이가 나는 컬럼 위주로 확인

  -- 평균과 중앙값 대비 최소, 최댓값이 차이가 나는 컬럼 위주로 확인

 

- 이상치 처리 방법 : 스케일링 기법 적용해 그대로 사용 / 이상치 포함 행 삭제 / 이상치 경계값(장벽) 치환

  -- 스케일링 기법 적용해 그대로 사용 : 이상치가 경계 근처에 몰린 경우

  -- 이상치 포함 행 삭제 : 이상치를 포함한 행의 개수가 적음

  -- 이상치 경계값(장벽) 치환 : 이상치를 포함한 행의 개수가 많음

 

[인코딩]

- 인코딩(Encoding) : 문자 데이터를 숫자 데이터로 변경하는 것 (Original Encoding / One-Hot Encoding)

  -- Original Encoding : 데이터 간의 순서가 있는 카테고리 데이터에 적용(차례대로 숫자를 맵핑)

  -- One-Hot Encoding : 카테고리 수만큼 0과 1로만 구성된 새로운 컬럼을 만들어 맵핑, 데이터 간 순서 없는 경우 유용

원본 데이터 Original Encoding  One-Hot Encoding

 

[스케일링]

- 스케일링(Scaling) : 수치형 데이터에 사용, 변수 간 비교를 위한 수치 단위 맞추기

  -- 트리 기반 알고리즘은 결과가 스케일에 영향을 거의 받지 않지만, 그렇지 않은 알고리즘도 많아 유의해야 함

 

- 스케일링 기법 : Min-Max Scaling / Standard Scaling

  -- Min-Max Scaling : (원래 데이터 - 해당 컬럼 최솟값) / (해당 컬럼 최댓값 - 해당 컬럼 최솟값)으로 치환 (모든 데이터 0~1 사잇값)

  -- Standard Scaling : (원래 데이터 - 해당 컬럼 평균) / (해당 컬럼 표준편차)로 치환 (데이터의 평균은 0, 표준편차는 1로)

 

- 스케일링 적용

  -- 이상치가 없거나 경계(장벽) 근처에 있는 경우 : 개인적 해석으로 선택

  -- 경계를 벗어난 이상치가 있는 경우 : 이상치에 간접적으로 영향받는 Standard Scaling이 상대적으로 이상치에 덜 영향받음

(Min-Max Scaling와 달리 Standard Scaling은 중간값과 평균값 차이가 적은 경우, 이상치가 있더라도 스케일링이 잘되는 편)

 

728x90
반응형