1.기계학습의 정의 : 기계학습은 컴퓨터가 명시적인 프로그래밍 없이 데이터로부터 스스로 패턴을 찾아내고, 이를 바탕으로 새로운 데이터에 대해 예측하거나 결정을 내릴 수 있게 하는 인공지능의 한 분야이다.
2.기계학습 절차(과정) : 문제를 정의하고 학습 유형을 선택한 뒤 데이터를 수집·전처리한다. 데이터를 훈련·검증·테스트 세트로 나누어 모델을 학습시키고, 검증으로 성능을 평가·튜닝한다. 테스트로 최종 확인 후 실제 환경에 배포하고 지속적으로 모니터링하며 필요 시 재학습한다.
3.기계학습 3가지 유형과 대표적인 문제(예시)
지도학습 정답(라벨)이 있는 데이터를 학습해 새로운 데이터의 결과를 예측한다
이메일이 스팸인지 정상인지 분류
집 크기·위치를 보고 집값 예측
비지도학습 정답 없이 데이터의 구조나 패턴을 스스로 찾아낸다
고객 구매 데이터를 보고 유사한 고객 그룹화 (클러스터링)
상품 판매 데이터를 압축해 주요 특징 추출 (차원 축소)
강화학습 에이전트가 환경과 상호작용하며 보상을 최대화하는 행동을 학습한다
게임에서 점수를 최대화하며 플레이 (예: 알파고)
로봇이 장애물을 피해 목적지까지 이동
4.훈련데이터,테스트데이터
훈련데이터와 테스트데이터는 기계학습에서 모델을 만들고 평가하는 데 핵심적인 데이터 세트이다.
훈련데이터 모델이 실제로 학습하는 데이터로, 입력과 정답을 포함한다. 모델은 이 데이터를 반복적으로 보고 패턴을 익히며 가중치를 조정한다. 전체 데이터의 약 70~80%를 사용한다.
테스트데이터 학습이 끝난 모델의 성능을 객관적으로 평가하기 위해 사용하는 데이터로, 모델이 한 번도 보지 못한 새로운 데이터이다. 훈련데이터와 완전히 분리되어야 하며, 보통 전체의 10~20%를 사용한다. 이를 통해 모델이 실제 세상에서 얼마나 잘 일반화되는지 확인한다.
5.과적합,과소적합
과적합과 과소적합은 기계학습 모델이 데이터에 맞추는 정도가 지나치거나 부족한 현상이다.
과적합 모델이 훈련데이터를 지나치게 자세히 학습해 복잡한 패턴까지 외운다. 훈련데이터에서는 성능이 매우 좋지만, 새로운 데이터에서는 성능이 크게 떨어진다.
과소적합 모델이 훈련데이터의 기본적인 패턴조차 제대로 학습하지 못한다. 훈련데이터에서도 성능이 낮고, 테스트데이터에서도 마찬가지로 낮다.
6.오차 함수, 결정계수 설정 (https://url.kr/8k1qsh)
차 함수와 결정계수는 기계학습 모델의 성능을 평가하는 주요 지표이다.
오차 함수 예측값과 실제값 사이의 차이를 수치로 나타낸 함수로, 모델 학습 시 이를 최소화한다.
회귀: 평균 제곱 오차(MSE)
선형회귀모델은 입력과 출력 사이의 관계를 직선으로 표현해 값을 예측한다.
결정계수 (R2 R^2 R2) 회귀 모델이 데이터를 얼마나 잘 설명하는지 나타낸다 (0~1). R2=1−모델 오차평균 예측 오차R^2 = 1 - \frac{\text{모델 오차}}{\text{평균 예측 오차}}R2=1−평균 예측 오차모델 오차 1에 가까울수록 설명력이 높다.