<기계학습이란?>
1사람이 명시적으로 규칙을 프로그래밍 하지 않음
2.기예가 데이터 분석, 규칙과 특징을 찾음
3.새로운 데이터에 대한 예측과 최적의 판단등을 수행하는 인공지능 기술
인간의 학습 vs 기계학습
(직관적,창의적 사고 가능) (패턴학습)
학습을 통해 문제 해결
경험과 연습 데이터 학습
문제를 풀며 시행착오 많은 데이터 학습 성능 개선
직관적 사고,창의성 가능 기존데이터에서 패턴을 찾음
감정 직관 윤리적 판단 고려 패턴 분석에 기반
적은 데이터로도 학습가능 대량의 데이터 필요
<명시적 프로그래밍 Vs 기계학습 프로그래밍>
명시적 프로그래밍 Vs 기계학습 프로그래밍
개발자가 규칙 정의 데이터 분석, 규칙을 학습
사전에 정의된 규칙, 결과도출 최적화된 규칙 도출, 예측 및 판단
<기계학습의 유형>
데이터를 학습하는 방법에 따라 구분
<지도학습>문제와 정답을 모두 알려주고 학습
(예:질병 유무 판단, 스팸 메일 분류, 특정일의 날씨예측)
<비지도 학습> 정답을 알려주지 않고 학습
(예:고객의 구매 패턴 분석 상품 추천, 유사한 그룹이나 범주 발견)
<강화학습>에이전트가 환경과 상호작용하며 시행착오를 통해 학습하는 방법
(예:인공지능 챗봇, 자율주행 자동차)
퀵드로(quickdraw.withgoogle.com)은 지도학습
<지도학습>
<주요개념>
특징(feature) : 입력 데이터의 속성 (예:키,몸무계,혈핵형....)
레이블(Label) : 정답 또는 예측하려는 값
모델(model) : 데이터를 학습하여 예측을 수행하는 알고리즘
훈련 데이터(training data) : 모델을 학습 시키기 위해 사용하는 데이터 (입력데이터와 레이블 구성)
테스트 데이터 (testdata):모델의 성능을 평가하기위해 사용하는 데이터
<활용분야>
이미지 인식 : 사진 속 사물이 무엇인지 인식하는 기술, 예:얼굴인식, 객채 탐지
자연어 처리 : 텍스트 데이터를 분석하고 이해하는 기술 예: 스팸 메일 분류, 챗봇
추천 시스템 : 사용자의 취향에 맞는 상품이나 콘텐츠를 추천하는 시스템, 예 : 유튜브 추천, 넷플릭스 추천
의료분야 : 환자의 데이터를 분석하여 질병을 진단하거나 예측하는 기술, 예 : 암 판정
금융분야 : 예 : 신용평가, 주가 예측
<장점> <단점>
레이블이 있기 때문에 성능 평가 명확 레이블에 포함된 데이터 수집 필요 (비용과 시간)
다양한 문제 적용 가능(분류,회귀) 레이블이 잘못된경우 모델 성능 저하
<비지도 학습>
<주요 개념>
레이블이 없는 데이터를 사용하여 모델을 학습, 레이블이 없기 때문에 데이터의 구조나 패턴을 스스로 찾아야함.
특징(feature) : 입력 데이터의 속성 (예:키,몸무계,혈핵형....)
[레이블(Label) : 정답 또는 예측하려는 값]======>없음
군집(cluster) : 비슷한 특성을 가진 데이터 포인트 들의 그룹
차원 축소(Dimensionality Reduction) : 데이터 특징을 줄여서 중요한 정보만 남기는 과정
모델(model) : 데이터를 학습하여 예측을 수행하는 알고리즘
<활용분야>
고객 세분화 (예 : 온라인 쇼핑몰에서 고객 구매 패턴 분석 및 맞춤 마케팅 전략 수립)
고객 데이터를 분석하여 비슷한 특성을 가진 고객 그룹을 나눔
이상탐지 (예 : 신용카드 사기 탐지, 해킹시도 탐지)
정상 데이터와 다른 패턴을 보이는 데이터를 찾아냄
이미지 및 영상 처리 (예: 이미지 압축,얼굴 인식, 비슷한 이미지 그룹화)
이미지나 영상데이터에서 패턴을 발견하거나 군집화
네트워크 분석 (예 : 페이스북,X 에서 비슷한 관심사를 가진 사용자 그룹 탐지)
소셜 네트워크 데이터에서 커뮤니티나 그룹 발견
추천 시스템 (예: 넷플릭스,아마존에서 사용자 맞춤 콘텐츠 또는 상품추천)
사용자 행동 데이터를 분석하여 비슷한 사용자 그룹을 찾고 추천
유전자 데이터 분석 (예: 유전자 발현 데이터 분석 .질병관련 유전자 패턴 발견)
유전자 데이터에서 패턴을 발견하거나 군집화
<장점> <단점>
데이터 수집 상대적 용이 레이블(무) 모델 성능 명확 평가 어려움
데이터의 숨겨진 구조나 패턴 발견 결과 해석이 복잡할 수 있음