머신러닝 배우기
-
선형회귀의 비용함수, 경사하강법, 학습률머신러닝 배우기 2023. 12. 5. 03:50
머신러닝에서의 학습이란, 실제 정답과 예측값 사이의 오차(Loss, Cost, Error)를 줄여나가는 최적화 과정을 의미합니다. 오늘은 가장 기본적인 모델인 선형회귀에 대해 알아보겠습니다. ▶︎ 선형회귀란? → 종속변수 y와 독립변수 x 사이의 선형 관계를 모델링하는 회귀 분석 기법. → 여기서 "선형"이라는 것은 독립 변수(특성)와 종속 변수(목표 변수) 사이의 관계가 선형적이라는 것을 나타냅니다. → 일반적인 선형회귀 형태 : y = a₁x₁ + a₂x₂ + a₃x₃ + ・・・ + b ▶︎ 선형회귀의 목적 → x와 y의 관계를 가장 잘 설명하는 가중치를 찾는 것. → 이 관계를 통해 새로운 x 데이터들을 가지고 최대한 정확하게 y를 예측 ▶︎ 가중치 찾는 방법은? → cost function(..
-
[머신러닝] Cross-validation으로 과적합 피하기 (K-Fold CV)머신러닝 배우기 2023. 12. 5. 00:43
▶︎ Overfitting : 모델이 학습 데이터에 너무 꼭 맞춰져있어서, 새로운 데이터에 일반화하지 못하는 상태 ▶︎ Overfitting 해결법 : 더 많은 데이터를 수집하던가, 데이터를 변형하여 새로운 데이터를 생성하던가, 모델에 정규화 기법을 적용하여 모델 복잡도를 제어하던가, 불필요한 피처나 노이즈가 많은 피처를 제거하고 중요한 피처를 파생 변수로 새로 만드는 등 feature selection / feature engineering 에 집중하던가, k-fold 교차 검증 등 모델의 일반화 성능을 평가하던가, 검증 데이터의 성능이 개선되지 않는 지점에서 일찍 학습을 종료하여 과도하게 적합되기 전에 학습을 멈춘다거나, 여러 모델의 예측을 결합하는 앙상블 기법을 사용하던가, overfitting과 ..
-
[머신러닝] 쉽게 설명하는 머신러닝머신러닝 배우기 2023. 12. 4. 18:26
▶︎ 머신러닝이란? → 컴퓨터 시스템이 문제/과제를 풀기 위해 스스로 데이터를 학습하고 특정한 평가 기준을 개선하며 경험을 쌓아나가는 것 → 학습이란? 실제 정답과 예측값 사이의 오차(Loss, Cost, Error)를 줄여나가는 최적화 과정 ▶︎ 머신러닝 분류 → 지도 학습 - 데이터에 정답이 있어서 입력 데이터와 정답 데이터를 모델에게 제공하여 학습시키는 방식. - 학습방법 : 모델은 주어진 입력에 대한 출력을 예측하며, 정확도를 향상시키는 방향으로 학습 - 예시 : 회귀(날씨 예측, 집값 예측 등), 분류(사기 탐지, 이미지 분류, 스팸 분류, 글자 인식 등) - 알고리즘 종류 : 선형 회귀, 로지스틱 회귀, 의사결정 나무, 베이시안 분류 등 → 비지도 학습 - 데이터에 정답이 없고, 데이터의 구조..
-
데이터 분석하는데 선형대수를 왜 공부해야해? 에 대한 답변머신러닝 배우기 2023. 12. 4. 14:56
저는 대학교 때 수학과에 복수전공할 만큼 수학을 좋아했었는데, 내가 배우는 수학이 데이터 분석에 어떻게 쓰이는거지? 에 대해 연결이 된 적이 없었습니다. 수학이 중요하다고는 하는데, 데이터 분석 / 머신러닝 / 딥러닝에 도대체 어떻게 쓰이는거야... 수학도 모르겠는데 선형대수는 왜 중요하다는 거야... 라는 의문을 가지고 있었습니다. 사실 라이브러리나 오픈소스도 너무 잘되어있기 때문에 내가 굳이 수학적으로 접근하지 않아도 충분히 모든 것을 수행할 수 있을 만큼 정보가 엄청 많고 잘되어 있습니다. 그래서 더욱 깊게 생각해보지도 않았습니다. (참고로 선형대수는 벡터 공간과 선형 변환을 다루는 수학의 한 분야입니다.) 그러다가 좋은 기회로 "머신러닝/딥러닝으로 이어지는 선형대수" 라는 수업을 듣게 되었는데, ..
-
[머신러닝] feature importance 의 특징과 장단점머신러닝 배우기 2023. 12. 4. 11:44
보통 트리 기반의 모델을 학습한 후 feature importance 를 확인하는 코드를 많이 보셨을 겁니다! 직관적으로도 알 수 있듯 특성의 중요도를 나타내는 지표입니다. 뜻이 너무 직관적이기 때문에 오히려 자세히 알아보지 않고 넘어가는 경우가 많습니다. 하지만 feature importance의 특징을 통해 머신러닝의 특징까지 확장하여 개념을 단단히 할 수 있다는 사실! 오늘은 그런 feature importance 라는 지표에 대해 정확하게 알아보겠습니다! ▶︎ Feature Importance 란? : 머신 러닝 모델에서 독립변수가 종속 변수에 영향을 미치는 정도를 나타내는 지표 : 모든 변수들이 정규화된 Linear Model에서는 y = a₁x₁ + a₂x₂ + a₃x₃ + ・・・ + b 변수..
-
[통계] 상관계수 총정리! 피어슨과 스피어만 상관계수 차이 비교머신러닝 배우기 2023. 11. 27. 15:25
상관계수란, 두 변수 간의 관계의 강도와 방향을 측정하는 통계적인 지표입니다. 일반적으로 데이터의 특성에 따라 피어슨 상관계수 또는 스피어만 순위 상관계수 중 선택합니다. 오늘은 상관계수와 자주 사용하는 피어슨/스피어만 상관계수에 대해서 확실히 짚고 넘어가보도록 하겠습니다! 1. 상관계수 정의 : 두 변수 간의 관계의 강도와 방향을 측정하는 통계적인 지표 2. 상관계수 분석 시 주의할 점 : 두 변수 간의 선형적인 관계를 측정하기 때문에 다른 형태의 관계를 감지하지 못할 수 있다. : 인과관계를 나타내지 않으며, 두 변수 간의 관계가 우연에 의한 것일 수도 있다. 따라서 상관계수를 해석할 때 주의가 필요하다. 3. 상관계수 종류 : 상관계수에는 여러 종류가 있으며, 데이터의 특성과 분석 목적에 따라 적절..
-
[Do it 자연어 처리] 1일차 자연어 처리, 트랜스퍼 러닝의 개념머신러닝 배우기 2023. 9. 30. 01:32
NLP 의 역할 : 문서 분류, 기계 독해, 문장 생성, 요약 및 번역, 감정 분석, 자연어 추론, 개체명 인식, 질의 응갑, 문장 생성 NLP 언어 모델 종류 : BERT, GPT 등 NLP 기법 : 트랜스포머, 전이학습, CNN(콘볼루션 신경망), RNN(순환 신경망) 등 모델의 뜻 : 입력을 받아 어떤 처리를 수행하는 함수 : 입력 → 모델(함수) → 출력(확률) 자연어처리 모델의 정의 : 자연어를 입력박아서 해당 입력이 특정 범주일 확률을 반환하는 확률 함수 학습의 뜻 : 출력이 정답에 가까워지도록 모델을 업데이트하는 과정 자연어 처리 모델 종류 : 트랜스퍼러닝 등 트랜스퍼러닝이란 ? : 특정 태스크를 학습한 모델을 다른 태스크 수행에 재사용하는 기법 트랜스퍼러닝의 장점 : 기존보다 모델의 학습 ..