전체 글
-
나도 ChatGPT 쓰는데 누가 내 블로그를 보지?정보공유 경험나눔 2023. 12. 8. 00:05
대학생 때, 모르는 개념이나 코드들이 있으면, 구글 검색이 짱이었다. 거기에는 모든 것이 있었다. 이 블로그 저블로그 다니면서 내가 원하는 것을 찾아야했지만 상위에 있는 2~3개 글만 봐도 답이 나와서 구글이 최고인줄 알았다. 머신러닝을 처음 공부했을 때, 덕분에 개념을 쉽게 이해할 수 있었으며, 에러 메세지를 해결하는 등 같은 경험을 겪은 블로거들의 도움을 많이 받았었다. 그래서 이제 나도 내가 아는 만큼 잘 정리해서 누군가에게 도움이 되고 싶었고, 그러면서 나도 흩어있던 지식들을 체계화할 수 있는 시간이 되면서 나에게도 도움이 되었다. 하지만 정보 전달이 목적인 글쓰기를 하다보니 요즘의 나도 글을 쓰기 전에 ChatGPT에게 물어보고 개념 및 특징을 가져와서 글을 쓴다. 블로그를 쓰는 것 이외에도 모..
-
XG Boost 탄생과 모델의 장단점머신러닝 배우기 2023. 12. 5. 23:41
데이터 분석 / 머신러닝 / 딥러닝을 공부해보신 분들은 캐글을 들어보셨을 겁니다. 거기서 딥러닝을 포함한 여러 모델들 중 XG Boost 모델의 성능이 가장 잘 나와서 많이 뜨고 널리 사용되고 있습니다. 오늘은 이런 XG Boost 모델에 대해서 알아보겠습니다. ▶︎ XG Boost (Extreme Gradient Boosting) 란? → 의사결정나무에 부스팅 기법을 적용한 트리 기반의 앙상블 학습 알고리즘 ▶︎ XG Boost 진화 과정 1) 기반은 의사결정 나무이다. 의사결정 나무가 이해하기 쉽고 해석에 용이하지만, 입력 데이터의 작은 변동에도 트리의 구성이 크게 달라질 수 있고 과적합이 쉽게 발생한다는 한계가 있다. (Decision tree) 2) 그래서 이를 해결하기 위해 Boosting(..
-
[머신러닝] 분류 모델 성능 평가 방법 (2) ROC Curve, AUC머신러닝 배우기 2023. 12. 5. 18:42
지난 번에 분류 모델 성능 평가 방법으로 Confusion Matrix 를 공부해보았습니다. 하지만 무언가 트레이드 오프 관계가 있다는 것을 느끼셨을 겁니다. 실제 트레이드 오프 관계를 표현하기 위한 지표가 ROC곡선이며 오늘은 이 ROC곡선에 대해 배워보겠습니다. ▶︎ ROC 곡선 및 AUC(Area Under the Curve) → ROC 곡선 : 여러 결정 임계값에서 재현율과 (1 - 특이도) 사이의 관계를 시각화한 것 - 재현율 : 실제 양성인데, 양성으로 제대로 예측한 비율 - 1 - 특이도 : 실제 음성인데, 양성으로 예측한 비율 → AUC : ROC 곡선 아래의 면적으로, 모델의 전반적인 분류 성능 지표 ▶︎ ROC 곡선 작동 원리 1. 민감도와 1-특이도 계산 : 여러 결정 임계값에서..
-
[머신러닝] 분류 모델 성능 평가 방법 (1) Confusion Matrix머신러닝 배우기 2023. 12. 5. 18:03
우리는 몇 개 중 몇 개 맞았다에 익숙해져 있습니다. 즉, 정확도에 익숙해져 있는 것이죠. 하지만 예측을 얼마나 잘했는지를 판단하기엔 정확도가 가진 한계가 있습니다. 그래서 다양한 지표들을 함께 봐야합니다. 오늘은 그런 지표들을 알아보기 위해 Confusion Matrix를 배워보겠습니다. ▶︎ Confusion Matrix 란? → 분류 모델의 성능을 평가하기 위한 표 → 모델이 예측한 결과와 실제 결과를 비교하여 모델의 성능을 평가하는 데 사용 → Binary Classification 에서 많이 사용되지만, Multiclass Classification 에서도 확장하여 사용할 수 있음 ▶︎ 참고 → 제 1종 오류(Type I Error) : 실제로는 음성인데 모델이 양성으로 잘못 분류한 경우 (..
-
선형회귀의 비용함수, 경사하강법, 학습률머신러닝 배우기 2023. 12. 5. 03:50
머신러닝에서의 학습이란, 실제 정답과 예측값 사이의 오차(Loss, Cost, Error)를 줄여나가는 최적화 과정을 의미합니다. 오늘은 가장 기본적인 모델인 선형회귀에 대해 알아보겠습니다. ▶︎ 선형회귀란? → 종속변수 y와 독립변수 x 사이의 선형 관계를 모델링하는 회귀 분석 기법. → 여기서 "선형"이라는 것은 독립 변수(특성)와 종속 변수(목표 변수) 사이의 관계가 선형적이라는 것을 나타냅니다. → 일반적인 선형회귀 형태 : y = a₁x₁ + a₂x₂ + a₃x₃ + ・・・ + b ▶︎ 선형회귀의 목적 → x와 y의 관계를 가장 잘 설명하는 가중치를 찾는 것. → 이 관계를 통해 새로운 x 데이터들을 가지고 최대한 정확하게 y를 예측 ▶︎ 가중치 찾는 방법은? → cost function(..
-
[머신러닝] Cross-validation으로 과적합 피하기 (K-Fold CV)머신러닝 배우기 2023. 12. 5. 00:43
▶︎ Overfitting : 모델이 학습 데이터에 너무 꼭 맞춰져있어서, 새로운 데이터에 일반화하지 못하는 상태 ▶︎ Overfitting 해결법 : 더 많은 데이터를 수집하던가, 데이터를 변형하여 새로운 데이터를 생성하던가, 모델에 정규화 기법을 적용하여 모델 복잡도를 제어하던가, 불필요한 피처나 노이즈가 많은 피처를 제거하고 중요한 피처를 파생 변수로 새로 만드는 등 feature selection / feature engineering 에 집중하던가, k-fold 교차 검증 등 모델의 일반화 성능을 평가하던가, 검증 데이터의 성능이 개선되지 않는 지점에서 일찍 학습을 종료하여 과도하게 적합되기 전에 학습을 멈춘다거나, 여러 모델의 예측을 결합하는 앙상블 기법을 사용하던가, overfitting과 ..
-
[머신러닝] 쉽게 설명하는 머신러닝머신러닝 배우기 2023. 12. 4. 18:26
▶︎ 머신러닝이란? → 컴퓨터 시스템이 문제/과제를 풀기 위해 스스로 데이터를 학습하고 특정한 평가 기준을 개선하며 경험을 쌓아나가는 것 → 학습이란? 실제 정답과 예측값 사이의 오차(Loss, Cost, Error)를 줄여나가는 최적화 과정 ▶︎ 머신러닝 분류 → 지도 학습 - 데이터에 정답이 있어서 입력 데이터와 정답 데이터를 모델에게 제공하여 학습시키는 방식. - 학습방법 : 모델은 주어진 입력에 대한 출력을 예측하며, 정확도를 향상시키는 방향으로 학습 - 예시 : 회귀(날씨 예측, 집값 예측 등), 분류(사기 탐지, 이미지 분류, 스팸 분류, 글자 인식 등) - 알고리즘 종류 : 선형 회귀, 로지스틱 회귀, 의사결정 나무, 베이시안 분류 등 → 비지도 학습 - 데이터에 정답이 없고, 데이터의 구조..
-
데이터 분석하는데 선형대수를 왜 공부해야해? 에 대한 답변머신러닝 배우기 2023. 12. 4. 14:56
저는 대학교 때 수학과에 복수전공할 만큼 수학을 좋아했었는데, 내가 배우는 수학이 데이터 분석에 어떻게 쓰이는거지? 에 대해 연결이 된 적이 없었습니다. 수학이 중요하다고는 하는데, 데이터 분석 / 머신러닝 / 딥러닝에 도대체 어떻게 쓰이는거야... 수학도 모르겠는데 선형대수는 왜 중요하다는 거야... 라는 의문을 가지고 있었습니다. 사실 라이브러리나 오픈소스도 너무 잘되어있기 때문에 내가 굳이 수학적으로 접근하지 않아도 충분히 모든 것을 수행할 수 있을 만큼 정보가 엄청 많고 잘되어 있습니다. 그래서 더욱 깊게 생각해보지도 않았습니다. (참고로 선형대수는 벡터 공간과 선형 변환을 다루는 수학의 한 분야입니다.) 그러다가 좋은 기회로 "머신러닝/딥러닝으로 이어지는 선형대수" 라는 수업을 듣게 되었는데, ..