전체 글
-
[책후기] 지극히 평범한 우리의 삶을 그려낸 불편한편의점책으로 공부하기 2023. 12. 20. 11:33
오랜만에 소설책을 읽어보았습니다. 최근에 자기개발서나 직무 관련 서적만 읽다보니 감정이 메마르고 어딘가 허전한 느낌이 들었습니다. 그래서 요즘 인기있었던 소설책을 찾아보니까 "불편한 편의점"이 있더라구요! 책 표지가 마치 웹툰을 연상케하고 친근하고 끌려서 읽게 되었습니다. 읽다가 가끔 코가 찡한 부분도 있고 자꾸 마음이 따뜻해지는 기분이 들어서 겨울에 읽기 더 잘한 것 같다는 생각이 들었습니다. 따뜻한 내용과 등장인물, 배경 등 스토리적 측면도 모두 좋았지만, 이 소설은 챕터마다 편의점과 연이 있는 등장인물들의 이야기를 들려주면서 어떤 삶을 살아왔고, 어떻게 살고 있는지, 왜 이런 현재를 갖게 됐는지, 편의점과 어떤 인연이 있는지, 이들에게 편의점이란 어떤 장소인지를 설명해줍니다. 각자 다른 삶을 살고 ..
-
[딥러닝] 문제 종류에 따라 output layer 설계(Compile)하는 법딥러닝 공부하기 2023. 12. 19. 14:09
우리가 풀어야 하는 문제가 회귀인지, 이진분류인지, 다중분류인지에 따라 output layer의 퍼셉트론 갯수와 output layer의 활성화 함수, 손실함수가 달라집니다. 손실함수는 또한 평가 지표로 연결됩니다. 활성화함수의 그래프나 공식을 생각해보면 어떤 문제에서 활용해야 하는지 자연스럽게 외워집니다. - 이진분류에서는 시그모이드를 쓰는데 그 이유는 0과 1로 바꿔줘야 하기 때문입니다. 그래프를 생각하면 0과 1로 분류하기 쉽죠? - 다중분류는 softmax 함수를 사용하는데 입력 벡터의 각 요소를 지수 함수로 변환하고, 각 요소를 모든 요소의 합으로 나누어 확률 분포를 생성합니다. 합이 1이 되도록 하기 위해서이죠. - 회귀문제는 아무것도 건들 필요가 없습니다! 회귀 공식을 생각하면 가중치와 독립..
-
[딥러닝] MNIST 텐서플로우 예제 쉽게 따라하기딥러닝 공부하기 2023. 12. 19. 12:27
MNIST는 딥러닝 예제로 유명하죠? MNIST 데이터는 0~9까지의 손글씨 데이터인데, 이미지를 학습하여 어떤 숫자인지 맞추는 것입니다. 28*28픽셀로 구성된 흑백 손글씨로, 학습 데이터는 6만 개, 테스트 데이터는 1만 개로 이루어져있습니다. 딥러닝 분류 예제로 많이 활용하는 MNIST 데이터로 딥러닝 학습 순서를 따라해보며 딥러닝을 더 쉽고 정확하게 이해하며 실습해보도록 하겠습니다. 1. 우선 텐서플로우 1버전을 사용하도록 하겠습니다. import numpy as np import matplotlib.pyplot as plt import tensorflow.compat.v1 as tf tf.disable_v2_behavior() import os os.environ['TF_CPP_MIN_LOG_L..
-
카테고리컬 변수 인코딩하는 세가지 방법 (원핫 인코딩, 라벨 인코딩, 바이너리 인코딩)머신러닝 배우기 2023. 12. 17. 01:26
▶︎ 카테고리컬(명목형, 범주형) 변수란? → 카테고리컬 변수는 이름에서 알 수 있듯 변수의 속성값은 서로 구분되는 카테고리를 나타내는 변수입니다. 속성값은 양적인 값을 갖지 않으며, 카테고리를 구분하기 위한 값이고 숫자로 표현되더라도 각 값의 크기나 순서에는 의미가 없습니다. 즉, 숫자로 표현되더라도 그룹 간에 단순히 식별하기 위한 용도일 뿐이며, 숫자 값 자체에는 의미가 없습니다. → 예시) 성별(남성, 여성), 색상(빨강, 파랑, 노랑, 초록) ▶︎ 카테고리컬 변수를 인코딩 해야하는 이유 → 머신러닝 모델은 데이터를 숫자로 입력받아야 이해하고 처리할 수 있기 때문에 인코딩 과정이 필요합니다. ▶︎ 카테고리컬 변수의 인코딩 종류와 장단점 1. 원-핫 인코딩 (One-Hot Encoding) - 개념 ..
-
[데이터 분석가의 숫자 유감] 데이터 분석에서 뼈 때리면서 중요한 말카테고리 없음 2023. 12. 14. 14:11
데이터 분석가의 숫자 유감이라는 책을 읽다가 데이터 분석가로서 꼭 잊지 않고 가지고 가야할 페이지가 있어서 공유드려봅니다. " 많은 데이터 분석은 모집단의 형태를 추정하는 식으로 이루어진다. 따라서 데이터 분석에서 '모집단' 자체를 다룰 수 있는 경우는 거의 없다. 전체 데이터를 다 사용한다고 해도, 그 데이터가 서비스를 적게 사용한 사람들, 늦게 가입한 사람들, 중간에 탈퇴한 사람들을 모두 대표할 수는 없다. 사람들은 이런 사실을 종종 잊어버린다. 단순히 숫자를 보고, 또는 '빅데이터'를 손에 쥐고, 이제 모든 것을 다 가졌다는 착각을 하고야 만다. 그리고 다양한 통계 용어를 접하면서 자신이 데이터와 통계에 익숙해졌다는 망상에 빠진다. 그 결과, 여러 단어의 의미와 개념을 혼동한 채 이상한 방향의 결론..
-
[데이터 분석가의 숫자 유감] 이 정도만 알아도 분석가들에게 무시당하지 않는다!책으로 공부하기 2023. 12. 14. 14:10
요즘 책 읽는 것에 흥미를 읽어서 만화로 쉽게 볼 수 있는 것은 없을까~ 찾다가 "데이터 분석가의 숫자 유감"이라는 책을 발견하였습니다. 나도 분석가이기 때문에 어떤 내용이 집필되어 있나 궁금했는데, 읽어보니까 하루만에 읽혀지더라구요! 이 책을 읽으면 우리가 쉽게 놓칠 수 있는 통계 바탕의 실수들을 '아차! 조심해야지!' 하면서 다시 생각해볼 수 있게 되고 잘못된 가정과 해석으로 엉뚱한 방향으로 가지 않게 도와줄 수 있을 겁니다. 책의 내용 외에도 더 많은 주의해야할 것들이 많고, 수학적/통계적 수식도 없기 때문에 깊이가 깊지 않지만 오히려 더 잘 이해할 수 있고 재밌고 쉽게 볼 수 있을 것이라고 생각이 됩니다. 특히 책이 일상적인 업무생활을 바탕으로 그려졌기 때문에 기업이 점차 데이터 기반으로 의사결정..
-
[생활 속 통계] 내 몸무게가 늘면, 출산율이 낮아진다? 마케팅을 하면 가입율이 늘어난다?카테고리 없음 2023. 12. 14. 11:42
"상관관계와 인과관계는 다르다" 정말 많이 들어봤지만, 정말 많이 혼동하게 만드는 친구들입니다. "내 몸무게가 출산율에 영향을 미친다" 라는 블로그의 주제는 상관관계의 잘못된 해석의 예를 들어본 것입니다. 저는 30년 동안 몸무게가 늘어갔지만, 대한민국 출산율은 점점 떨어졌습니다. 우리는 몸무게와 출산율이 독립적인 것을 알고, 몸무게가 느는 것과 출산율이 주는 것은 관계가 없다는 것을 알 수 있습니다. 왜냐하면 시간이 흐르면서 제가 세포분열을 해서 키가 커지고 세상의 맛있는 음식들을 알아가면서 몸무게가 늘었습니다. 출산율은 사람들의 라이프 스타일도 바뀌고, 물가가 오르고 부동산이 오르면서 경제적인 부담도 되고, 여성의 사회 참여가 늘면서 커리어를 더 중요시하기도 하며 아이를 돌볼 시간적 여유가 없어지는..
-
[머신러닝] PCA와 feature selection 과의 비교머신러닝 배우기 2023. 12. 12. 15:17
머신러닝/딥러닝을 할 때, 데이터가 너무 많은데 하필 또 계산량이 많은 알고리즘(예, 거리 기반 알고리즘)을 적용해야할 때가 있습니다. 또는 데이터는 많지만 독립변수가 종속변수와 상관관계가 적을 때, 괜히 계산 리소스만 잡아먹기도 하고 모델이 일반화하기 어렵기도 합니다. 그럴 때면 피쳐를 줄이기 위해 Feature selection 을 하거나 PCA 방법을 사용하여 차원을 축소하곤 합니다. 이 두 가지 방법은 어떻게 다르고 PCA 기법이 무엇인지에 대해 알아보도록 하겠습니다. ▶︎ Feature selection과 PCA 비교하기 feature selection PCA 개념 독립변수 중에 종속변수와의 관련이 적은 변수들을 제거하거나 다중공선성이 큰 독립변수들을 제거하는 등 모델의 성능과 복잡성을 위해 덜..