파이썬 배우기
-
[파이썬] 데이터프레임에서 특정 조건의 값만 바꾸기파이썬 배우기 2024. 1. 29. 17:18
데이터프레임에서 특정 조건의 값만 바꾸는 법을 알아보겠습니다. 예를 들어, 오른쪽과 같은 데이터프레임이 있습니다. 학생 이름과 반, 점수가 있을 때, 1. 모든 학생의 점수를 5점씩 올리고 싶다 2. 1반 학생들의 점수만 올리고 싶다. 그런데 올린 값이 100점 이상이면 100으로 제한 3. 올린 점수와 올리지 않은 점수 모두 보고 싶을 때 df = pd.DataFrame({'name':['A','B','C','D','E','F','G'], 'class':[1,1,2,1,2,2,1], 'score':[70,30,10,50,90,100,20]}) df 1. 모든 학생의 점수를 5점씩 올리고 싶다 df['score'] = (df['score'] + 5).apply(lambda x: min(x, 100)) d..
-
[파이썬] 간단하게 라이브러리 버전 확인하는 두 가지 방법파이썬 배우기 2023. 12. 10. 13:54
1. ! pip show 명령으로 Python 패키지에 대한 정보하기 # 라이브러리 버전 확인 방법 1 ! pip show scikit-learn # Name: scikit-learn # Version: 1.3.0 # Summary: A set of python modules for machine learning and data mining # Home-page: http://scikit-learn.org # Author: # Author-email: # License: new BSD # Location: /Users/youjin/anaconda3/lib/python3.11/site-packages # Requires: joblib, numpy, scipy, threadpoolctl # Required-..
-
[파이썬] 한국어 텍스트 데이터 전처리 예제 (1) 토큰화, 클렌징, 빈도수 탐색파이썬 배우기 2023. 12. 10. 13:42
가장 기초적이며 기본적인 데이터 분석은 정형데이터로 부터 시작했습니다. 현재의 분석 기술이나 인프라가 없었을 때, 분석과 연산이 가능한 데이터와 프로그램을 가지고 진행이 되었으며, 판매량, 판매 갯수, 수익 등의 수치 데이터로 시작되었습니다. 하지만 다양한 기술이 발달하고 반정형, 비정형 데이터를 분석할 수 있게 되었습니다. 오늘은 텍스트 분석 예제를 다뤄보며 실습을 해보려고 합니다. 텍스트 데이터 분석은 수치 데이터 분석과는 다르다고 생각하지만, 분석 과정은 크게 다르지 않습니다. 오늘은 한국어 버전 텍스트 데이터 전처리 과정을 공부해보겠습니다. 수치 데이터 텍스트 데이터 문제 정의 회귀, 분류, 이상치 탐지, 시계열 예측 등 감성 분석, 텍스트 분류, 텍스트 생성, 토픽 모델링, 개체명 인식 등 데이..
-
[파이썬] 파이썬에서 SQL 실행하기 (sqlite3)파이썬 배우기 2023. 11. 24. 18:38
sqlite3라는 라이브러리를 사용하여 파이썬에서 sql을 실행해보려고 합니다. sqllite3는 파이썬에 기본적으로 내장되어 있기 때문에 바로 import 해서 사용하실 수 있습니다. 실행하기 전에 connect() 라는 함수로 데이터베이스랑 연결을 하고, cursor()를 활용해 데이터베이스에서 이것저것 실행할 수 있게 명령어를 db에 전달하여 정보를 가지고 오도록 하고, 중간중간에 연결된 DB파일에 저장을 해준다거나(commit) 저장시점으로 되돌아가거나 (rollback) 연결을 끊어줄 수도 있습니다(close). 기본적인 예제를 실행해보도록 하겠습니다. 실행해볼 기본적인 단계는 아래와 같습니다. 1. 파이썬에서 데이터베이스에 연결하기. 2. 테이블을 만들고 데이터 삽입 3. 테이블 확인 4. ..
-
[파이썬] 결측값 처리하는 6가지 방법 (fillna, SimpleImputer)파이썬 배우기 2023. 11. 22. 17:42
오늘은 결측값 처리하는 법에 대해 소개하려합니다. 결측값을 처리해야하는 이유는 결측값이 많으면 데이터의 특성을 제대로 파악하기 어려워서 잘못된 인사이트를 도출하게 되고, 모델을 학습시킬 때 모델의 성능이 크게 저하되어 잘못된 결과를 도출하기 때문입니다. 비즈니스에서 적용시에는 도메인과 데이터의 특성에 따라 결측치 처리하는 법을 논의 후 의사결정하시고 적용하시면 됩니다. [결측값 처리하는 법] 1. 결측값이 있는 행 삭제 2. 의미있는 값으로 직접 채워넣기 3. 주변 값들로 대체 4. 대표값으로 채워넣기 5. 그룹별 대표값으로 채워넣기 6. 사이킷런의 SimpleImputer 함수 사용하여 대표값으로 대체 1. 결측값이 있는 행/열 삭제 - 가장 정확한 방법일 수 있지만, 가장 위험할 수도 있습니다. 결측..
-
[파이썬] pandas 데이터프레임 속성값 바꾸기 (apply, replace)파이썬 배우기 2023. 11. 22. 15:42
데이터를 전처리할 때, 여러 속성 값들을 그룹으로 만들어서 차원을 줄인다거나, 보기 편한 값으로 치환을 하는 등 속성값을 바꿔야하는 일들이 자주 발생합니다! 그럴 때 사용할 수 있는 데이터프레임 속성값 바꾸는 세 가지 방식에 대해 소개하도록 하겠습니다. 우선 데이터프레임 안에 appy 함수가 내장되어 있습니다. 이것은 행 또는 열에 원하는 연산을 적용하는 함수입니다. numpy와 같은 다른 라이브러리의 단일 연산 함수를 사용할 수도 있고, def로 직접 정의한 함수를 넣을 수도 있고, lambda로 정의한 함수를 적용할 수도 있습니다. 1. apply(만든 함수) : 기본 단일 함수도 포함 2. apply + lambda 3. replace 이 세 가지 방법을 소개시켜드리려고 합니다. 이들은 모두 자동으..
-
[파이썬] pandas 데이터프레임 속성값 세는 두 가지 방법파이썬 배우기 2023. 11. 22. 14:47
하나의 열에서 고윳값에 대해 속성의 갯수를 파악하는 것은 데이터 분석에서 가장 기초가 되는 작업입니다. 어떤 값들을 가지고 있는지와, 몇 개씩 존재하는지 파악함으로써 데이터의 속성과 분포를 살펴볼 수 있기 때문입니다. pandas 에서 어떻게 속성값을 세는지 두 가지 방법을 알려드리려합니다. 1. 데이터프레임의 내장함수인 value_counts() 2. collections 모듈의 Counter 클래스 우선 grade가 A, B, C, null 로 이루어진 16개의 길이의 데이터프레임을 만들겠습니다. grade = list('ABCAABCBABCABBC ') df_score = pd.DataFrame({'grade':grade}) # value_counts()의 dropna 파라미터를 설명드리기 위해 널..
-
[파이썬] matplotlib 맥 윈도우 한글 깨짐 인코딩 처리하기파이썬 배우기 2023. 11. 21. 15:36
맥 from matplotlib import font_manager, rc rc('font', family='AppleGothic') plt.rcParams['axes.unicode_minus'] = False 윈도우 from matplotlib import font_manager, rc font_name = font_manager.FontProperties(fname="c:/Windows/Fonts/malgun.ttf").get_name() #print(font_name) rc('font', family=font_name)