Python/Pandas 3

[pandas] 데이터 전처리

[pandas] 데이터프레임 (DataFrame)과 [pandas] pivot_table, groupby로 이어지는 내용입니다. 특히 '[pandas] 데이터프레임 (DataFrame)' 을 꼭 숙지하시기 바랍니다 사용 데이터 : http://bit.ly/ds-korean-idol Null 값 처리 Null값은 데이터를 처리할 때 반드시 처리해야(수정, 제거...) 하는 값입니다. 심지어 Null의 개념을 만들어낸 당사지도 '몇십 억짜리 실수'라고 할 정도입니다. Null값 확인 .isna()와 .isnull() 매서드를 활용해 Null값의 여부를 확인할 수 있습니다. df.isna() df.isnull() 위처럼 Null값인 데이터를 True로 색인시킵니다. 만일 Null값이 몇 개인지 확인하려면 .i..

Python/Pandas 2023.03.20

[pandas] pivot_table, groupby

[pandas] 데이터 프레임 (DataFrame)과 이어집니다 사용 데이터 : http://bit.ly/ds-korean-idol 데이터 복사 DataFrame 을 복사하려면 new = df.copy( )로 복사 해야 한다. 만일 new = df 형식으로 복사하게 된다면 메모리 주소를 둘이 같이 참조하게 되기 때문에 하나라도 데이터 값이 달라지면 나머지 DataFrame도 데이터 값이 달라진다. new_df = df hex(id(new_df)) # 새 데이터 hex(id(df)) # 기존 데이터 그렇다면 .copy( )를 사용해보자 new_df = df.copy() print(hex(id(new_df))) print(hex(id(df))) 피벗 테이블 (pivot_table) 피벗 테이블은 엑셀의피벗테..

Python/Pandas 2023.03.19

[pandas] 데이터프레임 (DataFrame)

사용 데이터 : http://bit.ly/ds-korean-idol pandas는 데이터 분석을 위한 패키지이다. 개발, 엑셀로 할 수 있는 모든 것들 처리 가능, DB, 엑셀 파일, 데이터베이스 핸들링 가능 import pandas as pd Series 1차원, 1개의 column은 Series라 한다 a = [1, 2, 3, 4] pd.Series(a) # S 대문자 DataFrame 2차원으로 이루어진 데이터 배열을 의미한다. Series가 여러 개 모이면 DataFrame df1 = pd.DataFrame([['삼성', 2000, '스마트폰'], ['현대', 1000, '자동차'], ['네이버', 500, '포털']]) dict로 생성할 때 df_dict = {'기업명': ['삼성', '현대',..

Python/Pandas 2023.03.13