사이킷런 2

[머신러닝] 전처리 (pre-processing)

전처리는 데이터 분석에 적합하게 데이터를 가공, 변형, 처리, 클리닝하는 과정입니다. 데이터가 깔끔하지 않으면 그만큼 이를 처리하는 모델의 성능이 좋지 못한 경우가 많습니다. 그렇기에 머신러닝 학습 전에 전처리를 해야 합니다. 실제로 분석가의 80% 시간을 데이터 수집 및 전처리에 사용하고 있습니다. [pandas] 데이터 전처리 를 학습하고 오시기 바랍니다. 사용 데이터 (타이타닉) 결측치 NULL 데이터에서 .isnull( ) 또는 .isna( ) 함수를 사용해 쉽게 결측값을 찾을 수 있습니다. 만일 결측값의 갯수를 구하려면 .isna( ).sum( ) 을 사용하면 됩니다. 또한 dataFrame['칼럼명'].isnull( ) 을 하게 되면 해당 칼럼 값들만 찾을 수 있습니다. 이렇게 찾은 결측값은 ..

[머신러닝] K - 최근접 이웃 분류(K-NN Clssification)

K-최근접 이웃(K-Nearest Neighbor)은 머신러닝에서 사용되는 분류(Classification) 알고리즘입니다. 새로운 입력(분류되지 않은 검증 데이터)을 받았을 때 기존 클러스터(군집화)에서 모든 데이터와 인스턴스 기반 거리를 측정한 후 가장 많은 속성을 가진 클러스터에 할당합니다. 실습 - 도미, 빙어 분류 도미와 빙어의 길이(length) 및 무게(weight)를 학습하여 새로운 입력값(length, weight)이 들어왔을 때 도미인지, 빙어인지 분류하는 모델을 만들어보겠습니다. 데이터 생성 # 도미 bream_length = [25.4, 26.3, 26.5, 29.0, 29.0, 29.7, 29.7, 30.0, 30.0, 30.7, 31.0, 31.0, 31.5, 32.0, 32.0..