반응형
오늘은 붓꽃 데이터를 가지고 붓꽃 품종을 예측해보는 머신러닝을 해보도록 하겠습니다
https://github.com/pydata/pandas/blob/master/pandas/tests/data/iris.csv
이 사이트에서 얻은 붓꽃 데이터를 가지고 가공 및 머신러닝을 돌리도록 하겠습니다
Iris-setosa를 0으로 Iris-versicolor를 1로 Iris-virginica를 2로 치환한후에 데이터 가공을 하도록 하겠습니다
Pandas 라이브러리를 이용하여 csv로 저장된 iris.csv를 읽어와서 출력해보는 코드입니다
Pandas 라이브러리로 전처리한 데이터들을 이용하여 품종을 머신러닝으로 예측해보는 코드입니다
0이 나온걸 봐선 5.1, 3.0, 1.3, 0.2 데이터는 Iris-setosa품종일 가능성이 높습니다
하지만 이렇게 머신러닝으로 돌린 코드의 결과가 맞는것인지 신뢰성을 위해
보통 150개의 데이터가 있으면 100개로는 학습을 50개로는 테스트를 돌립니다
train_test_split을 이용하여 튜플로 분리된 테스트를 위한 data와 학습을 위한 data를 사용하여 신뢰도 측정을 해보도록 하겠습니다
신뢰도는 100%로 나왔습니다
느낀점
머신러닝 학습자체가 어떻게 하는지 이번에 대략적으로 알게 되었습니다
그리고 학습을 위한 코드를 짜는것도 중요하지만
그 코드가 신뢰성이 높은지 테스트를 하는것도 중요한 것을 알게 되었습니다
'Language > Python' 카테고리의 다른 글
[MACHINELEARNING]TIL12 4.4절 언어 구분 학습[1] (0) | 2019.01.01 |
---|---|
[MACHINELEARNING]TIL11 scikit learn fit() 메서드의 매개 변수 (0) | 2019.01.01 |
[MACHINELEARNING]TIL9 scikit learn 기본 구성 (0) | 2018.12.12 |
[MACHINELEARNING]TIL8 CSV와 EXCEL 데이터 수집하기 (0) | 2018.12.06 |
[MACHINELEARNING]TIL7 XML과 JSON 형식 데이터 수집하기 (0) | 2018.12.05 |