반응형
오늘은 scikit learn fit() 메서드의 매개 변수에 대해서 배워보도록 하겠습니다
오늘은 숫자 손글씨 데이터를 인식하는 것을 배워보도록 하겠습니다
아래코드는 숫자 손글씨 데이터를 다운받는 코드입니다
아래 코드는 바이너리 파일을 csv 파일로 변환하는 프로그램에서 매직넘버와 레이블 아이템의 수를 읽어들이는 코드입니다
mnist폴더를 가면 모든 파일이 잘 변환되어 있음을 알수 있습니다
train.csv를 열어보면 왼쪽 첫열이 답이고 나머지 row데이터를 인식하여 답을 예측한것입니다
3번째 첫 열이 4인 row를 첫 열을 제외한 한 row데이터를 보기좋게 시각화해보겠습니다
4라는 것이 보임을 알 수 있습니다
이제 이 데이터들을 가지고 정답률을 구해보도록 하겠습니다
정답률이 이상하게 나온 이유는 fit는 0과 1사이의 벡터값만 넣어야하는데 지금 데이터들은 0부터 256까지 있어서
이상한 결과가 나온 것으로 예측되어 코드를 다시 짜보도록 하겠습니다
78퍼의 정답률이 나왔습니다
하지만 동영상 강의에서 78퍼라는 정답률은 높은 편은 아니라고 합니다
느낀점
학교 멀티미디어 정보처리 시간에 tenserflow를 이용해서 숫자이미지를 인식하는
코드를 짜보았던 기억이 났습니다
바이너리 데이터도 csv로 바꾸어서 처리해서 인식할 수 있다는 점을 알았고
바이너리 데이터를 변환하는 과정에서 예전에 네트워크 패킷 짤 때 배웠던
struct 모듈이 나와서 코드 분석이 용이했습니다
'Language > Python' 카테고리의 다른 글
[MACHINELEARNING]TIL13 4.4절 언어 구분 학습[2] (0) | 2019.01.01 |
---|---|
[MACHINELEARNING]TIL12 4.4절 언어 구분 학습[1] (0) | 2019.01.01 |
[MACHINELEARNING]TIL10 scikit learn 기본 흐름 (0) | 2018.12.31 |
[MACHINELEARNING]TIL9 scikit learn 기본 구성 (0) | 2018.12.12 |
[MACHINELEARNING]TIL8 CSV와 EXCEL 데이터 수집하기 (0) | 2018.12.06 |