반응형


오늘은  CSV와  EXCEL 데이터 수집하기를 해보도록 하겠습니다


CSV란 콤마로 구분된 데이터를 뜻합니다


CSV(comma-seperated-values) > TSV , SSV

1. 한 줄에 데이터 하나, 한 줄에는 쉼표로 속성 구분

2. 첫 번째 줄은 헤더로 사용 가능

1000, 비누, 300 # 1번 데이터

1001, 장갑, 150 # 2번 데이터

1002, 마스크, 230  # 3번 데이터

CSV가 용량이 가장 좋습니다 (XML, JSON에 비하여)

CSV가 표현력이 제일 좋지 않습니다 (XML, JSON에 비하여)

 

밑에 데이터를 긁어다가 데이터 가공을 해보도록 하겠습니다



개행을 split로 다 분리해주고 또 ,로 분리해주니 밑에처럼 리스트 형식으로 잘 나옴을 알 수 있습니다



엑셀에서 CSV형식으로 데이터를 저장하여 수집해보도록 하겠습니다




 csv 모듈과 codecs모듈을 써서 파일 입출력을 통해 delimiter로 파싱을 하였습니다



이제 EXCEL 데이터 수집을 하도록 하겠습니다


웹사이트에서 엑셀로 데이터를 다운 받아 openxpyxl 모듈을 통해 읽습니다



table 형식의 데이터는 중복된 포문을 통해 데이터를 이쁘게 가공 할 수 있습니다.




느낀점


csv와 tsv의 차이를 알게 되었으며 xml과 json과 csv의 장점 및 특징을 알게 되었습니다


또한 pandas가 아닌 다른 모듈로도 엑셀파일과 csv가 잘 수집되는 것을 알 수 있었습니다.

  • 네이버 블러그 공유하기
  • 네이버 밴드에 공유하기
  • 페이스북 공유하기
  • 카카오스토리 공유하기