미국 고속도로 교통안전국 [National Highway Traffic Safety Administration, NHTSA] 데이터를 살펴보겠습니다. 

여러 데이터 중, Investigations란 항목의 데이터 입니다. 우선 소비자 불만 사항 및 결함과 관련한 정보를 사전검토한 후 NHTSA에서 제조업체로부터 정보를 얻고 추가 분석을 하는게 맞는지 결정한다고 합니다. 맞다면, 이제 결함 부분에 대한 범위나 특징 등에 대해 자세히 분석을 한다고 하네요. 소비자 불만 전체가 아니라 NHTSA에서 결정한 불만인것을 감안해주시면 되겠습니다. 

 

어떤 정보가 있는지 보겠습니다. 

자동차 회사 이름, 자동차 MAKE, 모델, 모델 연도 등이 있는데요. 데이터를 같이 보겠습니다. 

자세한 내용은 유튜브 영상 참고 부탁드립니다. 

https://youtu.be/ZOpvZUN9Dyo

텍스트파일로 되어있어서 이걸 데이터프레임으로 바꿔야하는데요, 자세한 내용은 유튜브 영상 참고 부탁드립니다. 

데이터프레임으로 바꿨는데요, 162,372 데이터가 있고요. MAKE의 유일 개수는 636개가 있습니다. 아무래도 자동차 뿐 아니라 오토바이, 캠핑카 등 다양하게 있더라고요. 

 

다양한 주제로 데이터를 추려볼 수 있겠는데요. 예로, 모델 연도 2021년 중에서 어떤 주제로 결함이 있었는지, 그 차 종은 무엇인지 추려내서 그 갯수를 COUNTS라고 설정해보았습니다. 2021년 테슬라는 총 34개의 Unexpected Brake Activation 예상치 못한 브레이크 작동, 이라고 보면 될까요? 이에 대한 결함이 제일 많이 보고되었습니다. 

 

에어백에 대해서는 Chevrolet, Cadillac, GMC 차 종에서 나타났네요. 현대차도 있었는데 안전벨트에 관한 이슈였습니다. 

 

파이썬에서 범주형 데이터를 다룰 때 가장 흔히 사용되는 함수가 바로 .value_counts() 인데요. 각 해당하는 항목별로 개수를 셀 수 있습니다. 차량 결함에 대해 궁금하신 분들은 데이터를 보셔도 좋을 것 같아 이렇게 소개합니다. 

출처 www.nhtsa.gov/nhtsa-datasets-and-apis 

반응형

+ Recent posts