따릉이 이용 데이터를 이용한 연관 키워드 분석 결과_요약
Project Process 별 자료 (총 4편)
따릉이 이용 데이터를 이용한 연관 키워드 분석 결과_요약
따릉이 이용 데이터를 이용한 연관 키워드 분석 (1)_Data 전처리 및 지도 시각화 편
따릉이 이용 데이터를 이용한 연관 키워드 분석 (2)_이용자 후기 크롤링 편
따릉이 이용 데이터를 이용한 연관 키워드 분석 (3)_키워드 정리 및 시각화
Project 시작 계기
- 교육 진행 간 배운 내용의 수업시간 내 팀프로젝트로 진행(멋쟁이 사자처럼 AI School 3기)
- 프로젝트 진행 기간 : 2021-06-17 ~ 2021-06-23
- 서울시 공공 데이터 검색 결과 해당 데이터의 완성도가 높은 것으로 확인
- 따릉이 이용객 후기를 통해 따릉이 이용 목적과 대여횟수가 높은 따릉이 대여소의 지리적 특징이 유사한지 비교 진행
이용 데이터
- 서울시 열린 데이터 광장
- 서울특별시 공공자전거 대여이력 정보 (http://data.seoul.go.kr/dataList/OA-15182/F/1/datasetView.do)
- 서울특별시 공공자전거 대여소 정보 (http://data.seoul.go.kr/dataList/OA-13252/F/1/datasetView.do)
- 따릉이 관련 크롤링 진행
- 네이버 해시태그 및 뉴스
- 구글 검색
- 유튜브 제목
- 브런치 제목 및 해시태그
사용 라이브러리
- pandas : 데이터 불러오기 및 내보내기, 데이터 프레임 자료 전처리에 사용
- matplotlib : 그래프 시각화
- folium, json : 지도 시각화에 사용
- beautifulSoup : 크롤링 후 text 추출에 사용
- selenium : 크롤링 및 자동 페이지 다운, 크롤링 진행 시 시간 조절에 사용
- collections : 리스트 내 동일 단어 수량 파악 후 딕셔너리로 출력
- konlpy : 단어 별 품사 태깅
- Wordcloud : 그림 형태 내 상위 검색어 글자 사이즈 별로 표시
분석 프로세스
- 공공 데이터 전처리
- 결측치 설정 및 중복 data 제거
- data 간 merge 진행
- 대여소 별 대여 및 반납 횟수 count
- 상위 50개 대여소 위치 시각화 진행
- 어느 지역에 밀집이 많이 되어 있는지 확인
- 가설 설정
- 상위 50개 대여소 특징과 따릉이 이용 후기 정보를 이용하여 연관성 추정
- 따릉이 관련 크롤링 진행
- 따릉이에 대한 이용 후기 등 각종 정보에 대해 크롤링 진행
- 크롤링 결과물 토큰화 및 단어 그룹화 진행
- 유사 단어(ex. 한강 / 한강공원)에 대한 정보를 수합 후 그룹화 진행
- 상위 50개 검색 키워드 및 단어 그룹화 결과 시각화 진행
분석 결과
- 상위 50개 대여소는 대부분 한강지역에 밀집되어 있었음.
- 나들이, 이용방법, 한강, 출퇴근, 운동 순으로 이용 후기에 대한 정보를 찾을 수 있었음.
- 위 2가지 정보를 종합하였을 때 나들이 하기 용이한 한강 근처 따릉이 대여소에서 대여 횟수가 높은 것을 확인할 수 있었음.
한계
- 자료의 크기 문제로 기간 산정에 제약이 있었음(여름~가을)
- 크롤링 진행 시, 일정 data 넘어가면 block이 되는 경우가 있었음
- 강의 참가 후 첫 프로젝트의 관계로 분석 방법에 대한 지식이 부족하였음
- 코딩에 대한 지식 또한 부족하여 단순한 작업임에도 불구하고 많은 시간이 소요됨