1 minute read

Project Process 별 자료 (총 4편)

따릉이 이용 데이터를 이용한 연관 키워드 분석 결과_요약

따릉이 이용 데이터를 이용한 연관 키워드 분석 (1)_Data 전처리 및 지도 시각화 편

따릉이 이용 데이터를 이용한 연관 키워드 분석 (2)_이용자 후기 크롤링 편

따릉이 이용 데이터를 이용한 연관 키워드 분석 (3)_키워드 정리 및 시각화

Project 시작 계기

  • 교육 진행 간 배운 내용의 수업시간 내 팀프로젝트로 진행(멋쟁이 사자처럼 AI School 3기)
  • 프로젝트 진행 기간 : 2021-06-17 ~ 2021-06-23
  • 서울시 공공 데이터 검색 결과 해당 데이터의 완성도가 높은 것으로 확인
  • 따릉이 이용객 후기를 통해 따릉이 이용 목적과 대여횟수가 높은 따릉이 대여소의 지리적 특징이 유사한지 비교 진행

이용 데이터

  • 서울시 열린 데이터 광장
    • 서울특별시 공공자전거 대여이력 정보 (http://data.seoul.go.kr/dataList/OA-15182/F/1/datasetView.do)
    • 서울특별시 공공자전거 대여소 정보 (http://data.seoul.go.kr/dataList/OA-13252/F/1/datasetView.do)
  • 따릉이 관련 크롤링 진행
    • 네이버 해시태그 및 뉴스
    • 구글 검색
    • 유튜브 제목
    • 브런치 제목 및 해시태그

사용 라이브러리

  • pandas : 데이터 불러오기 및 내보내기, 데이터 프레임 자료 전처리에 사용
  • matplotlib : 그래프 시각화
  • folium, json : 지도 시각화에 사용
  • beautifulSoup : 크롤링 후 text 추출에 사용
  • selenium : 크롤링 및 자동 페이지 다운, 크롤링 진행 시 시간 조절에 사용
  • collections : 리스트 내 동일 단어 수량 파악 후 딕셔너리로 출력
  • konlpy : 단어 별 품사 태깅
  • Wordcloud : 그림 형태 내 상위 검색어 글자 사이즈 별로 표시

분석 프로세스

  • 공공 데이터 전처리
    • 결측치 설정 및 중복 data 제거
    • data 간 merge 진행
    • 대여소 별 대여 및 반납 횟수 count
  • 상위 50개 대여소 위치 시각화 진행
    • 어느 지역에 밀집이 많이 되어 있는지 확인
  • 가설 설정
    • 상위 50개 대여소 특징과 따릉이 이용 후기 정보를 이용하여 연관성 추정
  • 따릉이 관련 크롤링 진행
    • 따릉이에 대한 이용 후기 등 각종 정보에 대해 크롤링 진행
  • 크롤링 결과물 토큰화 및 단어 그룹화 진행
    • 유사 단어(ex. 한강 / 한강공원)에 대한 정보를 수합 후 그룹화 진행
  • 상위 50개 검색 키워드 및 단어 그룹화 결과 시각화 진행

분석 결과

  • 상위 50개 대여소는 대부분 한강지역에 밀집되어 있었음.
  • 나들이, 이용방법, 한강, 출퇴근, 운동 순으로 이용 후기에 대한 정보를 찾을 수 있었음.
  • 위 2가지 정보를 종합하였을 때 나들이 하기 용이한 한강 근처 따릉이 대여소에서 대여 횟수가 높은 것을 확인할 수 있었음.

한계

  • 자료의 크기 문제로 기간 산정에 제약이 있었음(여름~가을)
  • 크롤링 진행 시, 일정 data 넘어가면 block이 되는 경우가 있었음
  • 강의 참가 후 첫 프로젝트의 관계로 분석 방법에 대한 지식이 부족하였음
  • 코딩에 대한 지식 또한 부족하여 단순한 작업임에도 불구하고 많은 시간이 소요됨