프로젝트/인공지능 기자 만들기

[인공지능 기자 만들기#5] 기사 자연어 분석기 만들기 - 데이터 전처리

엘티엘 2020. 11. 23. 19:00

 

articles_20201119_0000_prep.csv
1.01MB
articles_20201119_0000.csv
0.57MB

2020/11/04 - [프로젝트/인공지능 기자 만들기] - [인공지능 기자 만들기#1] 설계하기 - Action Item 정의하기

2020/11/13 - [프로젝트/인공지능 기자 만들기] - [인공지능 기자 만들기#2] 설계하기 - 프로세스 정의하기

2020/11/18 - [프로젝트/인공지능 기자 만들기] - [인공지능 기자 만들기 #3] 뉴스기사 크롤링 만들기 - 네이버 헤드라인 뉴스 크롤링

2020/11/19 - [프로젝트/인공지능 기자 만들기] - [인공지능 기자 만들기 #4] 뉴스기사 크롤링 만들기 - 뉴스기사 크롤러 (네이버 뉴스 크롤링)

 

뉴스 데이터를 전처리 하는 프로그램을 만들었다

이전 단계에서 수집한 뉴스기사 데이터에서 불필요한 부분을 삭제하는 과정이다.

 

아래 그림중 왼쪽이 원본이고, 오른쪽이 전처리를 끝마친 데이터이다. 

처리된 내용은 크게 아래 2가지 이다. (불필요한 문장 및 문구 삭제)

  • "이미지 원본 보기", "[영상] 케인 결승골.." 와 같이 기사와 관계없는 불필요한 문장들이 삭제
  • "캡틴 진행을 맡은 장예원 .." 과 같은 그림 설명문장도 삭제
  • "[스포티비뉴스=장진리 기자]" 같은 불필요한 문구 삭제

 

 

크롤링한 뉴스 데이터 전처리 전후

 

 

데이터 전처리 로직은 수집된 데이터를 한땀한땀 보면서 추가하였다 (역시 전처리 작업은 어려워.. ㅠㅠ)

(input / output 파일도 첨부합니다. 저는 mac에서 처리한 데이터라.. encoding이 안 맞을수 있는점 참고해 주세요)

기사 저작권 관련 문제가 될수 있다고 하여 코드는 삭제합니다.

반응형