프로젝트/인공지능 기자 만들기

[인공지능 기자 만들기 #4] 뉴스기사 크롤링 만들기 - 뉴스기사 크롤러 (네이버 뉴스 크롤링)

엘티엘 2020. 11. 19. 19:00

[부제#1] 파이썬 크롤링

[부제#2] 네이버 뉴스 크롤링

2020/11/04 - [프로젝트/인공지능 기자 만들기] - [인공지능 기자 만들기#1] 설계하기 - Action Item 정의하기

2020/11/13 - [프로젝트/인공지능 기자 만들기] - [인공지능 기자 만들기#2] 설계하기 - 프로세스 정의하기

2020/11/18 - [프로젝트/인공지능 기자 만들기] - [인공지능 기자 만들기 #3] 뉴스기사 크롤링 만들기 - 네이버 헤드라인 뉴스 크롤링

 

네이버 뉴스 헤드라인 크롤링에 이어서 기사 세부내용을 크롤링하는 프로그램을 만들었다.

네이버 헤드라인의 상세 페이지를 크롤링해서 기사 세부 정보를 저장한다.

최종 <기사 url>, <언론사>,<기사 제목>,<작성시간>,<본문>,<헤드라인 url> 을 csv 형태로 저장한다.

 

아래가 네이버 헤드라인의 상세 페이지이다.

"이웃사촌 오달수 영화 현장 그리웠다" 라는 주제로 묶인 기사들이 아래에 나열되어 있다 (총 27개)

기사 크롤러는 27개의 기사들의 상세 페이지를 방문하면서 각 기사의 세부정보를 저장한다.

네이버 헤드라인 뉴스 상세 페이지 - 크게 의미는 없지만.. 왠지 가리는게 좋을것 같아서 가렸습니다 ㅎㅎ

 

역시나 이전글 처럼 파이썬을 사용해서 개발했고. 코드가 길지 않아서 주석으로 설명을 대신한다.

핵심이 되는 코드는 naver_headline_article_crawling() 이다. driver와 url만 적절하게 입력하면 사용할 수 있다.

(자세한 내용은 함수 헤더 밑에 있는 doc string 참고)

참고로, 'headline_news_20201119_1143.csv' 파일은 지난글의 결과 파일이다.

기사 저작권 관련 문제가 될수 있다고 하여 코드는 삭제합니다.

 

아래는 크롤링된 결과 파일이다.

 

 

이제 크롤러는 모두 완성되었다. (헤드라인 크롤링 -> 헤드라인 상세페이지 및 기사 크롤링)

인공지능 기자를 위한 학습 데이터를 수집하는 단계는 모두 끝마친 것이다.

 

다음에는 기사내용을 분석하는 단계다.

본격적인 자연어 처리 단계로 고고

반응형