[인공지능 기자 만들기 #4] 뉴스기사 크롤링 만들기 - 뉴스기사 크롤러 (네이버 뉴스 크롤링)

프로젝트/인공지능 기자 만들기

엘티엘 2020. 11. 19. 19:00

네이버 뉴스 헤드라인 크롤링에 이어서 기사 세부내용을 크롤링하는 프로그램을 만들었다.

네이버 헤드라인의 상세 페이지를 크롤링해서 기사 세부 정보를 저장한다.

최종 <기사 url>, <언론사>,<기사 제목>,<작성시간>,<본문>,<헤드라인 url> 을 csv 형태로 저장한다.

아래가 네이버 헤드라인의 상세 페이지이다.

"이웃사촌 오달수 영화 현장 그리웠다" 라는 주제로 묶인 기사들이 아래에 나열되어 있다 (총 27개)

기사 크롤러는 27개의 기사들의 상세 페이지를 방문하면서 각 기사의 세부정보를 저장한다.

역시나 이전글 처럼 파이썬을 사용해서 개발했고. 코드가 길지 않아서 주석으로 설명을 대신한다.

핵심이 되는 코드는 naver_headline_article_crawling() 이다. driver와 url만 적절하게 입력하면 사용할 수 있다.

(자세한 내용은 함수 헤더 밑에 있는 doc string 참고)

참고로, 'headline_news_20201119_1143.csv' 파일은 지난글의 결과 파일이다.

기사 저작권 관련 문제가 될수 있다고 하여 코드는 삭제합니다.

아래는 크롤링된 결과 파일이다.

이제 크롤러는 모두 완성되었다. (헤드라인 크롤링 -> 헤드라인 상세페이지 및 기사 크롤링)

인공지능 기자를 위한 학습 데이터를 수집하는 단계는 모두 끝마친 것이다.

다음에는 기사내용을 분석하는 단계다.

본격적인 자연어 처리 단계로 고고

[인공지능 기자 만들기#7] 기사 자연어 분석기 만들기 - 유사도 분석, 기사생성 (10)	2020.11.30
[인공지능 기자 만들기#6] 기사 자연어 분석기 만들기 - 형태소 분석, 의미분석 (0)	2020.11.24
[인공지능 기자 만들기#5] 기사 자연어 분석기 만들기 - 데이터 전처리 (2)	2020.11.23
[인공지능 기자 만들기 #3] 뉴스기사 크롤링 만들기 - 네이버 헤드라인 뉴스 크롤링 (0)	2020.11.18
[인공지능 기자 만들기#2] 설계하기 - 프로세스 정의하기 (0)	2020.11.13

개발자 엘티엘의 지식 보관소