[부제#1] 파이썬 크롤링
[부제#2] 네이버 뉴스 크롤링
2020/11/04 - [프로젝트/인공지능 기자 만들기] - [인공지능 기자 만들기#1] 설계하기 - Action Item 정의하기
2020/11/13 - [프로젝트/인공지능 기자 만들기] - [인공지능 기자 만들기#2] 설계하기 - 프로세스 정의하기
2020/11/18 - [프로젝트/인공지능 기자 만들기] - [인공지능 기자 만들기 #3] 뉴스기사 크롤링 만들기 - 네이버 헤드라인 뉴스 크롤링
네이버 뉴스 헤드라인 크롤링에 이어서 기사 세부내용을 크롤링하는 프로그램을 만들었다.
네이버 헤드라인의 상세 페이지를 크롤링해서 기사 세부 정보를 저장한다.
최종 <기사 url>, <언론사>,<기사 제목>,<작성시간>,<본문>,<헤드라인 url> 을 csv 형태로 저장한다.
아래가 네이버 헤드라인의 상세 페이지이다.
"이웃사촌 오달수 영화 현장 그리웠다" 라는 주제로 묶인 기사들이 아래에 나열되어 있다 (총 27개)
기사 크롤러는 27개의 기사들의 상세 페이지를 방문하면서 각 기사의 세부정보를 저장한다.
역시나 이전글 처럼 파이썬을 사용해서 개발했고. 코드가 길지 않아서 주석으로 설명을 대신한다.
핵심이 되는 코드는 naver_headline_article_crawling() 이다. driver와 url만 적절하게 입력하면 사용할 수 있다.
(자세한 내용은 함수 헤더 밑에 있는 doc string 참고)
참고로, 'headline_news_20201119_1143.csv' 파일은 지난글의 결과 파일이다.
기사 저작권 관련 문제가 될수 있다고 하여 코드는 삭제합니다.
아래는 크롤링된 결과 파일이다.
이제 크롤러는 모두 완성되었다. (헤드라인 크롤링 -> 헤드라인 상세페이지 및 기사 크롤링)
인공지능 기자를 위한 학습 데이터를 수집하는 단계는 모두 끝마친 것이다.
다음에는 기사내용을 분석하는 단계다.
본격적인 자연어 처리 단계로 고고
'프로젝트 > 인공지능 기자 만들기' 카테고리의 다른 글
[인공지능 기자 만들기#7] 기사 자연어 분석기 만들기 - 유사도 분석, 기사생성 (10) | 2020.11.30 |
---|---|
[인공지능 기자 만들기#6] 기사 자연어 분석기 만들기 - 형태소 분석, 의미분석 (0) | 2020.11.24 |
[인공지능 기자 만들기#5] 기사 자연어 분석기 만들기 - 데이터 전처리 (2) | 2020.11.23 |
[인공지능 기자 만들기 #3] 뉴스기사 크롤링 만들기 - 네이버 헤드라인 뉴스 크롤링 (0) | 2020.11.18 |
[인공지능 기자 만들기#2] 설계하기 - 프로세스 정의하기 (0) | 2020.11.13 |