Java - 크롤링, crawling

IT/Java

Java - 크롤링, crawling

노마드오브 2018. 11. 24. 21:27

import java.io.BufferedReader;

import java.io.InputStreamReader;

import java.net.MalformedURLException;

import java.net.URL;

import javax.net.ssl.HttpsURLConnection;

public class CrawApp {

public static void crawling() {

String url = "https://웹페이지주소";

try {

URL obj = new URL(url);

HttpsURLConnection con = (HttpsURLConnection) obj.openConnection();

//연결이 완료되었음.

//1byte받음

BufferedReader in = new BufferedReader(new InputStreamReader(con.getInputStream(), "EUC-KR")) ;

String input;

StringBuilder sb = new StringBuilder();

while ((input = in.readLine()) != null) {

sb.append(input);

}

in.close();

System.out.println(sb.toString());

} catch (Exception e) {

e.printStackTrace();

}

public static void main(String[] args) {

crawling();

}

크롤링 - 크롬에서 아래 명령어로 파싱 가능

document.querySelector('#articleTitle');

<h3 id=?"articleTitle" class=?"tts_head">?굴착기 이용 GP철거 오늘 시작…김용우 육군총장 현장방문?</h3>?

var article = document.querySelector('#articleTitle');

article.textContent

"굴착기 이용 GP철거 오늘 시작…김용우 육군총장 현장방문"

var txt = document.querySelectorAll('.lo_txt');

txt[0].textContent

"273"

'IT > Java' 카테고리의 다른 글

java - JFrame 메모장 프로그램 (0)	2018.11.25
java - JFrame 예제 (list에 입력, 출력, 파일출력, 이벤트 처리) (0)	2018.11.25
Java - 싱글톤 (0)	2018.11.24
Java - 오버로딩, 오버라이딩, 인터페이스 (0)	2018.11.24
응용SW기초기술활용(윈도우 명령 프롬프트(DOS)용 명령어, 리눅스(유닉스) 콘솔 명령어) (0)	2018.11.23

현재글Java - 크롤링, crawling

노마드오브

Today :
Yesterday :

일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

노마드오브