java html 다운로드

특성값은 다운로드한 파일의 이름이 됩니다. 허용된 값에는 제한이 없으며 브라우저는 자동으로 올바른 파일 확장프로그램을 감지하여 파일에 추가합니다(.img, .pdf, .txt, .html 등). 다운로드한 파일의 새 파일 이름("myw3schoolsimage.jpg"대신 "w3logo.jpg")이 될 다운로드 특성에 대한 값을 지정합니다. 이 문서에서는 URL, JSoup, HtmlCleaner, 아파치 HttpClient, 제티 HttpClient 및 HtmlUnit을 포함한 다양한 도구를 사용하여 Java의 웹 페이지를 스크랩했습니다. 다음 예제에서는 webcode.me 작은 웹 페이지에서 HTML 소스를 다운로드합니다. 이 예제에서는 htmlcleaner Maven 종속성을 사용합니다. Java에서 웹 페이지를 읽는 것은 Java에서 웹 페이지를 읽는 여러 가지 방법을 제시하는 자습서입니다. 그것은 작은 웹 페이지에서 HTTP 소스를 다운로드의 여섯 예가 포함되어 있습니다. 다음은 현재 위치에서 지정된 URL 페이지를 다운로드하는 전체 프로그램입니다. jsoup은 실제 HTML로 작업할 수 있는 Java 라이브러리입니다. DOM, CSS 및 jquery와 유사한 메서드를 사용하여 데이터를 추출하고 조작하는 데 매우 편리한 API를 제공합니다. Java에는 웹 페이지를 읽고 다운로드할 수 있는 기본 제공 도구와 타사 라이브러리가 있습니다.

예제에서는 URL, JSoup, HtmlCleaner, 아파치 HttpClient, 부두 HttpClient 및 HtmlUnit을 사용합니다. 다음 의 작은 Java 프로그램은 openStream()을 사용하여 URL http://www.oracle.com/ 입력 스트림을 가져옵니다. 그런 다음 입력 스트림에서 BufferedReader를 열고 버퍼리더에서 읽혀URL에서 읽습니다. 읽기 모든 표준 출력 스트림에 복사: HtmlCleaner는 자바로 작성 된 오픈 소스 HTML 파서. 우리는 자바에서 URL을 사용하여 웹 페이지를 다운로드 할 수 있습니다. 다음은 필요한 단계입니다. HtmlUnit은 웹 기반 응용 프로그램을 테스트하기 위한 Java 단위 테스트 프레임워크입니다. 코드 예제에서는 JSoup을 사용하여 작은 웹 페이지를 다운로드하고 인쇄합니다. 이 예제에서는 HtmlCleaner를 사용하여 웹 페이지를 다운로드합니다. 다운로드 특성은 사용자가 하이퍼링크를 클릭할 때 대상이 다운로드되도록 지정합니다.

connect() 메서드는 지정된 웹 페이지에 연결됩니다. get() 메서드는 GET 요청을 발행합니다. 마지막으로 html() 메서드는 HTML 소스를 검색합니다. 문제가 발견되면 중복 을 확인한 후 버그를 제출하십시오. HTML 데이터는 readLine() 메서드와 일렬로 읽습니다. 소스가 StringBuilder에 추가됩니다. . 우리는 아파치 HTTP 클라이언트에 대한이 메이븐 종속성을 사용합니다. GET 메서드가 실행되고 HttpResponse가 수신됩니다.

이 예제에서는 Jetty HTTP 클라이언트가 있는 웹 페이지의 HTML 소스를 가져옵니다. 프로그램을 실행하면 명령 창에서 스크롤하여 http://www.oracle.com/ 있는 HTML 파일의 HTML 명령 및 텍스트 내용을 볼 수 있습니다. 또는 프로그램이 중단되거나 예외 스택 추적이 표시될 수 있습니다.