it-swarm-ko.tech

Feeds XPath Parser를 사용하여 큰 웹 사이트 가져 오기

Feeds 및 관련 도구를 사용하여 수천 개의 게시물이있는 웹 사이트의 콘텐츠를 가져 오려고합니다.
모든 링크가 포함 된 페이지에 액세스하여 콘텐츠를 가져옵니다.

<h2>http://premiumtemplate.org/kaboodle-premium-business-wordpress-theme.html</h2>를 URL로.

아래는 내가 사용하는 기능입니다.

컨텍스트 : /
URL : //h:h2
제목 : //h:title
몸: //*[@class="entry"]

어떻게되는지 모르겠습니다. 가져 오는 것이 없으며 "새 컨텐츠가 없습니다"라는 메시지가 나타납니다.

6
ngamin

피드는 매우 강력한 모듈이며 기본 RSS 수집기 그 이상입니다. 많은 사람들이 피드를 마이그레이션 도구로 활용하기 시작했으며 Feeds XPath Parser는 정적 HTML 문서를 가져 오는 일반적인 방법으로 부상하고 있습니다. 이 페이지를 가져 오기 위해 빠른 파서를 설정 했으므로 예제가 당신이하려는 일을 도울 것입니다.

먼저 Feeds XPath Parser를 사용할 때 디버깅 옵션을 활성화하는 것이 중요합니다. 다양한 검색어와 일치하는 텍스트가 표시됩니다.

debug options

둘째, 아래 이미지는이 페이지를 가져 오는 데 사용한 컨텍스트 및 XPath 쿼리를 보여줍니다. 결과적으로 "question-page"클래스를 포함하는 요소 아래의 컨텐츠와 함께 HTML 제목 태그를 가져옵니다.

settings

헤더 요소를 가져 오려면 XPath 쿼리에서 "h1", "h2"등을 명시 적으로 사용해야한다고 생각하지만 확실하지 않습니다. 이 방법의 단점은 가져 오는 모든 페이지에 대해 소스 노드가 있거나 프로그래밍 방식으로 또는 Selenium, JMeter, Firefox와 같은 일부 자동화 된 도구를 통해 가져 오기 양식을 일괄 제출하는 방법을 찾아야한다는 것입니다 매크로 등.

6
Chris Pliakas

귀하가 제공 한 제한된 정보로 좋은 답변을하기는 어렵습니다.

일반적으로 피드는 독립형 페이지가 아닌 피드 (RSS)에서 가져 오는 데 사용됩니다. 대부분의 경우 일반 HTML 페이지가 아닌 피드를 찾을 수있는 방식으로 피드를 설정했을 것입니다.

0
googletorp