it-swarm-ko.tech

명령 줄 친화적 인 전체 텍스트 인덱싱?

명령 줄에서 쿼리 할 수 ​​있고 이상적으로는 GUI를 전혀 사용할 필요가없는 전체 텍스트 인덱싱 엔진과 같은 것이 있습니까?

나는 특히 내 전자 책과 논문을 색인화하는 데 관심이 있으므로 pdf, epub 및 몇 가지 djvu가 혼합되어 있습니다. (Open) Office 문서는 멋지지만 내 목록에서 훨씬 낮습니다.

38
julien

루신이나 스핑크스를 보셨나요? 인덱싱하려는 문서를 처음에 구문 분석해야하지만 완료되면 둘 중 하나가 cli에서 검색 할 수 있습니다.

Lucene의 경우이 작업에 대한 몇 가지 정보가 있습니다 . 사용 가능 .

Sphinx는 조금 더 모호하지만 문서 사용 가능 도 있습니다. xmlpipe2 데이터 소스를 통해 원하는 구조화 된 XML 데이터를 스핑크스에 전달할 수 있습니다.

Lucene은 Java에 의존하는 반면 Sphinx는 외부 종속성없이 C++로 빌드됩니다.

어느 쪽이든 원하는 것을 수행하려면 약간의 작업이 필요하지만 완전히 실행 가능한 솔루션처럼 보입니다.

11
gabe.

xapian 을 확인하십시오. 그것은 명령 줄 인터페이스를 가지고 있으며 많은 형식을 색인 할 수 있습니다.

5
Michał Šrajer

이 답변 Google의 코드 검색 사용을 권장합니다.

코드 검색은 인덱싱 한 다음 큰 소스 코드 본문에 대해 정규식 검색을 수행하는 도구입니다.

Debian/derivatives의 수퍼 유저는 다음을 시도 할 수 있습니다. Sudo apt-get install codesearch

4
joeytwiddle

Recoll GUI없이 빌드 할 수 있으며 명령 줄에서 문서 유형을 검색합니다.

후드 아래에서 Xapian 을 사용합니다.

4
user2391635

Tracker는 명령 줄에서 호출 할 수 있으며 gtk +는 프로젝트에 대한 하드 종속성이 아닙니다 (그러나 패키지에 대한 것일 수 있음).

3
Maciej Piechotka

현재 Tracker에는 stable (0.8)과 unstable (0.9)의 두 가지 스트림이 있습니다. OS에 0.8 버전이있을 가능성이 높으므로 여유가 있다면 ( bleeding Edge 소프트웨어 종속성이 있음) 최신 tar 파일 (0.9.x)을 가져 오십시오. 많은 개선 사항 0.8 이상, 현재 안정화 중 0.10 (짝수는 안정성을 나타냄)이되기 위해 추가되었습니다. 이 경로로 이동하도록 선택한 경우이 명령을 사용하여 다음을 구성합니다.

./configure --disable-tracker-needle --disable-tracker-preferences --disable-tracker-Explorer --disable-tracker-status-icon

종속성을 설치하지 않을 가능성이 높으므로 배포판에서 0.8을 설치하고 GUI 비트는 피하는 것이 더 좋습니다. Debian Squeeze, Ubuntu 10.10 및 Ubuntu 11.04에서 이들은 잘 분리되어 있습니다. 따라서 ( 루트로 ) 실행 :

apt-get install --no-install-recommends tracker-utils tracker-miner-fs

이를위한 CLI 도구는 tracker-search이므로 --help 옵션과 함께 실행하여 활용 방법을 확인하십시오. :-)

참고 :

  • Fedora 14에서 Tracker 패키지는 GTK +에 종속됩니다. tracker-applet, tracker-preferences 등이 포함되어 있기 때문인 것 같습니다. 그러나 GUI 검색 인터페이스 인 tracker-search-tool에 대한 별도의 패키지가 있습니다.
  • DjVu 및 ePUB는 (아직) 지원되지 않습니다. 다음은 무엇인지 목록 입니다.
2
tshepang

나는 올 여름 Sqlite3를 사용하여 NetBSD의 맨 페이지를 색인화하고 검색하기위한 전체 텍스트 검색 도구 (새로운 방법)를 작성하는 작업을했습니다. 두 개의 명령 줄 도구로 구성됩니다.

  • makemandb : man 페이지 내용의 색인을 구문 분석하고 구축합니다.
  • apropos :이 인덱스를 쿼리하기위한 도구입니다.

유사한 도구를 쉽게 작성할 수 있습니다. pdf의 경우 pdf 문서를 구문 분석하기위한 라이브러리와 마찬가지로 Open Office 문서를 구문 분석하는 유틸리티가 필요합니다.

프로젝트에 대한 자세한 내용은 여기

코드는 여기

0
Abhinav Upadhyay