Cherlock Holmes

Z Varhoo
(Rozdíly mezi verzemi)
Přejít na: navigace, hledání
(Instalace)
(Nastavení)
Řádka 52: Řádka 52:
   
 
bin/shep --current --insert --urls http://www.varhoo.cz
 
bin/shep --current --insert --urls http://www.varhoo.cz
  +
  +
Spuštění parseru (bot), který prochází stránky
  +
  +
su holmes -c "bin/gcontrol start"
  +
  +
Co dělá můžeme sledovat příkazem:
  +
tail -f log/log/shepherd-*
  +
tail -f log/shepherd-*

Verze z 5. 1. 2012, 12:44

Jedná se o fulltextový engine, který umožňuje poměrně efektivní indexaci a vyhledávání. Byl využit u projektu morfeo (vyhledávač pro centrum)-

Mirror oficiálního zdroje je na http://www.varhoo.cz/holmes/

Instalace

Potřebné balíčky, Perl, Flex, Bison, Zlib, pkg-config, libjpg, libpng, libgif

Můžeme použít balíček nebo zkompilovat aktuální verzi.

./configure free
make

A pak lze použít příkaz pro instalovaní dané instance:

 make install INSTALL_DIR=<dir>

Ještě je vhodně vytvořit nového uživatele

useradd holmes
chown holmes:holmes <dir>

Základní struktura

 bin/		programs and utilities
 cache/	various cache files
 cf/		configuration files
 db/		database files of the gatherer
 index/	main index
 lib/		libraries used by the programs
 lock/		lock files, pid files and similar stuff
 log/		log files
 tmp/		temporary files

Nastavení

První spuštění:

Nejprve nastavíme pravidla pro filtrování řetězců v souboru cf/filter:

switch host {
       case =** "*.varhooo.cz":
               accept;
}

Pak provedem následující příkazy

Inicializace vnitřní databáze

bin/shep-init

Přidání inicializační adresy, musí splňovat vyraz zadaný pro filter a odkazovat se na další stránky:

bin/shep --current --insert --urls http://www.varhoo.cz

Spuštění parseru (bot), který prochází stránky

su holmes -c "bin/gcontrol start"

Co dělá můžeme sledovat příkazem:

tail -f log/log/shepherd-*
tail -f log/shepherd-*
Osobní nástroje