Cherlock Holmes
(→Nastavení) |
(→Nastavení) |
||
Řádka 59: | Řádka 59: | ||
Co dělá můžeme sledovat příkazem: |
Co dělá můžeme sledovat příkazem: |
||
tail -f log/shepherd-* |
tail -f log/shepherd-* |
||
+ | |||
+ | Přidání nové url pro bota. |
||
+ | |||
+ | ./bin/gcontrol stop |
||
+ | ./bin/shep --current --insert --urls http://<nová url> |
||
+ | ./bin/gcontrol start |
Verze z 5. 1. 2012, 11:50
Jedná se o fulltextový engine, který umožňuje poměrně efektivní indexaci a vyhledávání. Byl využit u projektu morfeo (vyhledávač pro centrum)-
Mirror oficiálního zdroje je na http://www.varhoo.cz/holmes/
Instalace
Potřebné balíčky, Perl, Flex, Bison, Zlib, pkg-config, libjpg, libpng, libgif
Můžeme použít balíček nebo zkompilovat aktuální verzi.
./configure free make
A pak lze použít příkaz pro instalovaní dané instance:
make install INSTALL_DIR=<dir>
Ještě je vhodně vytvořit nového uživatele
useradd holmes chown holmes:holmes <dir>
Základní struktura
bin/ programs and utilities cache/ various cache files cf/ configuration files db/ database files of the gatherer index/ main index lib/ libraries used by the programs lock/ lock files, pid files and similar stuff log/ log files tmp/ temporary files
Nastavení
První spuštění:
Nejprve nastavíme pravidla pro filtrování řetězců v souboru cf/filter:
switch host { case =** "*.varhooo.cz": accept; }
Pak provedem následující příkazy
Inicializace vnitřní databáze
bin/shep-init
Přidání inicializační adresy, musí splňovat vyraz zadaný pro filter a odkazovat se na další stránky:
bin/shep --current --insert --urls http://www.varhoo.cz
Spuštění parseru (bot), který prochází stránky
su holmes -c "bin/gcontrol start"
Co dělá můžeme sledovat příkazem:
tail -f log/shepherd-*
Přidání nové url pro bota.
./bin/gcontrol stop ./bin/shep --current --insert --urls http://<nová url> ./bin/gcontrol start