Vyhledávání

Vedle základního průchodu katalogem je též možné vyhledávat v jednotlivých textových množinách dat. Fulltextové vyhledávání může dle specifikace dotazu prohledávat veškerá textová data v systému. U každého lístku byl před jeho vystavením na web pořízen OCR přepis. Při vyhledávání je možno dle své volby omezit množinu dat, nad nimiž chcete vyhledávat (skupina, šuplík atp.), kvalitu těchto dat (vše, jen přepisy atp.).

Upozornění: Kvalita vyhledávání je podmíněna kvalitou dostupných textových přepisů jednotlivých lístků. Každý lístek je napojen na automatický OCR přepis, ten však nemusí být zcela spolehlivý (špatně čitelné či ručně psané lístky).

Fulltextové vyhledávání je tedy použitelné spíše jako doplněk než plnohodnotný ekvivalent průchodu katalogu dle jeho řazení.

Možnosti nastavení

Vyhledávání lze omezit dle několika kritérií.

  • Pomocí nabídky „Kde hledat“ lze vyhledávací dotaz omezit pouze na vybranou množinu textových dat. Lze prohledávat veškerá textová data (nabídka „Všude“) či název skupiny.
  • Pomocí zaškrtávátek v nabídce „Omezit“ lze vyhledávání omezit na vybranou část nebo vybrané části katalogu.
  • Pomocí nabídky „Filtr“ lze vyhledávání omezit pouze na lístky s určitým statutem.
  • Při vyhledávání lze zároveň aktivovat rozlišení velkých a malých písmen, popř. vyhledávání omezit pouze na stávající schránku.

Jazyk vyhledávacího dotazu

Vyhledávací algoritmus je schopen nalézt jakýkoli znak v jakékoli ucelené sekvenci znaků od mezery do mezery (je možno použít „divoké karty“, tj. znaky *?) nebo jakoukoli slovní sekvenci oddělenou mezerami (v tomto případě není možno využít „divoké karty“). Tyto dva vyhledávací přístupy nelze v rámci téhož dotazu kombinovat. Vyhledáváví enginem Lucene je blíže popsáno na stránkách aplikace.

Interpunkce vyhledávacího dotazu

Divoké karty vs. ohraničení fráze

Znak Význam Příklad dotazu Příklad odpovědi
* libovolně dlouhá souvislá řada znaků (0 až nekonečno) st*l stal
strojil
stůl
stodol
*st*l* přistáli
ustrojili
stoly
stodola
? právě jeden libovolný znak st?l stůl
stal
styl
"" ohraničení fráze "písně kosmické" najde všechny výskyty této slovní sekvence

Hledání pomocí divokých karet a ve slovních sekvencích nelze v jednom dotazu vzájemně kombinovat (tj. např. dotaz "st*l ?idle" engine neumí zodpovědět).

Vzhledem k možnostem výskytu šumů při OCR rekognoskaci doporučujeme pokládat dotaz ve tvaru *hledaný_řetězec*.

Vyhledávací znaky

Znak Význam Příklad dotazu Příklad odpovědi
~ podobnost stůl~0.8 najde všechna slova podobná výchozímu z 80 %
""~ vzdálenost "písně kosmické"~10 najde všechny případy, kdy jsou obě slova vzdálena maximálně daný počet slov od sebe
{ TO } exkluzivní interval {1901 TO 1905} najde všechny případy, kdy se v definované množině textů vyskytuje řetězec spadající do uvedeného intervalu s vyloučením krajních hodnot
[ TO ] inkluzivní interval [1901 TO 1905] najde všechny případy, kdy se v definované množině textů vyskytuje řetězec spadající do uvedeného intervalu včetně krajních hodnot

Znaky pro kombinovaný dotaz

Znak Význam Příklad dotazu Příklad odpovědi
+ / AND / && slučování +Němcová +Babička všechny záznamy, kde se objevují oba řetězce současně
- / NOT negace +Němcová -Babička všechny záznamy, kde se objevuje první, ale nikoli druhý řetězec
OR / || alternace +Němcová OR Babička všechny záznamy, kde se objevuje první nebo druhý řetězec
( ) výběr části +(Němcová OR Babička) +1855 všechny záznamy, které obsahují třetí a buď první, nebo druhý řetězec

Kombinovaný dotaz lze různě rozvíjet pomocí uzavření jeho části do kulatých závorek ( ).

Pomocí znaků pro kombinovaný dotaz lze v dotazu kombinovat části využívající principu divokých karet a části využívající principu slovní sekvence, tj. engine zodpoví např. dotaz +"Božena Němcová" +*Babi?ka*.

Před vybranou množinu znaků majících význam při formulaci dotazu (+, -, &&, ||, !, ( ), { }, [ ], ^, ", ~, *, ?, :, \) je pro jejich vyhledání nutno před každý jednotlivý z nich zapsat zpětné lomítko.

Omezení pro spolehlivost fulltextového vyhledávání:

  1. Fulltextové vyhledávání nefunguje nad ručně psanými lístky (nemožno získat OCR přepis).
  2. U lístků psaných přes průklepový papír či jinak obtížněji čitelných je vyhledávání v datech limitováno kvalitou přepisu.

Tipy pro fulltextové vyhledávání

  1. V systému jsou uchovávány původní přepisy, aby uživatel mohl při formulaci dotazu případně zohlednit chyby, které se na nich objevují. Problémy se obvykle vyskytují u prvních a posledních písmen slov, obzvlášť vyskytují-li se v ručně psaných hranatých závorkách, velkých písmen, čtení písmen s diakritikou, rozlišování písmen mn atp.
  2. Při hledání v ucelené sekvenci znaků je možno využít a vzájemně kombinovat tzv. „divoké karty“ – ?*.
  3. Doporučujeme užívat * na začátku i na konci dotazu.
  4. Možnost kombinovaných dotazů (buď jedním přímým dotazem, nebo s využitím funkce schránka).
  5. Možnost hledání číselných rozsahů (dotaz [1900 TO 1905] najde všechny lístky z daného pětiletí; pozn. engine chápe čísla jako „slova“ bez ohledu na počet řádů, proto by uvedený dotaz případně v odpovědi nabídl i lístky, na nichž se vyskytuje číslo 19012, 19123654 atp.). Lze uplatnit i na rozsahy abecední [Neruda TO Nezval].
  6. Možnost rozlišovat velká i malá písmena.
  7. Možnost využít pravidelností ve struktuře lístku, např. pravidelné umístění znaku = před název titulu: dotaz "= LN"~1 najde všechny lístky, u nichž jsou zdrojem Lidové noviny (odfiltruje případy, kdy je zkratka LN využita v anotaci).

Rozcestník