Google indeksira skenirane dokumente!
Dodano: Ponedeljek, 8. December 2008Doživeli smo še en pomemben mejnik v tehnologiji iskanja informacij na spletu. Spletni iskalnik Google je pričel samodejno izvajati OCR (optical character regognition) na PDF dokumentih, ki vsebujejo skenirano gradivo in tako te dokumente pretvoril v polno besedilo, ki je primerno za iskanje.
O tej novosti se je špekuliralo že nekaj časa, saj je Google oznanil, da bo objavil tehnologijo tesserat-ocr v odprti kodi. Od zdaj naprej bomo torej lahko iskali tudi po slikovnem gradivu, ki vsebuje skenirano besedilo. To je bilo včasih nemogoče, saj smo lahko iskali le po polnem besedilu v html, txt, doc, pdf ali podobni obliki. Zdaj pa bo Google samodejno izvajal prepoznavo besed na skeniranih dokumentih, shranjenih v PDF formatu.
Kako zadeva deluje v praksi si poglejte v iskanju: “trženje zavarovalnih storitev pri bančnem okencu“, kjer je prvi zadetek indeksiran PDF dokument, ki vsebuje skeniran članek o podjetju Replika. Google je samodejno izvedel OCR nad vsebino dokumenta in ga spremenil v polno besedilo, primerno za iskanje. Če ne verjamete, si poglejte najprej PDF datoteko, potem pa še kliknite na povezavo “v obliki HTML“.
Upam, da bodo storitev OCRja razširili tudi na ostalo slikovno gradivo in projekt ne bo zajemal samo skenirane PDF dokumente.

