Izdelava spletnih strani, optimizacija

Google indeksira skenirane dokumente!

Dodano: Ponedeljek, 8. December 2008

Doživeli smo še en pomemben mejnik v tehnologiji iskanja informacij na spletu. Spletni iskalnik Google je pričel samodejno izvajati OCR (optical character regognition) na PDF dokumentih, ki vsebujejo skenirano gradivo in tako te dokumente pretvoril v polno besedilo, ki je primerno za iskanje.

O tej novosti se je špekuliralo že nekaj časa, saj je Google oznanil, da bo objavil tehnologijo tesserat-ocr v odprti kodi. Od zdaj naprej bomo torej lahko iskali tudi po slikovnem gradivu, ki vsebuje skenirano besedilo. To je bilo včasih nemogoče, saj smo lahko iskali le po polnem besedilu v html, txt, doc, pdf ali podobni obliki. Zdaj pa bo Google samodejno izvajal prepoznavo besed na skeniranih dokumentih, shranjenih v PDF formatu.

Kako zadeva deluje v praksi si poglejte v iskanju: “trženje zavarovalnih storitev pri bančnem okencu“, kjer je prvi zadetek indeksiran PDF dokument, ki vsebuje skeniran članek o podjetju Replika. Google je samodejno izvedel OCR nad vsebino dokumenta in ga spremenil v polno besedilo, primerno za iskanje. Če ne verjamete, si poglejte najprej PDF datoteko, potem pa še kliknite na povezavo “v obliki HTML“.

Upam, da bodo storitev OCRja razširili tudi na ostalo slikovno gradivo in projekt ne bo zajemal samo skenirane PDF dokumente.

Europeana … polom ali uspeh?

Dodano: Sobota, 22. November 2008

V četrtek, 20.11.08, so za javnost odprli spletni dostop do digitalne knjižnice Europeana. Trend uporabe digitaliziranih gradiv in elektronskih virov podatkov krepko narašča, zato ni bilo presenečenje, da bo takoj po odprtju spletno stran obiskalo veliko število uporabnikov. Očitno pa so se snovalci spletne strani krepko ušteli v ocenjevanju tega števila. Sistem je namreč po doseženih približno 10 milijonih zahtev na uro klonil in stran so morali spet zapreti za javnost. Precej klavrn začetek tako pomembnega projekta, moram priznati.

Zanimivo je, da so v razvoj Europeane prispevali več kot 13 milijonov €. Evropska komisija pa bo celo prispevala dodatnih 120 milijonov € (vir). Mislilim si, da bi ob vsem tem denarju stvar lahko delovala bolje. Spet je tu vprašanje: zakaj se toliko projektov, ki imajo na voljo ogromno denarja, realizira tako počasi in z velikimi težavami.

10 milijonov zahtevkov na uro sploh ni tako velika številka. Kako, da se je torej opisani scenarij zgodil? že tale podatek me je šokiral:

Despite increasing the number of servers from three to six, the site crashed again early evening.
http://www.digitaljournal.com/article/262554

6 strežnikov za celotno evropsko digitalno knjižnico? Ni to nekam malo? Sicer nič ne piše o konfiguraciji, ampak pričakoval bi malce večji grozd strežnikov za tako pomembne vsebine.

Na spletni strani je zdaj objavljeno (neoblikovano?!) obvestilo, da bo stran na voljo v sredini decembra 2008. Vse skupaj pusti nekako grenak priokus, sploh če si še enkrat pogledamo par vrstic višje in vidimo količino denarja, ki ga je ta projekt porabil.