ZAGREB, 15. veljače 2017. (Hina) – Prikupljanje i arhiviranje javno dostupnih sadržaja s hrvatskog prostora weba pokazalo je uspješno preuzimanje 77 milijuna resursa ukupne veličine sedam terabajta pri čemu su najzastupljenije vrste sadržaja tekst u HTML formatu s udjelom od 51,3 posto te slike u JPEG formatu s 33,8 posto, rečeno je u srijedu u Sveučilišnom računskom centru (Srce).

Pomoćnik ravnatelja za informacijsku i posredničku infrastrukturu Srca Miroslav Milinović rekao je tijekom konferencije “Hrvatski prostor weba – 15 godina mjerenja”, kako podaci “harvestiranja” za 2016. pokazuju da su najpopularniji formati tekst u HTML formatu s 51,3 posto udjela (lani 51,2 posto udjela) te slike u JPEG formatu sa 33,8 posto udjela (prošle godine 34,2).

Harvestiranje je aktivnost komplementarna selektivnom pobiranju sadržaja koje se provodi od početka 2004. godine.

PDF i dalje caruje kod tekstualnih formata koji omogućuju da se na web prenese sadržaj tiskanog materijala, dok otvoreni formati poput png-a (udjel 4,5 posto) i Javascripta (udjel 1,8 posto) rastu, a neki zatvoreni polako ali sigurno opadaju.

Tako primjerice pada upotreba gif-a (udjel 1,5 posto, lani je bio 2 posto) i flash-a (udjel 0,1 posto, lani 0,2 posto) što po Milinoviću znači da otvoreni formati polako pobjeđuju.

Srce mjeri hrvatski prostor weba od 2002. godine (mjerenje je 2011. zamijenjeno harvestiranjem), a kroz usporedne brojke može se vidjeti razvoj hrvatske web scene.

Prvim se mjerenjima prije svega željela ustanoviti veličina prostora weba, korišteni formati datoteka prema MIME standardu, omjer teksta, slike, audio i video zapisa, te obim i sadržaj metapodataka.

Uzorak izmjeren 2002. godine obuhvatio je 4,66 milijuna resursa, odnosno objekata dostupnih webom, a veličina uzorka procijenjena je na preko 300 gigabajta podataka. I tada je najveći broj resursa, čak 67 posto, činio HTML dok se na slikovne formate odnosilo 23 posto resursa.

Neki od zaključaka nakon šest godina harvestiranja su da je arhiviranje moguće uz određene ograde, da je površinski web i dalje jednostavan jer se rabi mali broj različitih formata, te da autori ne brinu dovoljno o standardima i mogućnostima arhiviranja.

“Složenost i dinamičnost informacijskog prostora weba predstavljala je na samom početku, prije 15 godina izazov, kao i danas, rekao je Milinović.

“U proteklih smo 15 godina, kao izazove u procesu prikupljanja sadržaja upoznali različite, prije svega inventivne, ali i nestandardne načine korištenja weba i pratećih tehnologija. Naučili smo puno i o samom informacijskom prostoru hrvatskog weba koji je narastao, postao složeniji, dinamičniji i interaktivniji”, zaključio je.

U Hrvatskoj je, po podacima Srca prošle godine bila aktivna 96.671 domena.

(Hina)