středa 8. srpna 2007

Optimalizace HTML5 parserů

Ian Hickson publikoval na Google Code blogu zprávu o své studii zaměřené na rychlostní optimalizaci HTML5 parserů.

Práce u Googlu dává Ianovi prostředky, které neměl, když ještě pracoval pro Operu a Ian toho plně využívá. Kde všude byste si mohli dovolit prohnat svým programem deset miliard HTML dokumentů, že?

Získaná data by měla pomoci rychlostně optimalizovat nejen HTML5 parsery, ale prakticky všechny existující HTML parsery.

1 komentář:

  1. Mám trochu pochybnosti o výpovědní hodnotě těch čísel - nikde nevidím, že by v nich byl zahrnuta relevance těch zkoumaných stránek. Všechny stránky zde mají stejnou váhu. A optimalizovat plošně na 10 miliard dokumentů, když v reálu budete ke každému nejspíš přistupovat úplně jinak často, není nejlepší strategie.

    Lepší by bylo nějak aproximovat, jak často bude která stránka parsována (třeba page rankem) a podle toho jejím údajům váhu přiřadit.

    Samozřejmě, výše uvedené má význam především u implementací v prohlížečích nebo jinak uživatelem ovládaných nástrojích, kde bude mít rozdělení přístupů na stránky exponenciální charakter (= velmi málo velmi často navštěvovaných webů + velmi mnoho velmi zřídka navštěvovaných). Různé roboty přistupují ke stránkám plošněji, pro jejich implementaci můžou být ta čísla užitečná.

    OdpovědětVymazat

Poznámka: Komentáře mohou přidávat pouze členové tohoto blogu.