Reklama

Reklama

Reklama

O čem to vlastně je?

1582 x přečteno

Na tomhle blogu se občas objevují informace, které ne až tak souvisejí s cyklistikou. Probírá se zde matematika, biochemie či fyzika. Probírala se tu i statistika, a na tu bych se dnes zaměřil.

Jak už tak bývá, když má člověk hodně moc práce a neví kam dřív skočit a co dělat dřív, dělá věci absolutně nepodstatné. Jenom aby se to nějak odsunulo a člověk si to sám před sebou obhájil. Někdo začne třeba uklízet, někdo cvičit...   Dnes to bude o tom co jsem dělal já. 

Někdo zná, a někdo nezná - bikenews.cz. Jde o jednoduchý RSS agregátor, který stahuje úvodníky a odkazy na články z cyklistického internetu od nás ale i ze Slovenska. Takový rozcestník. Běží už rok a půl...

 

Začít článek třemi úvodníky asi není běžné, ale novinář nejsem, tak co :)  Co je bikenews jsem vysvětlil, takže už zbývá jen obsah tohoto spotu. Vždycky ale přidávám na závěr i kvízové otázky, dnes to bude uprostřed....  Za tu dobu co bikenews běží, už je v databázi docela dost dat. Je tam zařazen každý web o cyklistice v češtině nebo slovenštině a pořád přibývají další. Jsou zařazeny i obecné servery, jako jsou Novinky či Aktuálně - ty se filtrují a zobrazují jen cyklo články. A teď se právě dostávám ke statistice, kvízovkám a vůbec tomu všemu.

 

Kolik tak asi je uloženo článků? (Ono jde spíš o úvodníky, prostě to co je v RSS kanálu) 

Tohle je první zahřívací kvízovka a tak dám i odpoveď. Ke včerejšku to bylo 10 454

Kolik je v databázi slov? 

Už jste zahřátí, tak hádejte :)  Kdyby se počítala všechna slova, nic by to asi neříkalo, ale berme počet slov, které jsou originální. V mnoha článcích je určitě spojka "a" či "v". Berme je ale jako jedno slovo, přestože jejich výskyt se počítá na...  hodně Smiling

 
Které z těchto slov se vyskytuje nejčastěji? 

Zde jsou dvě kategorie - je jasné že vyhraje nějaká spojka. Ale co takhle slovo jako podstatné jméno? Prostě o čem ten náš cyklo internet  je!   

 

Které jméno se vyskytuje nejčastěji? 

Za poslední měsíc to byl asi Roman Kreuziger, ale jak v horizontu roku a půl? 

 

Odpovědi budou někdy tento týden, zpracovat tolik textu (15MB) dá trošku práce a faktem je počítač počítá. A počítá už od včerejších desíti hodin večer. Takže ani já zatím neznám kompletní výsledky, a ani nemám tušení kdy budou :)  Byť si myslím že se průběžné pořadí už moc měnit nebude.... 

 

Pro top pár slov pak udělám statistiku jak se měnil jejich výskyt v čase - takový pěkný grafík Smiling    Mám skript na všechny slova, ale z NASA mi napsali že mi počítač nepůjči :) 

 

 

 

 

 

 

Průměr: 2 (4 hlasů)

Komentáře

a na co je to vlastne dobre resp. k comu to bude sluzit ? co to vlastne da citatelom alebo redakcii ? aka bude vypovedna, uzitocna prakticka hodnota vediet spominane vysledky ? dakujem za odpoved a objasnenie.

Obrázek uživatele Marek Mixa

neberte všechno tak vážně Smiling

ale jsem zcela objektivně schopen určit výskyt jednotlivých slov v článcích o cyklistice. Například u jmen zjistit o kom se psalo nejvíc. Je to ohromný množství dat a cokoliv co z toho vytáhnu má nějakou hodnotu. Pro ostatní to jsou zajímavosti, pro mě to má význam trošku jinde Smiling

Obrázek uživatele OndraVojta

Dobrá pakárna Smiling

1) Bude to asi něco kolem 500.000, typnu si na 550 tisíc

2) Tohle bude těžší, bude to nějaký naprosto obecný slovo, jako je třeba "problém". V nejlepším případě "start", "vítěz" nebo "závod".

3) A jméno? Hmmm - protože je MTB mediálně viditlenější než silnice, bude to myslim nějakej blátošlap. Co takhle "Tereza Huříková"? Smiling

www.ondrej-vojtechovsky.cz/mytreneek/ondravojta

Blátošlap?! Tssss...

Obrázek uživatele Marek Mixa

Taky jsem neříkal že to je nějak inteligentní zábava Laughing out loud

Obrázek uživatele OndraVojta

Akorát přidám drobnou technickou - tomu co tahaj RSSky je asi přesnější řikat perex, podobně jako tučnýmu textu pod nadpisem v v magazínech (i v pelotonu). Úvodník - nebo editorial, jak se dneska módně říká ve fiflenských časopisech ala Cosmopolitan - je sloupek (vetšinou) šéfredaktora uvádějící každé číslo.

Omlouvám se, že zas prudim, ale když já jsem takovej misionář... Evil

www.ondrej-vojtechovsky.cz/mytreneek/ondravojta

Obrázek uživatele Marek Mixa

technickou rozdupu a zničim lehkým pohybem nohy Smiling

Musím tě zklamat, ale to co je v rss nemusí být zdaleka jen perex. Je tam to co tam dá autor webu Smiling Hodně webových portálů dává do rss celé znění článku, faktem ale je, že v odborné veřejnosti se nad tím vedou dost debaty. Ale jeden příklad za všechny - stará verze pelotonu dávala kompletní znění článku do rss. Nenech se klamat tím to co vidíš na bikenews - každý třetí příspěvek se musí oříznout, protože by to pak neplnilo funkci rozcestníku.

Obrázek uživatele OndraVojta

Což nemění nic na tom, že úvodník to v žádnym případě není a perex by to být mohl nebo by bylo ideální, kdyby to jako perex napcaný bylo Sticking out tongue, protože tím si autor zvýší pravděpodobnost, že si na jeho článek v takovém rozcestníku někdo klikne.

Ale souhlasil bych s těmi odborníky, kteří tvrdí, že dávat do RSS celý článek je zpozdilé. Jednak to asi málokterá čtečka načte a využije a hlavně, i kdyby načetla, tak když si přečtu článek v RSS, proč bych chodil na zdrojovou stránku - a tím pádem si ta zdrojová stránka sama snižuje návštěvnost.
www.ondrej-vojtechovsky.cz/mytreneek/ondravojta

Obrázek uživatele Marek Mixa

nejde o zpozdilost, je to novinka Smiling

Obrázek uživatele OndraVojta

...což je jen důkazem známého axiomu, že svět se zu arsch obrací... Evil

www.ondrej-vojtechovsky.cz/mytreneek/ondravojta

Obrázek uživatele Marek Mixa

Já osobně jsem před rokem zavedl u jednoho anglického webu plné texty v rss a návštěvnost se zvedla Smiling zdá se to jako paradox, ale je to tak...

linky na prostudování Smiling
http://www.problogger.net/archives/2007/02/14/11-ways-to-find-new-rss-subscribers-for-your-blog/
http://www.revenews.com/billflitter/2006/02/fulltext_feeds_vs_summarytext.html
http://kevin.lexblog.com/2007/04/rss-syndication/fulltext-rss-feeds-preferrable-to-excerpt-feeds/

ale i jeden český
http://www.sovavsiti.cz/weblog/74/cele-clanky-v-rss

tím bych to asi uzavřel Smiling jdu napsat radši spot o tom, jak to nakonec dopadlo s těmi slovy Smiling

Obrázek uživatele OndraVojta

Jawdropping!

Tyjovka, to je diskuze téměř na náboženskou válku - podobojí nepodobojí, celý necelý, kdož sú boží bojovníci, hur na ně!!!! Smiling To by mě nenapadlo...

No já zůstanu jen u těch nadpisů, trpím zlozvykem přečíst jakýkoliv písmena, který se mi dostanou do zornýho pole, i kdyby to byl jen potisk na flaštičce sojovky. Takže kdyby se mi nedej bože natahovalo do RSSky úplně všechno, byť jen z těch pár webů, který jsem si povolil odebírat, tak bych asi neudělal už vůbec nic... Smiling

A už s tím taky končím, tohle není asi to úplně pravý místo to řešit. Nehledě na to, že si nejsem jistej, jak je zrovna u cyklistů a cyklowebů RSSka hustě využívaná... Máš nějaký data odtud? Jde nějak zjistit, jak velký procento lidí si odtud stahuje RSS kanály? Pokud to teda není obchodní tajemství Smiling

www.ondrej-vojtechovsky.cz/mytreneek/ondravojta

Návrh a realizace: SlusnyWeb.cz - Tvorba webových stránek