Един от най-спорните въпроси, свързани с оптимизацията на сайтовете и търсещите машини, е количеството текст, който те индексират и на базата на който те подреждат резултатите си по определена ключова дума. Все още не е открита границата между прекалено краткия текст, който търсачките считат за неинформативен, и прекалено дългия текст, в който най-важните части могат да останат незабелязани от тях. Обикновено във форумите се обсъжда тази тема, но без някой да се опита да стигне до собствени изводи чрез експеримент, а само цитират изискванията, публикувани от самите търсачки. Единствено Сергей Бондар се решава да направи този опит и публикува резултатите в сайта
SitePoint.
Накратко ще ви запозная със задачите, които Бондар си е поставил и методите, които е използвал при експеримента, както и резултатите, които е получил. Все пак, те са по-важните в случая.
Задачите на експеримента са само две - да определи количеството на текста от една страница, която търсачките всъщност индексират и кашират, както и да открие дали това количество зависи от общия обем на цялата страница, заедно с HTML кода.
За да осъществи експеримента, той взема 25 страници с различна големина от 45 KB до 4151 KB, добавя няколко несъществуващи ключови думи на всяка от тях с интервал от 10 KB. Използва специално създадена за опита програмка за да генерира ключовите думи в текста, които служат за маркиране на дълбочината на индексирането, след което публикува страниците към домейн, който той използва само за такива цели. След известно време забелязва в следите на Голямата тройка, както той нарича
Google, Yahoo и
MSN, в логовете на сървъра му и проверява класирането на страниците по ключови думи. След като получава резултатите за количеството текст, свален от ботовете на търсачките, той определя обема на страницата, който се индексира.
Какво показват резултатите?
Лимитите, които Бондар открива, са следните:
- Yahoo! - 210 KB, над този лимит страниците не са напълно индексирани от бота на Yahoo!;
- Google - 600 KB е максимума, при който една страница се смята за информативна. В същото време страниците с резултатите показват тези, в които търсената ключова дума или фраза се намира не по-далеч от 520 KB от началото на страницата;
- MSN - 1.1 MB е горната граница за количеството текст, който MSNBot-ът може да изтегли от индексираната страница. Оказва се, че поведението на бота е малко необичайно. При първото индексиране в страниците с резултатите се появяват само тези, които са до 170 KB, обаче в течение на времето започват да се появяват и тези, които надвишават този лимит. Изводът, който Бондар прави в случая е, че скоростта на индексиране на MSNBot-а зависи от големината на страницата.
Изводът
Сергей Бондар обощава резултатите си по следния начин: "
Този експеримент доказа факта, че водещите търсачки се различават по отношение на количеството текст, който те краулват. За Yahoo! лимитът е 210 KB, за Google - 520KB, а за MSN е 1030KB. Сраниците с големина под тези лимити се индексират напълно, докато останалия текст, над тези лимити, няма да бъде индексиран."
Спред него, това не означава, че е лошо да се превишават тези лимити. Неговият съвет е да не се страхувате да пишете и по-дълги текстове, ако смятате, че ще са полезни за вашите потребители, но напомня се има предвид правилото за първия и последния абзац, според което се смята, че ботовете обръщат по-голямо внимание на началото и края на текста.