Календар

May 2006
M T W T F S S
« Apr   Jun »
1234567
891011121314
15161718192021
22232425262728
293031  

robots.txt, трябва ли ни?

От вчера имам възможност да преглеждам грешките, които се генерират от web сървъра поддържащ сайта ми. Едно от нещата, които ме заинтересуваха беше, че постоянно някой се оплакваше, за липсата на файла robots.txt. А какво всъщност представляват роботите? Естествено, не онези дето млатят заварки в автомобилните заводи, или онези, които се препъват по стълбите в опит да наподобят човешка походка. Става дума за програми, целта на които е да обходят мрежата подобно на обикновени броузъри с цел събирането на информация. Срещат се под различни наименования, някои от тях доста екзотични – Web Wanderers (уеб скитници), Crawlers (пълзачи или пълзуни, което повече ме кефи) или Spiders (паяци. Уа-а!). Има цял сайт посветен на тези програми, за какво служат и има ли ползва от тях.

Сега малко по-подробно за robots.txt (а за най-любознателните и за тези на които им се четат дълги RFC-та, може да погледнат тук. )
Накратко нещата стоят така: ако робота не намери такъв файл в коренната директория на уеб сървъра (или по-точно там където стои индекс файла) той тръгва да обхожда всички връзки по всички страници. Наличието на такъв файл няма да повиши рейтинга на сайта ви по никакъв начин, той просто указва на робота, какво да индексира и какво не, от прочетените страници. Ако искате роботите просто да ви оставят на мира, правите един файл robots.txt, който е празен и … готово. Ако такъв файл не съществува, робота индексира всичко до което се докопа, като освен това генерира грешка “File does not exist”. Това последното, лично за мен е малко изнервящо, защото затруднява проследяването на истинските грешки, а освен това пълни хронологията с излишна информация.
Синтаксисът на robots.txt е доста опростен:

User-agent: < име_на_агент>
Disallow: < име_на_директория>

Коментарите се правят с #, като може да изброите няколко секции “User-agent” и “Disallow”. Всички команди трябва да започват от началото на реда, не се допуска отместване. Ето малко примери:

Примерно, искате за всички агенти да забраните обхождане на директория cgi-bin. Тогава един примерен robots.txt ще изглежда така:

User-agent: *
Disallow: /cgi-bin/

Ако искате да добавите още директории, примерно images или backups, то файлът ще изглежда така:

User-agent: *
Disallow: /cgi-bin/
Disallow: /images/
Disallow: /backups/

Възможно е да забранявате дадена директория за обхождане от конкретен агент, примерно, да забраните на агента на ABCdatos BotLink да гледа директория images, вашият robots.txt трябва да изглежда така:

User-agent: abcdatos
Disallow: /images/

Естествено, може да комбинирате няколко секции с различни агенти:

User-agent: *
Disallow: /cgi-bin/
Disallow: /images/
Disallow: /backups/

User-agent: abcdatos
Disallow: /images/

Имената на ботовете може да видите от тази връзка.

Проверката, дали създаденият от вас robots.txt е коректен, може да направите от тази връзка, а ако пък всичко изписано по-горе ви се видя сложно, може използвате генератор на robots.txt от тази връзка. Естествено, създаденият файл се качва в основната директория на вашият web сървър.

Лесно.., по-лесно.., най-лесно.., Fedora.., Fedora Frog

Не се сещам за операционна система, която да не иска някакво натъкмяване в последствие (…всъщност, май само DOS, ама то каква OS е това?!). Въпреки, че е доста потребителски (разбирай desktop) ориентирана и Fedora Core не е изключение. Ако прибавим и това, че екипа на Fedora има собствено разбиране за мултимедията и по-специално MP3 формата и DVD библиотеките, то нещата които трябва да направим за да е (почти) всичко ОК, не са малко. В мрежата има няколко места, от които можем да вадим директни cut&paste примери. Едно от най-пълните е Personal Fedora Instalation. Не за пренебрегване и Fedora FAQ, но там нещата са малко в по-друга плоскост.
Днес обаче попаднах на нещо, което изби рибата (с динамит, изплуваха и водолази). Това е скрипта Fedora Frogот сайта Easy Linux. Списъкът на нещата които прави, някак между другото са:

* Install extra repositories [RPMForge]
* Install GUI frontend for yum [yumex]
* Install commonly needed multimedia codecs
* Install DVD playback capability
* Install Java JRE and its plugin for Firefox
* Install Macromedia Flash plugin for Firefox
* Install extra fonts (including msttcorefonts)
* Install graphics drivers for nVidia and ATI cards
* Install Gnome Configuration Editor
* Install numlockx to turn on NumLock on startup
* Set up Gnome to open System Monitor every time you push Alt-Ctrl-Del
* Disable CD blocking in CD-ROM
* Set up Nautilus to open new folders in the same window
* Install rar archiver
* Install Adobe PDF reader
* Install Gwenview and digiKam imageviewers
* Install XMMS (analog of Winamp)
* Install amaroK media player
* Install stream directory browser Streamtuner
* Install CD ripper Grip
* Install Xine, VLC, Mplayer multimedia players
* Install RealPlayer 10
* Install Skype
* Install Thunderbird e-mail client
* Install Liferea RSS reader
* Install Opera web browser
* Install CD/DVD burning utility K3b
* Install FTP utility gFTP
* Install File share utility DC++
* Install P2P BitTorrent client Azureus
* Install P2P eMule Client aMule
* Install P2P Gnutella Client LimeWire
* Install KDE Edutainment programms
* Install Photo-realistic nightsky renderer Stellarium
* Install Some additional games
* Install Alacarte Gnome menu editor
* Install Shortcut to browse files as root
* Install Some desktop backgrounds, icons, themes and screensavers
* Install fortune and make Gnome Fish-applet to use it

Всичко е оформено в потребителски интерфей, от който може да избирате по-гореизброените категории. Помислено е и за журнал на инсталацията, за да може да се проследи, както точно става. Ако пък, това по-горе не ви стига, погледнете частта посветена на Fedora Core 5 от сайта Easy Linux
Яко!!!

Новото ми място

Най-сетне изтече годината, която си бях платил за хостинг при dom.bg. За мен, тази фирма беше един точен пример за това, как клиентите в България никога нямат права, а само задължения (да плащат). Много мога да изпиша за това, какво им липсва, ама мисля че няма смисъл. За довиждане, на всичкото отгоре, не успях да вляза в управлението на домейна си, за да сменя DNS-a. Паролата ми беше сменена, а емейла за контакт, беше някакъв измислен. Далеч съм от мисълта, че някой ми е “изхакал” домейна, просто данните, които бяха нанесени ми приличаха на работата на някой скрипт, който да нахлузи default-ни стойности (стойности WhereImI, nowhere@whereiam.com и т.н. простотии). Обяснението на dom.bg беше, че съм забравил, че съм влизал през proxy-то на novinar.bg (последният журнализиран адрес за промяна) и оттам съм сменил email-a за контакт. Нямам думи! Основното нещо, което им куца (и вероятно ще продължи така!) е честното отношение към клиента. Просто да бяха написали едно писмо – “така и така, наложи се да ресетнем паролите за тези домейни, извинявайте”. Или – “наложи се да сменим това и това, sorry, на всеки се случва”. Или – “Нещо си омазахме домайните” и т.н. Както и проблемите им преди време със счупените “мироризирани” дискове. Смешно.
Впрочем, честността е въпрос на възпитание, а не на превъзпитание – според мен, за тях е прекалено късно.
Сега вече съм на ново място – хостинга на СпектърНет. Тук и потребителският интерфейс е истински , PHP-то и МySQL-а са съвременни и стабилни версии, с всички екстри, за които може да си мечтае един наемател. За сега най ми харесва централизираното управление през VHCS. Освен това, имам подробна статистика за използваните от мен ресурси (при dom.bg, така и не успях да разбера какво в крайна сметка ползвам), страхотен web mail интерфейс и най-вече: имам достъп до грешките генерирани от различните подсистеми. Ура! Е, сега следват нерви с енкодинги и подобни натъкмявания, но без подобни екстри живота е скучен. Ако нещо не работи, не забелязвайте – просто майстора, още не си е прибрал инструментите и не е почистено.
Следващото място на “Моето си място” ще бъде на собствена машина, това е ясно. Дотогава: благодаря SpectumNet, благодаря Викторе, благодаря Сашо 🙂

“труд срещу слепите” – историята продължава

ИК труд е решила да даде отговор на обвиненията на “изписаното в Интернет през последните няколко дни”. Жалко и смешно. Или може би, смешно и жалко. Отговорът е на страницата на Григор.. Аз нямам неговото дар слово, пък и свъщност мнението ми съвпада абсолютно с неговото.. Не ми се прави анализ на “аргументите” на труд: просто не виждам смисъл. За тях не е станало ясно най-важното: с какъв МОРАЛ отнемат и малкото светлина, до която може да се докоснат слепите?! Е, да – можели да си платят за да ползват за четене недоносчето им от един друг сайт, нали? Не мисля, че ще ме разберат, не мисля изобщо че идеята за морала стига до главите им.
Ще посоча още един линк по темата: сайта `Труд срещу слепите`. Кратко и ясно – няма нужда от коментари. Там всичко си пише.
E-ех-х-х Българийо… точно по 24-ти май ли трябваше едно (така наречено) издателство да прави подобни простотии….