پی سی سیتی - نمایش پست تنها

**دانه کولانه** · #7 12-12-2007

how 2 improve page rank of your site ?

تا حالا در پست بالا بیشتر نکات کلیتر مطرح شد که البته باید رعایت بشه
حالا در مورد تگها و متا تگها باید کمی بدونید که اونا هم به اندازه کافی مهمه و
بعضی هاش یه مواقعی از نان شب واجبتر حتی از لحاظ امنیت !

----------------------------------------------------------------------------------------

تا کنون فکر کرده اید که چرا موتورهای جستجو به سایت شما سر نمی زنند یا اینکه هیچ فکر کرده اید که باید چندین فولدر مهم در فروشگاه رو از دست آنها پنهان کرد تا به اطلاعات اضافی دسترسی نداشته باشند؟
روش کار با ایجاد یک فایل به نام robots.txt هست که این کار را برایتان انجام می دهد. این فایل را باید در ریشه سایت قرار دهید تا موتورهای جستجو با کنترل آن از دستور دلخواه شما پیروی کنند.

دو پروتكل عمده براي منع كردن موتورهاي جستجوگر از بايگاني منابع وب وجود دارد:

• پروتكل robots
• پروتكل robots meta tag

پروتكل robots

می توان با يک فايل متنی و بسيار ساده، ميزان دسترسی موتورهای جستجوگر به محتوای سايت ها را کنترل کرد. اين فايل robots.txt نام دارد و پروتکل حاکم بر آن پروتکل robots نام دارد.
موتور جستجوگر قبل از آنکه وارد سايتی شود، ابتدا فايل ياد شده را درخواست می کند و تمام محدوديت های پيش روی خود در آن سايت را می خواند. نبود اين فايل در يک سايت به معنای نبودن هيچ گونه محدوديتی برای تمام اسپايدرها است (حالت پيش فرض).
موتور جستجوگر بعد از آنکه تمام فايل ها و مسيرهای ممنوع را دانست. شروع به خواندن مطالب سايت می کند و البته به محدوديت های موجود نيز احترام می گذارد (اگر يک اسپايدر مودب باشد!).

نوشتن robots.txt
پروتکل روبوتز تنها دو دستور دارد که به کمک آنها محدوديت های زير مشخص می شوند:

• کدام اسپايدرها محدود شوند.
• کدام مسيرها محدود شوند.

user-agent:
با اين دستور، روبوت ها مشخص می شوند. روبوت (اسپايدر) هر موتور جستجوگر نام مشخصی دارد و برای محدود کردن موتورهای جستجوگر کافی است که نام روبوت های مورد نظر را به همراه اين دستور به کار گيريم. اي دستور به صورت زير به کار می رود:

به عنوان مثال وقتی که روبوت مورد نظر مربوط به گوگل است خواهيم داشت:
user-agent:googlebot

و همين طور اگر روبوت NorthernLight مورد نظر باشد،آنگاه:

user-agent:gulliver

با اين دستور مسيرهای ممنوع مشخص می شوند که به صورتهای زير به کار می رود:

/disallow:/path

/disallow:/admin
/disallow:/pub

برای محدود کردن هر روبوت ابتدا آنرا مشخص کرده و سپس تمام مسيرهای محدود شده برای آنرا ذکر می کنيم:

user-agent: googlebot

/disallow:/admin
/disallow:/pub

اگه فروشگاه شما در داخل یک فولدر قرار دارد باید به این صورت استفاده کنید :

/disallow:/shop/admin
/disallow:/shop/pub

و با دستور زير همه روبوت ها می توانند محتوای تمام مسيرها را بخوانند:

*:user-agent

isallow

کاربرد * به همراه user-agent به معنای تمام روبوت ها است.
در مثال زير به تمام روبوت ها گفته می شود که خوش آمديد، اينجا خبری نيست، لطفا دور شويد (با زبان خوش!).

*:user-agent

isallow

کاربرد / به همراه disallow به معنای تمام مسيرها است. همچنين برای نوشتن توضيحات در فايل robots.txt از # به صورت زير استفاده می شود:

all robots are allowed #
*:user-agent

isallow

شما اگر گاليور بوديد و قصد سفر به سايت آدم كوچولوها را داشتيد با ديدن دستورات زير چه مي كرديد؟

*:user-agent
/

isallow

User-agent:Gulliver
Disallow:

فايل robots.txt را کجا بايد قرار داد؟
از مثال زیر کمک گرفته و فایل را در محل مناسب آن قرار دهید.محل مناسب و صحیح همان ریشه سایت می باشد.

robots.txt

و نكات ديگر:
• حتی اگر سايت شما هيچ گونه محدوديتی ندارد توصيه می شود که اين فايل را بر روی سرور خود قرار دهيد. در اين صورت کافيست که به صورت زير عمل کنيد:

*:user-agent

isallow

بودن اين فايل به صورت ذکر شده و نبودن آن در هر دو صورت برای موتورهای جستجوگر يک معنا دارد:

آزادی در دسترسی به محتوای سايت

اما وجود robots.txt می تواند نشان از حرفه ای بودن سايت باشد و شايد در رتبه بندی سايت هم مورد لحاظ قرار گيرد.

آزادی در پرتو يک قانون بدون محدوديت بهتر است از آزادی ناشی از بی قانونی!

• همواره يک مسير را ممنوع کنيد و نه يک فايل را.
گيريم که شما فايل rtg.html را برای گوگل به صورت زير محدود کرده باشيد:

user-agent:googlebot
diallow:/admin/rtg.html

*:user-agent

isallow

همانطور كه مي دانيد تنها موتورهاي جستجوگر فايل robots.txt را نمي خوانند و در واقع همه کاربران با خواندن اين فايل می توانند بفهمند که شما چه فايلی را محدود کرده ايد و به راحتی می توانند به آن مراجعه کنند.

• تمام مسيرهای درون اين فايل را با حروف کوچک انگليسی بنويسيد. وب سرورهاي نصب شده بر روي سيستم هاي عامل يونيكس به بزرگي و كوچكي حروف در URL حساس هستند.
• هر سايت تنها می تواند يک فايل robots.txt داشته باشد.
• بعد از آنکه فايل robots.txt را بر روی سرور سايت خود قرار داديد با بررسی Server Logs سايت خود می توانيد بفهميد که آيا موتورهای جستجوگر به محدوديت هايي که تعريف کرده ايد وفادار بوده اند يا خير.
اگر يک موتور جستجوگر به محتوای آن توجه نکرده باشد، می توانيد با آنها مکاتبه کرده و علت را جويا شويد و از آنها بخواهيد که فايل های مسير مورد نظر را از بايگانی خود حذف کنند.
• در ابتدا و انتهای تمام مسيرهای قرار گرفته در Disallow از / استقاده کنيد.

پروتکل robots meta tag

با استفاده از robots.txt توانستيم بعضی از مسيرهای سايت خود را برای همه و يا تنی چند از موتورهای جستجوگر محدود کنيم. می توان با استفاده از يکی از شناسه های HTML هم محدوديت هايي را برای يک صفحه تعريف کرد.
اين شناسه ميزان دسترسی به يک صفحه را معين می کند و به يکی از چهار صورت زير به کار می رود:

<meta name=\"robots\" content=\"index,follow\">
<meta name=\"robots\" content=\"noindex,follow\">
<meta name=\"robots\" content=\"index,nofollow\">
<meta name=\"robots\" content=\"noindex,nofollow\">

Index
به معنای اين است که موتور جستجوگر می تواند محتوای صفحه را بايگانی کند. آوردن no بر سر آن به معنای اين است که موتور جستجوگر نمی تواند محتوای صفحه را بايگانی کند.

Follow
به اين معناست که موتور جستجوگر می تواند لينک های موجود در صفحه را دنبال کند. آوردن no بر سر آن به اين معنا است که موتور جستجوگر نبايد لينک های صفحه را دنبال کند.

با استفاده از اين شناسه محدوديت ها به تمام موتورهای جستجوگر اعمال می شود و نمی توان محدوديت های موردی اعمال کرد: همه يا هيچ کدام!
اگر در صفحه ای از اين شناسه استفاده نشده باشد، به معنای index, follow است. يعنی محتوای صفحه خوانده شود و لينک های آن دنبال گردد (حالت پيش فرض).
می دانيد هر يک از چهار ترکيب ياد شده برای چه صفحاتی مناسب می باشند؟

برخی از موتورهای جستجوگر نيز META robots مخصوص به خود دارند ( نظير گوگل) که می توانيد از آنها نيز استفاده کنيد. برای اطلاع از چگونگی استفاده از آنها می توانيد از Help همان موتور جستجوگر کمک بگيريد.

جای تبلیغات شما اینجا خالیست با ما تماس بگیرید