فایل ربات و کاربرد اصلی آن
فایل ربات یک سند با فرمت txt است که مسیر های مجاز و غیر مجار رو برای ربات های خزنده مشخص میکنه. هدف ما از بهینه سازی فایل ربات این است که از خزش صفحات کم اهمیت سایتمان توسط ربات های خزنده جلوگیری به عمل بیاوریم. دلیلش هم این است که ربات های خزنده یا کراولر ها برای خزیدن در محیط وب نیاز به صرف منابع و انرژی هستند و در نتیجه ترجیح میدهند صفحاتی را خزش کنند که محتوای ارزشمندی داشته باشند.
به عبارتی هدف نهایی ما برای بهینه سازی فایل robots این است که از هدر رفت کراول باجت مان (Crawl Budget) جلوگیری کنیم. اگر نمیدانید مفهوم کرال باجت چیست مقاله “کرال باجت” را بعدا بخوانید.
پس ما قرار است در فایل ربات دو نکته را به عرض ربات های گرامی برسانیم :
۱ – آدرس های مهم سایت ما کدام ها اند
۲ – آدرس های غیر مهم مان کدام ها اند
در این مبحث ملاک ما برای مهم بودن یک صفحه این است که آیا محتوای صفحه مورد نظر می تواند نتیجه ی سرچ یک کاربر باشد؟ و اگر پاسخ منفی است پس باید دسترسی ربات ها به آن محدود شود.
پوشه پنل مدیریت
اولین قدم محدود کردن دسترسی به مسیر های ادمین وبسایت …/wp-admin/. زیرا محتوای این پوشه برای مدیریت وبسایت است و به درد کاربر و رباتهای خزنده نمیخورد. (به عنوان نکته امینتی بدانید که بهتر است مسیر ورود ادمین را از wp-admin یا admin به چیز دیگری تغییر دهید)
برای محدود کردن این مسیرها دستورات مهم زیر را در ابتدای سند ربات قید میکنیم:
# جلوگیری از ایندکس شدن پنل مدیریت
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
صفحات ووکامرسی (سبد خرید ، تسویه حساب ، حساب کاربری ، ورود …)
برخی از صفحات فروشگاهی ووکامرسی ارزش محتوایی ندارند بنابراین ترجیح میدهیم این صحفات نیز کراول نشوند. مانند صفحه سبد خرید ، صفحه پرداخت ، صفحه حساب کردی ، صفحه ورود و عضویت.
البته به این نکته توجه کنید که اگر کسب و کار شما به گونه ای است که صفحه ورود ، حساب کاربری ، گارانتی یا هر صفحه دیگر سایتتان ، به صورت مستقیم توسط کاربران جست وجو می شود باید آن را قابل ایندکس بگذارید و دسترسی به آن را در سند ربات محدود نکنید.
# جلوگیری از ایندکس شدن صفحات بیارزش ووکامرس
Disallow: /cart/ # صفحه سبد خرید
Disallow: /checkout/ # صفحه تسویه حساب
Disallow: /my-account/ # صفحه حساب کاربری
Disallow: /wp-login.php # صفحه ورود
نکته : به طور کلی تک صفجه ها را میتوانید با استفاده از تگ noindex و nofollow نیز محدود کنید.
کوئری های سرچ شامل =? و =search
حساس ترین بخش! یکی از مهم ترین مواردی که باید با دقت آنرا انجام دهید تعیین تکلیف کوئری استرینگ (query string) ها هستند. در ابتدا باید بفهمید که در وبسایتتان URL چه صفحاتی با کوئری استرینگ ساخته شده است. اگر صفحات محصول ، خدمات ، دسته بندی های محصول ، مقالات یا هر تایپ از صفحات مهم شما با کوئری ساخته میشود باید در این قسمت با دقت عمل کنید. زیرا محدود شدن آن ها باعث میشود که صفحات مربوطه از نتایج جست و جو حذف شده و در نتیجه ترافیک سایت تان تحت تاثیر قرار بگیرد.
کم اهیمت ترین دسته از آدرس هایی که با پارامتر ساخته میشوند ، نتایج داخلی وبسایت هستند که معمولا فرمت /?s= و /search دارند. شما میتوانید با قرار دادن دستور زیر در سند ربات ، دسترسی به این آدرس ها را محدود کنید.
# جلوگیری از ایندکس شدن نتایج جستجوهای سایت
Disallow: /?s=
Disallow: /search
اگر هیچ کدام از صفحات مهم وبسایت شما با کوئری استرینگ ساخته نشده باشد میتوانید با دستور زیر تمام آدرس های شامل کوئری را محدود کنید.
# مسدود کردن تمام آدرسهایی که شامل کوئری (علامت سوال) هستند
Disallow: /*?*
قرار دادن نقشه سایت در فایل ربات
در انتهای سند ربات که محدودیت ها و دسترسی های مهم را برای ربات ها مشخص کردیم خوب است که آدرس Site map را هم برای ربات های موتور جستجو مشخص کنیم. به شکل زیر:
# مسیر نقشه سایت
Sitemap: https://example.com/sitemap_index.xml
نمونه فایل robots استاندارد و حرفه ای
در ادامه یک فایل ربات استاندارد مناسب وردپرس برایتان آورده ایم که میتوانید با خیال راحت از اون ستفاده کنید.
User-agent: *
Allow: /
# جلوگیری از ایندکس شدن پنل مدیریت
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
# جلوگیری از ایندکس شدن فایلهای اصلی وردپرس
Disallow: /wp-includes/
# جلوگیری از ایندکس شدن صفحات کم ارزش ووکامرس
Disallow: /cart/ # صفحه سبد خرید
Disallow: /checkout/ # صفحه تسویه حساب
Disallow: /my-account/ # صفحه حساب کاربری
Disallow: /wp-login.php # صفحه ورود
# جلوگیری از ایندکس شدن فیدهای سایت
Disallow: /feed/
Disallow: /trackback/
Disallow: /comments/feed/
# جلوگیری از ایندکس شدن جستجوهای سایت
Disallow: /?s=
Disallow: /search
#فایل های ضمیمه ای
Disallow: /?attachment_id=
# مسیر نقشه سایت
Sitemap: https://example.com/sitemap_index.xml
نکات تکمیلی
به عنوان نکته فنی باید بدونید سند robots.txt هیچ الزام واقعی ای برای کرولرها نیست و میتونند بهش توجهی نکنند. بعضی از ربات های خزنده حتی سراغ این سند هم نمیان.


