فایل robots.txt چیست و چه تأثیری بر سئو دارد؟

فایل robots.txt

تمامی موتورهای جستجو برای دسترسی به بخش های مختلف یک سایت از ربات ها و یا خزنده های (web crawler) گسترده ای استفاده می کنند تا تمامی بخش ها و فایل های آن را کراول کرده و به کاربران خود نمایش دهند. اما آیا راهی وجود دارد که دسترسی این ربات ها را بتوان برای برخی صفحات و فایل های دلخواه و غیر ضروری محدود و یا کنترل کرد؟ بله، با فایل robots.txt.

یک فایل robots.txt شامل یکسری دستورات برای موتورهای جستجو مانند گوگل، بینگ و یاهو و… است که با استفاده از آن می ‌توانید تعیین کنید که کراولرهای آن ها (خزنده/ عنکبوت/ ربات) اجازه خزش یا کراول کردن کدام بخش از یک سایت را دارند. ایجاد و تعریف این فایل نقش مؤثری در بهینه سازی یک سایت برای موتور جستجو و سئو تکنیکال سایت دارد.

تعریف ارائه شده یک شمای کلی از این فایل است، بیایید بر روی آن دقیق تر شویم و مشخصات دقیق تر آن را بررسی کنیم.

فایل robots.txt چیست؟

فایل robots.txt یک فایل متنی است در روت دایرکتوری سایت شما قرار می گیرد و قوانین تعامل وب سایت شما با موتورهای جستجو را تعیین می کند. یعنی زمانی که این فایل را در روت اصلی هاست خود تعریف می کنید به موتور جستجو اعلام می کنید که اجازه و یا عدم اجازه بررسی و خزش کدام بخش ها و لینک ها را دارد. این فایل جزو ابتدایی ترین بخش های یک سایت است که کراول می شود.

اگر این فایل وجود نداشته باشد ربات ها کل یک وبسایت حتی بخش های غیر ضروری و غیر مهم را می خزند. باید توجه کنید که اگر چه ایجاد این فایل مجموعه ای از دستوالعمل ها است که نحوه خزش ربات ها در سایت ما را مشخص می کند اما یک تصمیم اختیاری برای این ربات ها است تا یک دستور.

عملکرد فایل robots.txt

ایجاد فایل robots.txt در اکثر مواقع ضرورتی ندارد به خصوص اگر وب سایت شما کوچک باشد. اما در برخی موارد شما با تعریف آن می توانید سیگنال مهمی به موتور جستجو برای داشتن بهینه سازی بهتر و سئو موفق ارسال کنید. چند دلیل اصلی ایجاد و چگونگی عملکرد و ساز و کار این فایل در سایت شما عبارتند از:

  • مسدود کردن صفحات غیر عمومی

از robots.txt برای مسدود کردن آدرس برخی از صفحات که ترجیح می دهید خزنده‌ ها و ربات‌ های موتور جستجو آن را کراول نکنند، استفاده می شود. گاهی برخی صفحات نیاز به بررسی و ایندکس ندارند مانند صفحات پرداخت.

  • استفاده حداکثری از ظرفیت کراولینگ

شاید براییتان پیش آمده است که با مشکل ایندکس شدن برخی صفحات خود روبرو شدید، این می تواند ناشی از کمبود و محدودیت کراولر ها باشد. زیرا بودجه محدودی برای کراولینگ یک وب سایت از طرف googlebot صرف می شود. بنابراین با مسدود کردن برخی صفحات از این ظرفیت بات ها برای ایندکس صفحات مهم استفاده می شود.

  • مسدود کردن فایل ها

فایل‌های PDF و تصاویر که با دستورالعمل های متا به خوبی مسدود نمی شوند با استفاده از robots.txt به خوبی مسدود و غیر قابل نمایش می شوند.

ساختار فایل robots.txt

برای دیدن آدرس فایل سایت خود از طریق این لینک اقدام کنید:

www.yoursite.com/robots.txt

این فایل یک سند متنی ساده است که محتویات آن می تواند به شکل زیر باشد:

User-agent: *

Disallow: /admin/

User-agent: *

Disallow: /logs/

بخش های مختلف این فایل عبارتند از:

User-agent

این فایل می تواند از چند گروه تشکیل شده باشد که هر گروه با یک آغاز می شود. این بخش مشخص می کند که این بخش از این دستورالعمل برای کدام یک از عامل کاربری تعریف شده است. به عنوان مثال user-agent برای تمامی موتورهای جستجو “*” است مانند مثال بالا و برای ربات های گوگل Googlebot، ربات های یاهو Slurp و ربات Bing به عنوان BingBot و… است.

یعنی اگر بخواهیم تنها ربات های گوگل را مسدود کنیم به این صورت باید نوشته شود:

User-agent: googlebot

Disallow: /admin/

Disallow

در خط های بعد نشان دهنده غیر مجاز بودن دسترسی برای آن ربات ها است. و هر چه که بین دو  علامت “/ بیاید مسیری است که برای user-agent غیر قابل دسترسی است.

توجه کنید که اگر بعداز علامت مورب / هیچ چیزی قرار ندهید کل سایت از دسترس موتور جستجو خارج می شود.

Allow

گاهی نیز برای اجازه دسترسی به بات های گوگل (دقت کنید تنها به Googlebot) اعلام می کند حتی اگر صفحه اصلی یا زیر پوشه ها مجاز باشد به یک صفحه خاص می تواند دسترسی داشته باشد.

sitemap

به طور خودکار در هر سایتی موتورهای جستجو به دنبال فایل خاصی به نام sitemaps.xml می گردند که همانگونه که پیداست نقشه سایت است. زمانی که این فایل برروی سایت شما تعریف می شود دسترسی موتورهای جستجو به صفحات سایت خود را آسان می کنید. با اضافه کردن آن به فایل robots.txt یک فراخوان برای پیداکردن و کراولینگ راحت تر به موتور جستجو می دهید.

ارجاع به sitemaps.XML در فایل robots.txt یکی از بهترین روش هایی است که به شما توصیه می کنیم همیشه انجام دهید، حتی اگر قبلاً نقشه سایت XML خود را در  سرچ کنسول گوگل و یا وب مستر تولز بینگ ارسال کرده باشید.

توجه داشته باشید که می توان به چندین نقشه سایت XML در یک فایل robots.txt اشاره کرد.

نحوه ایجاد فایل robot.txt

همانگونه که اشاره شد این فایل یک متن ساده است که در نوت پد آن را می توانید بنویسید و سپس بخش های مختلف مانند ادمین و مدیریت سایت، سیستم مدیریت محتوا و هر بخشی که نیاز به ایندکس و خزش ندارد را  غیر قابل دسترسی کنید. اطمینان حاصل کنید که این فایل به صورت یک سند متنی ساده ذخیره شده باشد و نام آنrobots.txt  باشد و در ریشه اصلی وب سایت با آدرس www.yoursite.com/robots.txt ذخیره شود.

به راحتی می توانید فایل خود را با ابزار های تست https://technicalseo.com/tools/robots-txt/ امتحان کنید تا عملکرد آن را بسنجید تا بدون خطا اجرا شود. این فایل به حروف بزرگ و کوچک حساس است.

چند نکته فایل robots.txt در سئو

ابتدا باید توجه کنید هیچ بخشی از صفحاتی که برای شما مهم هستند و قصد د ارید ایندکس شوند در داخل این فایل مسدود نشده باشند.

لینک هایی که در صفحات مسدود شده این فایل قرار گرفته اند توسط ربات ها دنبال و بررسی نمی شوند بنابراین امکان ایندکس نشدنشان وجود دارد. بنابراین اعتبار لینک را نمی توان از صفحه مسدود شده به صفحاتی که لینک شده اند ایجاد کرد.

برخی از موتورهای جتسجو از چندین نوع ربات و agent user استفاده می کنند به عنوان مثال گوگل بات و گوگل ایمیج برای کروال استفاده می کنند اما نیاز نیست هر دوی آن را ایجاد کنید. تنها برای مدیریت بهتر صفحات خود می توانید استفاده کنید.

هنگام ایجاد تغییرات  و تدوین این فایل robots.txt دقت کنید زیرا پتانسیل این را دارد که صفحاتی از وب ‌سایت شما را برای موتورهای جستجو غیرقابل دسترس کند.

فایل robots.txt فقط برای دامنه کامل مانند پروتکل http یا https معتبر است.

فکر می کنید چه نکات دیگری در مورد این فایل وجود دارد که ناگفته مانده است؟ برایمان بنویسید.

شرکت فامین ادز ارائه دهنده خدمات تخصصی سئو سایت با تیمی مجرب و حرفه ای است. برای کسب اطلاعات بیشتر و مشاوره رایگان و همچنین سفارش سئو با بخش کارشناسان مجموعه در تماس باشید.

No comment

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *