تمامی موتورهای جستجو برای دسترسی به بخش های مختلف یک سایت از ربات ها و یا خزنده های (web crawler) گسترده ای استفاده می کنند تا تمامی بخش ها و فایل های آن را کراول کرده و به کاربران خود نمایش دهند. اما آیا راهی وجود دارد که دسترسی این ربات ها را بتوان برای برخی صفحات و فایل های دلخواه و غیر ضروری محدود و یا کنترل کرد؟ بله، با فایل robots.txt.
یک فایل robots.txt شامل یکسری دستورات برای موتورهای جستجو مانند گوگل، بینگ و یاهو و… است که با استفاده از آن می توانید تعیین کنید که کراولرهای آن ها (خزنده/ عنکبوت/ ربات) اجازه خزش یا کراول کردن کدام بخش از یک سایت را دارند. ایجاد و تعریف این فایل نقش مؤثری در بهینه سازی یک سایت برای موتور جستجو و سئو تکنیکال سایت دارد.
تعریف ارائه شده یک شمای کلی از این فایل است، بیایید بر روی آن دقیق تر شویم و مشخصات دقیق تر آن را بررسی کنیم.
فایل robots.txt چیست؟
فایل robots.txt یک فایل متنی است در روت دایرکتوری سایت شما قرار می گیرد و قوانین تعامل وب سایت شما با موتورهای جستجو را تعیین می کند. یعنی زمانی که این فایل را در روت اصلی هاست خود تعریف می کنید به موتور جستجو اعلام می کنید که اجازه و یا عدم اجازه بررسی و خزش کدام بخش ها و لینک ها را دارد. این فایل جزو ابتدایی ترین بخش های یک سایت است که کراول می شود.
اگر این فایل وجود نداشته باشد ربات ها کل یک وبسایت حتی بخش های غیر ضروری و غیر مهم را می خزند. باید توجه کنید که اگر چه ایجاد این فایل مجموعه ای از دستوالعمل ها است که نحوه خزش ربات ها در سایت ما را مشخص می کند اما یک تصمیم اختیاری برای این ربات ها است تا یک دستور.
عملکرد فایل robots.txt
ایجاد فایل robots.txt در اکثر مواقع ضرورتی ندارد به خصوص اگر وب سایت شما کوچک باشد. اما در برخی موارد شما با تعریف آن می توانید سیگنال مهمی به موتور جستجو برای داشتن بهینه سازی بهتر و سئو موفق ارسال کنید. چند دلیل اصلی ایجاد و چگونگی عملکرد و ساز و کار این فایل در سایت شما عبارتند از:
-
مسدود کردن صفحات غیر عمومی
از robots.txt برای مسدود کردن آدرس برخی از صفحات که ترجیح می دهید خزنده ها و ربات های موتور جستجو آن را کراول نکنند، استفاده می شود. گاهی برخی صفحات نیاز به بررسی و ایندکس ندارند مانند صفحات پرداخت.
-
استفاده حداکثری از ظرفیت کراولینگ
شاید براییتان پیش آمده است که با مشکل ایندکس شدن برخی صفحات خود روبرو شدید، این می تواند ناشی از کمبود و محدودیت کراولر ها باشد. زیرا بودجه محدودی برای کراولینگ یک وب سایت از طرف googlebot صرف می شود. بنابراین با مسدود کردن برخی صفحات از این ظرفیت بات ها برای ایندکس صفحات مهم استفاده می شود.
-
مسدود کردن فایل ها
فایلهای PDF و تصاویر که با دستورالعمل های متا به خوبی مسدود نمی شوند با استفاده از robots.txt به خوبی مسدود و غیر قابل نمایش می شوند.
ساختار فایل robots.txt
برای دیدن آدرس فایل سایت خود از طریق این لینک اقدام کنید:
www.yoursite.com/robots.txt
این فایل یک سند متنی ساده است که محتویات آن می تواند به شکل زیر باشد:
User-agent: *
Disallow: /admin/
User-agent: *
Disallow: /logs/
بخش های مختلف این فایل عبارتند از:
User-agent
این فایل می تواند از چند گروه تشکیل شده باشد که هر گروه با یک آغاز می شود. این بخش مشخص می کند که این بخش از این دستورالعمل برای کدام یک از عامل کاربری تعریف شده است. به عنوان مثال user-agent برای تمامی موتورهای جستجو “*” است مانند مثال بالا و برای ربات های گوگل Googlebot، ربات های یاهو Slurp و ربات Bing به عنوان BingBot و… است.
یعنی اگر بخواهیم تنها ربات های گوگل را مسدود کنیم به این صورت باید نوشته شود:
User-agent: googlebot
Disallow: /admin/
Disallow
در خط های بعد نشان دهنده غیر مجاز بودن دسترسی برای آن ربات ها است. و هر چه که بین دو علامت “/“ بیاید مسیری است که برای user-agent غیر قابل دسترسی است.
توجه کنید که اگر بعداز علامت مورب / هیچ چیزی قرار ندهید کل سایت از دسترس موتور جستجو خارج می شود.
Allow
گاهی نیز برای اجازه دسترسی به بات های گوگل (دقت کنید تنها به Googlebot) اعلام می کند حتی اگر صفحه اصلی یا زیر پوشه ها مجاز باشد به یک صفحه خاص می تواند دسترسی داشته باشد.
sitemap
به طور خودکار در هر سایتی موتورهای جستجو به دنبال فایل خاصی به نام sitemaps.xml می گردند که همانگونه که پیداست نقشه سایت است. زمانی که این فایل برروی سایت شما تعریف می شود دسترسی موتورهای جستجو به صفحات سایت خود را آسان می کنید. با اضافه کردن آن به فایل robots.txt یک فراخوان برای پیداکردن و کراولینگ راحت تر به موتور جستجو می دهید.
ارجاع به sitemaps.XML در فایل robots.txt یکی از بهترین روش هایی است که به شما توصیه می کنیم همیشه انجام دهید، حتی اگر قبلاً نقشه سایت XML خود را در سرچ کنسول گوگل و یا وب مستر تولز بینگ ارسال کرده باشید.
توجه داشته باشید که می توان به چندین نقشه سایت XML در یک فایل robots.txt اشاره کرد.
نحوه ایجاد فایل robot.txt
همانگونه که اشاره شد این فایل یک متن ساده است که در نوت پد آن را می توانید بنویسید و سپس بخش های مختلف مانند ادمین و مدیریت سایت، سیستم مدیریت محتوا و هر بخشی که نیاز به ایندکس و خزش ندارد را غیر قابل دسترسی کنید. اطمینان حاصل کنید که این فایل به صورت یک سند متنی ساده ذخیره شده باشد و نام آنrobots.txt باشد و در ریشه اصلی وب سایت با آدرس www.yoursite.com/robots.txt ذخیره شود.
به راحتی می توانید فایل خود را با ابزار های تست https://technicalseo.com/tools/robots-txt/ امتحان کنید تا عملکرد آن را بسنجید تا بدون خطا اجرا شود. این فایل به حروف بزرگ و کوچک حساس است.
چند نکته فایل robots.txt در سئو
ابتدا باید توجه کنید هیچ بخشی از صفحاتی که برای شما مهم هستند و قصد د ارید ایندکس شوند در داخل این فایل مسدود نشده باشند.
لینک هایی که در صفحات مسدود شده این فایل قرار گرفته اند توسط ربات ها دنبال و بررسی نمی شوند بنابراین امکان ایندکس نشدنشان وجود دارد. بنابراین اعتبار لینک را نمی توان از صفحه مسدود شده به صفحاتی که لینک شده اند ایجاد کرد.
برخی از موتورهای جتسجو از چندین نوع ربات و agent user استفاده می کنند به عنوان مثال گوگل بات و گوگل ایمیج برای کروال استفاده می کنند اما نیاز نیست هر دوی آن را ایجاد کنید. تنها برای مدیریت بهتر صفحات خود می توانید استفاده کنید.
هنگام ایجاد تغییرات و تدوین این فایل robots.txt دقت کنید زیرا پتانسیل این را دارد که صفحاتی از وب سایت شما را برای موتورهای جستجو غیرقابل دسترس کند.
فایل robots.txt فقط برای دامنه کامل مانند پروتکل http یا https معتبر است.
فکر می کنید چه نکات دیگری در مورد این فایل وجود دارد که ناگفته مانده است؟ برایمان بنویسید.
شرکت فامین ادز ارائه دهنده خدمات تخصصی سئو سایت با تیمی مجرب و حرفه ای است. برای کسب اطلاعات بیشتر و مشاوره رایگان و همچنین سفارش سئو با بخش کارشناسان مجموعه در تماس باشید.
No comment