فایل Robots.txt چیست؟

آیا ربات‌های گوگل می‌توانند همه‌ی صفحات سایت شما را بازدید کنند؟ با ساختن فایل robots.txt می‌توانید برای سایت خود حریم مشخص کنید. این مطلب را بخوانید تا با کارکرد این فایل و اهمیتش برای سئو سایت آشنا شوید.

در هتل‌ها کارت یا نشانی وجود دارد که با آن می‌توانید به پرسنل هتل بگویید الان وارد اتاق نشوند یا امروز این اتاق را تمیز نکنند. شما با آویزان کردن آن کارت به پرسنل نشان می‌دهید که وارد این اتاق نشوید و می‌توانید به اتاق‌های دیگر بروید و مشغول تمیز کردن یا خدمات‌رسانی به اتاق‌های دیگر باشید. حال فکر کنید ربات‌های گوگل آمده‌اند و می‌خواهند سایت شما را بررسی کنند، اما شما نمی‌خواهید آن‌ها به برخی از صفحات دسترسی پیدا کنند یا برای مدتی به آن صفحه کاری نداشته باشند. فایل Robots.txt به همین منظور طراحی شده است. در مثال بالا، اتاق‌ها صفحات و سایت شما هستند، کارت لطفا مزاحم نشوید، فایل Robots.txt است و پرسنل هتل در واقع ربات‌های موتور جست‌وجو هستند. در این بخش از سایت آژانس دیجیتال مارکتینگ منتوریکس می‌خواهیم با فایل Robots.txt آشنا شویم و ببینیم این فایل چه تاثیری بر سئو سایت شما دارد. برای افزایش رتبه و بهینه سازی نرخ تبدیل وبسایت بصورت تخصصی، می توانید از خدمات سئو  و مشاوره دیجیتال مارکتینگ در منتوریکس بهره مند شوید.

فایل Robots.txt چیست؟

این فایل، یک فایل متنی با نام Robots.txt است که با آن دستوراتی برای ربات‌های Crawler موتورهای جست‌وجو تعیین می‌کنید. شما در این دستورات به ربات‌های موتورهای جست‌وجو می‌گویید کدام صفحات را crawl و ایندکس کنند و به کدام صفحات اصلا کاری نداشته باشند و آن صفحات را ذخیره و ایندکس نکنند. استفاده بهینه از این فایل، جزئی از ارکان اصلی در سئو تکنیکال می باشد.

فایل robots.txt

شاید پیش خود بگویید آیا لازم است فایل Robots.txt داشته باشیم؟ زمانی که بفهمید برخی از سایت‌هایی که به رتبه‌های بالای صفحه نتایج جست‌وجو تبلیغات در گوگل رسیدند، فایل Robots.txt داشته‌اند، جواب دادن به این سوال آسان می‎شود. البته نداشتن یک فایل ربات، بهتر از داشتن یک فایل ربات خراب است چون می‌تواند آسیب شدیدی به سئو سایت‌تان بزند و رتبه‌ی شما را در صفحه نتایج گوگل پایین بیاورد. در صورتی که با داشتن یک فایل ربات سالم و خوب و قرار دادن آن در سایت می‌توانید به بهبود رتبه سایت خود بسیار کمک کنید.

فایل Robots.txt بخشی از پروتکل ممانعت ربات‌ها (REP) است. پروتکل ممانعت از ربات‌ها یک استاندارد وب است که چگونگی خزیدن ربات‌های موتورهای جست‌وجو، دسترسی و ایندکس محتوا و در اختیار گذاشتن محتوا به کاربران را تعیین می‌کند. این پروتکل همچنین شامل راهنمایی‌هایی مانند متا ربات‌ها و همچنین دستورالعمل‌های صفحه‌های اصلی و فرعی وب برای این‌که موتورهای جست‌وجو چگونه با لینک‌ها (مانند لینک‌های فالو یا نوفالو) برخورد کنند، نیز است.

دوره دیجیتال مارکتینگ و دوره GA4 منتوریکس، قدم آخر حرفه‌ای شدن است.

در عمل، فایل Robots.txt مشخص می‌کند برخی ربات‌های موتور جست‌وجو می‌توانند یا نمی‌توانند به بخش‌هایی از سایت دسترسی پیدا کنند. همچنین با دستورهای Allow و DisAllow می‌توان مشخص کرد که همه‌ی ربات‌ها یا فقط ربات‌های خاصی، به بخش‌های مختلف سایت دسترسی داشته باشند یا دسترسی نداشته باشند.
موتور‌های جست‌وجو دو وظیفه‌ی اصلی و کلی دارند:

  1. دنیای وب را بگردند و محتواها را کشف کنند.
  2. محتواها را ایندکس کنند تا به کسانی که دنبال اطلاعات در دنیای وب هستند نشان دهند.

موتورهای جست‌وجو برای خزیدن در سایت‌ها لینک‌ها را دنبال می‌کنند و از این سایت به سایت‌های دیگر می‌روند تا میلیاردها صفحه و لینک‎‌های دیگر را کشف کنند. برخی این حرکت موتورهای جست‌وجو را به عنکبوت نسبت داده‌اند و نامش را (Spidering) گذاشته‌اند. در همین حال یک ربات کراولر موتورهای جست‌وجو، پس از ورود به سایت و قبل از Spidering، به دنبال فایل Robot.txt سایت می‌گردد. اگر ربات‌های کراولر یک فایل Robot.txt را پیدا کنند، از آن‌جا که این فایل حاوی دستورالعمل برای عملکرد ربات‌ها در سایت است، ربات شروع به خواندن فایل می‌کند، اما اگر فایل Robots.txt را پیدا نکند یا دستورالعملی در آن فایل برایش مشخص نشود، ربات شروع به خزیدن آزادانه در سایت می‌کند و اطلاعات شما را ایندکس می‌کند.

چه دانستنی‌هایی باید درباره Robots.txt بدانید؟

فایل Robots.txt باید نامش robots.txt باشد. از آن‌جا که این فایل به حروف کوچک و بزرگ حساس است نباید نام‌هایی مانند ROBOTS.txt یا robots.TXT یا نام‌های دیگر داشته باشد.

برخی از ربات‌ها شاید فایل Robots.txt شما را نادیده بگیرند. ربات‌هایی مانند ربات‌های مخرب (Malware robots) یا ربات‌های زداینده آدرس ایمیل این کار را ممکن است انجام دهند.

کاربرد فایل robots.txt

فایل Robots.txt برای مشاهده عموم آزاد است، پس برای مخفی‌کردن اطلاعات خصوصی کاربران از آن استفاده نکنید. برای این‌که فایل Robots.txt یک وب‌سایت را پیدا کنید کافی است عبارت /robots.txt را به آدرس دامنه هر وب‌سایت اضافه کنید. البته اگر آن سایت این فایل را داشته باشد!

هر زیر دامنه از دامنه‌ی اصلی باید فایل Robots.txt اختصاصی و جداگانه داشته باشند. یعنی اگر وبلاگ شما زیر دامنه سایت شما است، باید برای سایت یک فایل Robots.txt و برای وبلاگ فایل جداگانه دیگری داشته باشید.

به طور کلی بهترین مکان قرار دادن نقشه سایت (Sitemap) در انتهای فایل Robots.txt تان است.

کدهای دستوری که می‌توانید در فایل Robot.txt استفاده کنید چیست؟

به این کدهای دستوری، زبان فایل Robots.txt هم می‌گویند. به طور کلی شما 5 دستور می‌توانید در این فایل استفاده کنید.

  1. User-agent: به ربات‌های اختصاصی وب که شما به آن‌ها دستورالعمل‌های خزیدن (معمولاً موتور جستجو) می‌دهید می‌گویند.
  2. Disallow: با این دستور به ربات‌های کراولر می‌گویید اجازه خزیدن در یک Url خاص را ندارید. فقط یک دستور Disallow برای هر URL می‌تواند استفاده شود.
  3. Allow: این دستور فقط برای ربات‌های گوگل قابل اجرا است. شما با این دستور می‌توانید اجازه خزیدن به ربات‌های گوگل را در یک URL یا پوشه‌ی خاص را بدهید، حتی اگر دسترسی به Parent page یا زیرپوشه آن غیر مجاز باشد.
  4. Crawl-delay: با این دستور به ربات‌ها می‌گویید چقدر باید صبر کنند تا بتوانند سایت شما را کراول یا ایندکس کنند. این دستور برای ربات‌های گوگل ناشناخته است، اما می‌توانید از طریق گوگل سرچ کنسول، سرعت خزیدن را تنظیم کنید.
  5. نقشه سایت: این دستور توسط ربات‌های جست‌وجو گوگل، یاهو، بینگ و ASK قابل شناسایی است. نقشه سایت یا سایت مپ در واقع یک فایل XML است که محتواهای موجود در سایت شما را در خودش دارد و همه‌چیز را ثبت می‌کند، مانند یک جعبه سیاه!

زمانی که می‌خواهید یک URL را مسدود یا اجازه ورود دهید، فایل‌های Robots.txt کمی پیچیده می‌شوند چون با استفاده از تطبیق الگوها (Pattern-matching) می‌توانند طیف وسیعی از URLها را پوشش دهند.

  • گوگل و بینگ از دو نشان برای تطبیق الگوها استفاده می‌کنند. این دو نشان علامت* و $ هستند.
  • علامت* یک WILDCARD است که تمام ربات‌های موتورهای جست‌وجو را هدف قرار می‌دهد.
  • علامت $ نیز پایان یک Url را اعلام می‌کند.

فایل Robots.txt چه تاثیری در سئو دارد؟

بهینه‌سازی فایل Robots.txt بستگی به محتواهایی که در سایت شما وجود دارند، دارد. راه‌های بسیار زیادی وجود دارد تا از این فایل سود مفید ببرید. برای مثال مبارزه با محتوای تکراری یا Duplacate content یا صفحاتی که ارزش ایندکس شدن ندارند.
شما به راحتی می‌توانید یکی از صفحات محتوای تکراری خود را در فایل Robots.txt خود Disallow کنید تا ربات‌های کراولر آن‌ها را ایندکس نکنند. البته راه‌های دیگری برای مبارزه با محتوای تکراری وجود دارد که می‌توانید از آن‌ها هم استفاده کنید.
مثال دیگر برای لینک‌هایی است که می‌خواهیم ایندکس نشوند. برای مثال در یک سایت وردپرسی، با هر بار جست‌وجوی کاربر یک ?s=/ به اخر URL اضافه می‌شود.
https://example.com/product-category/display/accessory/page/5/?s=
این صفحه هیچ ارزشی برای ایندکس ندارد و گاهی ممکن است باعث محتوای تکراری هم شود. همان‌طور که در بالا گفته شد می‌شود صفحه نتایج جست‌وجو داخلی سایت را از ایندکس شدن و نمایش در صفحه نتایج جست‌وجو موتورهای جست‌وجو مانند گوگل را به وسیله فایل Robots.txt مسدود کرد. در این مثال به راحتی می‌توان این‌کار را انجام داد تا مشکل حل شود.
برخی از موتورهای جست‌وجو مانند گوگل ربات‌های خاص برای خود داند. گوگل ربات‌هایی دارد که عکس را جست‌وجو می‌کنند و ربات‌هایی نیز دارند که به سراغ محتواها می‌روند. نیازی نیست برای این دو ربات جداگانه دستورالعمل مشخص کنیم، اما دادن دستورالعمل می‌تواند، نحوه‌ی خزیدن این ربات‌ها در سایت شما را تنظیم و کنترل کند.

چرا به فایل Robots.txt نیاز دارید؟

فایل Robots.txt دسترسی ربات‌ها را به برخی از قسمت‌های سایت شما را قطع می‌کند. داشتن فایل Robots.txt اگر در یک اشتباه خطرناک تمام سایت خود را برای ربات‌های موتورهای جست‌وجو ممنوع نکنید، می‌تواند در مواردی مفید باشد.
برخی از موارد استفاده متداول از فایل Robots.txt شامل موارد زیر می‌شود:

  1. جلوگیری از نمایش محتوای تکراری در صفحه نتایج جست‌وجو (SERP) (توجه داشته باشید که متا روبات‌ها اغلب انتخاب بهتری برای این کار هستند)
  2. خصوصی نگه‌داشتن بخش‌های کاملی از یک سایت (به عنوان مثال، پنل اصلی مدیریت، سایت اصلی تیم مهندسی شما و…)
  3. نگه داشتن صفحه نتایج جست‌وجو داخلی سایت و جلوگیری از نشان دادن آن‌ها در صفحه نتایج جست‌وجو عمومی موتورهای جست‌وجو
  4. مشخص کردن نقشه‌سایت
  5. جلوگیری از ایندکس شدن فایل‌های خاص در سایت از موتورهای جستجو (تصاویر، PDF و غیره)
  6. تعیین تأخیر خزیدن به منظور جلوگیری از بارگیری بیش از حد سرورهای سایت، زمانی‌که ربات‌های خزنده در یک زمان چندین URL را بارگیری (Load) می‌کنند.

اگر در سایت شما بخش یا قسمت‌های خاصی وجود ندارد که ربات‌ها را از دسترسی به آن قسمت‌ها منع کنید، شاید اصلا نیازی به فایل Robots.txt نداشته باشید.

چگونه فایل Robots.txt بسازیم؟

بسیار ساده با استفاده از برنامه Notepad هم می‌توانید یک فایل ربات بسازید، اما دستورات و خط مشی که برای ربات‌های موتورهای جست‌و‌جو مشخص می‌کنید بسیار مهم است. فرمت فایل Robots.txt شما باید ASCII یا UTF-8 باشد و مستقیم در دایرکتوری ادمین هاست شما اپلود شود.

فایل robots.txt سایت منتوریکس

فایل robots.txt سایت منتوریکس به این شکل نوشته شده است.

آدرسی که باید فایل Robots.txt در آن قرار گیرد به شکل زیر است:
https://example.com/robots.txt
یادتان باشد که تمام حروف نوشته شده در آدرس باید کوچک باشند چون Url ها به حروف بزرگ و کوچک حساس هستند برای مثال دو آدرس زیر با هم متفاوت هستند:
https://example.com/robots.txt
https://example.com/Robots.txt
ربات‌های موتورهای جست‌وجو زبان خاصی را پیروی می‌کنند و فقط دستورات Disallow و Allow را قبول دارند و می‌دانند. البته می‌توانیم برای‌شان با دستور Crawl-delay، گشتن و کراول کردن آن‌ها را برای صفحه‌ای خاص به تاخیر بیاندازیم. سایت مپ، سایت شما نیز در دستورات فایل Robot.txt قرار می‌گیرد که به ربات‌های موتورهای جست‌وجو می‌گوید فایل XML نقشه سایت کجاست. پس برای این‌که به آن‌ها بگویید صفحه‌ای را ایندکس نکنند باید از دستور Disallow و برای این‌که بگویید بعدا این صفحه را کراول کنند از دستور Crawl-delay باید استفاده کنید.
باید بدانید که موتورهای جست‌وجو ربات‌های متفاوتی دارند به همین دلیل با کد User Agent و نام ربات مورد نظر، می‌توانیم ربات خاصی را مشخص کنیم. البته می‌توانیم تمامی ربات‌های موتورهای جست‌وجوی مختلف را هدف قرار دهیم و به اصطلاح از Wild card استفاده کنیم.
در نهایت برای نوشتن دستورات در فایل Robots.txt خود باید به صورت زیر عمل کنید:

  1. عدم دسترسی موتورهای جست‌وجو به سایت
    User-agent:*
    Disallow: /
  2. عدم دسترسی به یک پوشه خاص برای تمام موتورهای جست‌وجو
    User-agent:*
    Disallow: /folder/
  3. عدم دسترسی به یک فایل خاص برای تمام موتورهای جست‌وجو
    User-agent:*
    Disallow: /file.html

جمع‌بندی

در نهایت، با داشتن یک فایل Robots.txt خوب و اپلود آن در دایرکتوری هاست‌تان ربات‌های موتورهای جست‌وجوگر را تحت فرمان خود درمی‌آورید و محدودیت‌هایی برای آن‌ها مشخص می‌کنید تا از ضربه خوردن سایت‌تان از نظر سئو، با یک ایندکس اشتباه جلوگیری کنید.

مقالات آموزشی سئو تکنیکال را به ترتیب زیر بخوانید:

  1. سایت مپ چیست
  2. robot.txt چیست
  3. ریدایرکت لینک ها و انواع ریدایرکت ها
  4. اسکیما چیست و انواع ریچ اسنیپت ها
  5. تگ hreflang
  6. محتوای duplicate
  7. مفاهیم درک تصاویر و ویدیو توسط موتور جستجو
  8. AMP چیست؟
  9. سرعت سایت
  10. سئو جاوا اسکریپت

ترتیب مقالات بالا برای تمرکز بیشتر بر روی آموزش و یادگیری مسائل مربوط به سئو است و با دنبال کردن مرتب آن می توانید به یک کارشناس ماهر تبدیل شوید.

اشتراک گذاری

نظرات و سوالات شما

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *