در هتلها کارت یا نشانی وجود دارد که با آن میتوانید به پرسنل هتل بگویید الان وارد اتاق نشوند یا امروز این اتاق را تمیز نکنند. شما با آویزان کردن آن کارت به پرسنل نشان میدهید که وارد این اتاق نشوید و میتوانید به اتاقهای دیگر بروید و مشغول تمیز کردن یا خدماترسانی به اتاقهای دیگر باشید. حال فکر کنید رباتهای گوگل آمدهاند و میخواهند سایت شما را بررسی کنند، اما شما نمیخواهید آنها به برخی از صفحات دسترسی پیدا کنند یا برای مدتی به آن صفحه کاری نداشته باشند. فایل Robots.txt به همین منظور طراحی شده است. در مثال بالا، اتاقها صفحات و سایت شما هستند، کارت لطفا مزاحم نشوید، فایل Robots.txt است و پرسنل هتل در واقع رباتهای موتور جستوجو هستند. در این بخش از سایت آژانس دیجیتال مارکتینگ منتوریکس میخواهیم با فایل Robots.txt آشنا شویم و ببینیم این فایل چه تاثیری بر سئو سایت شما دارد. برای افزایش رتبه و بهینه سازی نرخ تبدیل وبسایت بصورت تخصصی، می توانید از خدمات سئو و مشاوره دیجیتال مارکتینگ در منتوریکس بهره مند شوید.
فایل Robots.txt چیست؟
این فایل، یک فایل متنی با نام Robots.txt است که با آن دستوراتی برای رباتهای Crawler موتورهای جستوجو تعیین میکنید. شما در این دستورات به رباتهای موتورهای جستوجو میگویید کدام صفحات را crawl و ایندکس کنند و به کدام صفحات اصلا کاری نداشته باشند و آن صفحات را ذخیره و ایندکس نکنند. استفاده بهینه از این فایل، جزئی از ارکان اصلی در سئو تکنیکال می باشد.
شاید پیش خود بگویید آیا لازم است فایل Robots.txt داشته باشیم؟ زمانی که بفهمید برخی از سایتهایی که به رتبههای بالای صفحه نتایج جستوجو تبلیغات در گوگل رسیدند، فایل Robots.txt داشتهاند، جواب دادن به این سوال آسان میشود. البته نداشتن یک فایل ربات، بهتر از داشتن یک فایل ربات خراب است چون میتواند آسیب شدیدی به سئو سایتتان بزند و رتبهی شما را در صفحه نتایج گوگل پایین بیاورد. در صورتی که با داشتن یک فایل ربات سالم و خوب و قرار دادن آن در سایت میتوانید به بهبود رتبه سایت خود بسیار کمک کنید.
فایل Robots.txt بخشی از پروتکل ممانعت رباتها (REP) است. پروتکل ممانعت از رباتها یک استاندارد وب است که چگونگی خزیدن رباتهای موتورهای جستوجو، دسترسی و ایندکس محتوا و در اختیار گذاشتن محتوا به کاربران را تعیین میکند. این پروتکل همچنین شامل راهنماییهایی مانند متا رباتها و همچنین دستورالعملهای صفحههای اصلی و فرعی وب برای اینکه موتورهای جستوجو چگونه با لینکها (مانند لینکهای فالو یا نوفالو) برخورد کنند، نیز است.
دوره دیجیتال مارکتینگ و دوره GA4 منتوریکس، قدم آخر حرفهای شدن است.
در عمل، فایل Robots.txt مشخص میکند برخی رباتهای موتور جستوجو میتوانند یا نمیتوانند به بخشهایی از سایت دسترسی پیدا کنند. همچنین با دستورهای Allow و DisAllow میتوان مشخص کرد که همهی رباتها یا فقط رباتهای خاصی، به بخشهای مختلف سایت دسترسی داشته باشند یا دسترسی نداشته باشند.
موتورهای جستوجو دو وظیفهی اصلی و کلی دارند:
- دنیای وب را بگردند و محتواها را کشف کنند.
- محتواها را ایندکس کنند تا به کسانی که دنبال اطلاعات در دنیای وب هستند نشان دهند.
موتورهای جستوجو برای خزیدن در سایتها لینکها را دنبال میکنند و از این سایت به سایتهای دیگر میروند تا میلیاردها صفحه و لینکهای دیگر را کشف کنند. برخی این حرکت موتورهای جستوجو را به عنکبوت نسبت دادهاند و نامش را (Spidering) گذاشتهاند. در همین حال یک ربات کراولر موتورهای جستوجو، پس از ورود به سایت و قبل از Spidering، به دنبال فایل Robot.txt سایت میگردد. اگر رباتهای کراولر یک فایل Robot.txt را پیدا کنند، از آنجا که این فایل حاوی دستورالعمل برای عملکرد رباتها در سایت است، ربات شروع به خواندن فایل میکند، اما اگر فایل Robots.txt را پیدا نکند یا دستورالعملی در آن فایل برایش مشخص نشود، ربات شروع به خزیدن آزادانه در سایت میکند و اطلاعات شما را ایندکس میکند.
چه دانستنیهایی باید درباره Robots.txt بدانید؟
فایل Robots.txt باید نامش robots.txt باشد. از آنجا که این فایل به حروف کوچک و بزرگ حساس است نباید نامهایی مانند ROBOTS.txt یا robots.TXT یا نامهای دیگر داشته باشد.
برخی از رباتها شاید فایل Robots.txt شما را نادیده بگیرند. رباتهایی مانند رباتهای مخرب (Malware robots) یا رباتهای زداینده آدرس ایمیل این کار را ممکن است انجام دهند.
فایل Robots.txt برای مشاهده عموم آزاد است، پس برای مخفیکردن اطلاعات خصوصی کاربران از آن استفاده نکنید. برای اینکه فایل Robots.txt یک وبسایت را پیدا کنید کافی است عبارت /robots.txt را به آدرس دامنه هر وبسایت اضافه کنید. البته اگر آن سایت این فایل را داشته باشد!
هر زیر دامنه از دامنهی اصلی باید فایل Robots.txt اختصاصی و جداگانه داشته باشند. یعنی اگر وبلاگ شما زیر دامنه سایت شما است، باید برای سایت یک فایل Robots.txt و برای وبلاگ فایل جداگانه دیگری داشته باشید.
به طور کلی بهترین مکان قرار دادن نقشه سایت (Sitemap) در انتهای فایل Robots.txt تان است.
کدهای دستوری که میتوانید در فایل Robot.txt استفاده کنید چیست؟
به این کدهای دستوری، زبان فایل Robots.txt هم میگویند. به طور کلی شما 5 دستور میتوانید در این فایل استفاده کنید.
- User-agent: به رباتهای اختصاصی وب که شما به آنها دستورالعملهای خزیدن (معمولاً موتور جستجو) میدهید میگویند.
- Disallow: با این دستور به رباتهای کراولر میگویید اجازه خزیدن در یک Url خاص را ندارید. فقط یک دستور Disallow برای هر URL میتواند استفاده شود.
- Allow: این دستور فقط برای رباتهای گوگل قابل اجرا است. شما با این دستور میتوانید اجازه خزیدن به رباتهای گوگل را در یک URL یا پوشهی خاص را بدهید، حتی اگر دسترسی به Parent page یا زیرپوشه آن غیر مجاز باشد.
- Crawl-delay: با این دستور به رباتها میگویید چقدر باید صبر کنند تا بتوانند سایت شما را کراول یا ایندکس کنند. این دستور برای رباتهای گوگل ناشناخته است، اما میتوانید از طریق گوگل سرچ کنسول، سرعت خزیدن را تنظیم کنید.
- نقشه سایت: این دستور توسط رباتهای جستوجو گوگل، یاهو، بینگ و ASK قابل شناسایی است. نقشه سایت یا سایت مپ در واقع یک فایل XML است که محتواهای موجود در سایت شما را در خودش دارد و همهچیز را ثبت میکند، مانند یک جعبه سیاه!
زمانی که میخواهید یک URL را مسدود یا اجازه ورود دهید، فایلهای Robots.txt کمی پیچیده میشوند چون با استفاده از تطبیق الگوها (Pattern-matching) میتوانند طیف وسیعی از URLها را پوشش دهند.
- گوگل و بینگ از دو نشان برای تطبیق الگوها استفاده میکنند. این دو نشان علامت* و $ هستند.
- علامت* یک WILDCARD است که تمام رباتهای موتورهای جستوجو را هدف قرار میدهد.
- علامت $ نیز پایان یک Url را اعلام میکند.
فایل Robots.txt چه تاثیری در سئو دارد؟
بهینهسازی فایل Robots.txt بستگی به محتواهایی که در سایت شما وجود دارند، دارد. راههای بسیار زیادی وجود دارد تا از این فایل سود مفید ببرید. برای مثال مبارزه با محتوای تکراری یا Duplacate content یا صفحاتی که ارزش ایندکس شدن ندارند.
شما به راحتی میتوانید یکی از صفحات محتوای تکراری خود را در فایل Robots.txt خود Disallow کنید تا رباتهای کراولر آنها را ایندکس نکنند. البته راههای دیگری برای مبارزه با محتوای تکراری وجود دارد که میتوانید از آنها هم استفاده کنید.
مثال دیگر برای لینکهایی است که میخواهیم ایندکس نشوند. برای مثال در یک سایت وردپرسی، با هر بار جستوجوی کاربر یک ?s=/ به اخر URL اضافه میشود.
https://example.com/product-category/display/accessory/page/5/?s=
این صفحه هیچ ارزشی برای ایندکس ندارد و گاهی ممکن است باعث محتوای تکراری هم شود. همانطور که در بالا گفته شد میشود صفحه نتایج جستوجو داخلی سایت را از ایندکس شدن و نمایش در صفحه نتایج جستوجو موتورهای جستوجو مانند گوگل را به وسیله فایل Robots.txt مسدود کرد. در این مثال به راحتی میتوان اینکار را انجام داد تا مشکل حل شود.
برخی از موتورهای جستوجو مانند گوگل رباتهای خاص برای خود داند. گوگل رباتهایی دارد که عکس را جستوجو میکنند و رباتهایی نیز دارند که به سراغ محتواها میروند. نیازی نیست برای این دو ربات جداگانه دستورالعمل مشخص کنیم، اما دادن دستورالعمل میتواند، نحوهی خزیدن این رباتها در سایت شما را تنظیم و کنترل کند.
چرا به فایل Robots.txt نیاز دارید؟
فایل Robots.txt دسترسی رباتها را به برخی از قسمتهای سایت شما را قطع میکند. داشتن فایل Robots.txt اگر در یک اشتباه خطرناک تمام سایت خود را برای رباتهای موتورهای جستوجو ممنوع نکنید، میتواند در مواردی مفید باشد.
برخی از موارد استفاده متداول از فایل Robots.txt شامل موارد زیر میشود:
- جلوگیری از نمایش محتوای تکراری در صفحه نتایج جستوجو (SERP) (توجه داشته باشید که متا روباتها اغلب انتخاب بهتری برای این کار هستند)
- خصوصی نگهداشتن بخشهای کاملی از یک سایت (به عنوان مثال، پنل اصلی مدیریت، سایت اصلی تیم مهندسی شما و…)
- نگه داشتن صفحه نتایج جستوجو داخلی سایت و جلوگیری از نشان دادن آنها در صفحه نتایج جستوجو عمومی موتورهای جستوجو
- مشخص کردن نقشهسایت
- جلوگیری از ایندکس شدن فایلهای خاص در سایت از موتورهای جستجو (تصاویر، PDF و غیره)
- تعیین تأخیر خزیدن به منظور جلوگیری از بارگیری بیش از حد سرورهای سایت، زمانیکه رباتهای خزنده در یک زمان چندین URL را بارگیری (Load) میکنند.
اگر در سایت شما بخش یا قسمتهای خاصی وجود ندارد که رباتها را از دسترسی به آن قسمتها منع کنید، شاید اصلا نیازی به فایل Robots.txt نداشته باشید.
چگونه فایل Robots.txt بسازیم؟
بسیار ساده با استفاده از برنامه Notepad هم میتوانید یک فایل ربات بسازید، اما دستورات و خط مشی که برای رباتهای موتورهای جستوجو مشخص میکنید بسیار مهم است. فرمت فایل Robots.txt شما باید ASCII یا UTF-8 باشد و مستقیم در دایرکتوری ادمین هاست شما اپلود شود.
فایل robots.txt سایت منتوریکس به این شکل نوشته شده است.
آدرسی که باید فایل Robots.txt در آن قرار گیرد به شکل زیر است:
https://example.com/robots.txt
یادتان باشد که تمام حروف نوشته شده در آدرس باید کوچک باشند چون Url ها به حروف بزرگ و کوچک حساس هستند برای مثال دو آدرس زیر با هم متفاوت هستند:
https://example.com/robots.txt
https://example.com/Robots.txt
رباتهای موتورهای جستوجو زبان خاصی را پیروی میکنند و فقط دستورات Disallow و Allow را قبول دارند و میدانند. البته میتوانیم برایشان با دستور Crawl-delay، گشتن و کراول کردن آنها را برای صفحهای خاص به تاخیر بیاندازیم. سایت مپ، سایت شما نیز در دستورات فایل Robot.txt قرار میگیرد که به رباتهای موتورهای جستوجو میگوید فایل XML نقشه سایت کجاست. پس برای اینکه به آنها بگویید صفحهای را ایندکس نکنند باید از دستور Disallow و برای اینکه بگویید بعدا این صفحه را کراول کنند از دستور Crawl-delay باید استفاده کنید.
باید بدانید که موتورهای جستوجو رباتهای متفاوتی دارند به همین دلیل با کد User Agent و نام ربات مورد نظر، میتوانیم ربات خاصی را مشخص کنیم. البته میتوانیم تمامی رباتهای موتورهای جستوجوی مختلف را هدف قرار دهیم و به اصطلاح از Wild card استفاده کنیم.
در نهایت برای نوشتن دستورات در فایل Robots.txt خود باید به صورت زیر عمل کنید:
- عدم دسترسی موتورهای جستوجو به سایت
User-agent:*
Disallow: / - عدم دسترسی به یک پوشه خاص برای تمام موتورهای جستوجو
User-agent:*
Disallow: /folder/ - عدم دسترسی به یک فایل خاص برای تمام موتورهای جستوجو
User-agent:*
Disallow: /file.html
جمعبندی
در نهایت، با داشتن یک فایل Robots.txt خوب و اپلود آن در دایرکتوری هاستتان رباتهای موتورهای جستوجوگر را تحت فرمان خود درمیآورید و محدودیتهایی برای آنها مشخص میکنید تا از ضربه خوردن سایتتان از نظر سئو، با یک ایندکس اشتباه جلوگیری کنید.
مقالات آموزشی سئو تکنیکال را به ترتیب زیر بخوانید:
- سایت مپ چیست
- robot.txt چیست
- ریدایرکت لینک ها و انواع ریدایرکت ها
- اسکیما چیست و انواع ریچ اسنیپت ها
- تگ hreflang
- محتوای duplicate
- مفاهیم درک تصاویر و ویدیو توسط موتور جستجو
- AMP چیست؟
- سرعت سایت
- سئو جاوا اسکریپت
ترتیب مقالات بالا برای تمرکز بیشتر بر روی آموزش و یادگیری مسائل مربوط به سئو است و با دنبال کردن مرتب آن می توانید به یک کارشناس ماهر تبدیل شوید.