فایل Robots.txt چیست و چگونه عمل می کند؟

تا اینجا با پرکاربردترین کدهای فایل روبوت سایت آشنایید و میتوانید به راحتی آن را کد نویسی کنید. گوگل قابلیتی در اختیار وبمستران گذاشته تا بتوانند فایل روبوت سایت خودشان را به کمک ابزار سرچ کنسول تست کنند. این تکه کد صرفا ربات های گوگل را فراخوانی میکند. این یعنی در ابتدا باید ربات های مورد نظر را فراخوانی کنید سپس به آنها دستور ایندکس کردن یا نکردن صفحات را بدهید. نکته 3: علاوه بر فایل robots، راهکار دیگر جهت پنهان کردن صفحات سایت از دید خزنده ها، کمک گرفتن از کد noindex است. علاوه بر این ممکن است برای انجام یک سری کارهای تحقیقاتی مثل تست های انسانی، مجبور شویم که از یک صفحه سایت، دو یا چند صفحه مشابه داشته باشیم. به عنوان مثال ممکن است در میان مقالات وب سایتمان، مقاله ای قدیمی وجود داشته باشد که کمتر از 300 کلمه متن دارد. همینطور ممکن است بخواهیم ویدیوها و تصاویر سایت در ایندکس گوگل دیده نشوند. حالا ممکن است شما در این بین نخواهید که بعضی از صفحات سایتتان توسط این ربات ها ایندکس شوند. به معنای این است که پوشه images سایت غیر قابل ایندکس باشد. این موضوع برای صفحات تکراری دیگر هم قابل اجراست. دلیل این موضوع چیست؟

قبل از اینکه در مورد این موضوع صحبت کنم، بگذارید اول ببینیم که کاربرد روبوتس سایت چیست؟ در ادامه اول از همه یاد میگیریم که چطور وجود داشتن و نداشتن این فایل در سایت را بررسی کنیم. این کد در بخش کدهای html هر صفحه از سایت (بین دو تگ باز و بسته head) قرار گرفته و به ربات ها دستور ایندکس نکردن صفحه را میدهد. دستور Allow: این دستور بعد از دستور disallow قرار میگیرد. همینطور باید یادمان باید که ایندکس شدن این صفحات به دلیل مطالب کمی که درون خود دارند، باعث کاهش قدرت سئو کل سایت میشود. اینها صفحاتی هستند که الزاما باید در وب سایت ما وجود داشته باشند اما به هیچ عنوان نیاز نداریم در نتایج ایندکس شوند. در صورتی که نیاز به دستکاری این فایل دارید، باید یک فایل جدید ساخته و آن را در هاست آپلود کنید. همینطور اگر صفحه ای خالی را مشاهده کردید، نیاز دارید فایل robots سایت را در هاست خودتان پیدا کرده و آن را ویرایش کنید.

اما اگر صفحاتی که قرار است به کمک این فایل از دید ربات موتور جستجو پنهان شوند را پنهان نکنید، سئو وب سایتتان مجله خبری seobythesea را کاهش میدهید. کاربرد آن این است که به ربات ها بگویید فلان فایل یا صفحه را از میان همه صفحاتی که قبلا دستور ایندکس نشدنش را داده بودید، ایندکس کنید. اگر قبلا سایت خودتان را در این ابزار ثبت کرده اید، کافی است به این آدرس رفته و بعد از انتخاب سایت، اخطارها و خطاهای موجود در مورد فایل روبوتس را مشاهده کنید. اگر بعد از وارد کردن این آدرس در مرورگر با یک صفحه 404 روبرو شدید، باید خودتان اقدام به ساخت robots سایت کنید. پنهان کردن صفحات بی ارزش، زامبی، تکراری و… مثلا در دستور قبلی گفتیم که تمامی عکس های درون پوشه images از دید ربات ها پنهان باشند. دقت کنید که اگر در هاستتان نام پوشه عکس ها همین باشد، آنها پنهان میشوند.

سپس نام آن را به robots.txt تغییر داده و فایل را در بخش root هاست خودتان آپلود کنید. البته با توجه به اینکه نام آن کمی متفاوت بوده و محتوای نامتعارفی هم دارد، این ترس کاملا توجیه شده است. گاها ممکن است ما قصد داشته باشیم که محتوایی خاص را از دید ایندکس گوگل پنهان کنیم. بعد از آن به سراغ این سوال میرویم که اگر robots در سایت ما وجود نداشته باشد چه اتفاقی می افتد و در نهایت بعد از آشنا شدن با کدهای robots.txt نحوه ساخت آن را آموزش میبینیم. در صورت کاهش بودجه خزش، صفحات سایتتان با سرعت کمتری در صفحات نتایج جستجو ظاهر خواهند شد. در صورتی که این صفحات پیش فرض قالب در سایت ما ایندکس شوند، گوگل از همان ابتدا به دلیل وجود یک سری مطلب تکراری، اعتبار سئو سایتمان را کاهش میدهد. بعد از اینکه وب سایت ما به طور کامل طراحی و آماده نمایش به گوگل شد، باز هم ما با فایل robots سایت کار داریم. موجودند. فایل های صوتی با فرمت mp3، فایل های ویدیویی فرمت mp4 و همینطور mkv دارند و…