فایل Robots.txt چیست؟

بنابراین چنانچه سایت خیلی بزرگی با تعداد زیادی صفحه دارید، تعداد صفحاتی که در روز ایندکس میشوند را نیز در نظر بگیرید تا بعداً دچار پشیمانی نشوید. در فایل robots.txt میتوانید نقشه سایت را برای رباتها تعریف کنید تا به نقشه کل سایت دسترسی داشته باشند. چنانچه قصد دارید بعضی دستورات را برای رباتهای خاصی بنویسید، میتوانید دوباره یک user-agent دیگر نوشته و در سطرهای بعدی دستورات مخصوص به آن ربات را تعریف کنید. یک بار user-agent را تعریف کنید و در سطرهای بعدی دستورهای disallow (یا allow) را بنویسید. برای نوشتن دستورات allow و disallow لازم نیست هر بار یک user-agent تعریف کنیم. چه صفحاتی را از دید خزندههای گوگل مخفی کنیم؟ باید در اولین خطی که در فایل robots.txt مینویسیم مشخص کنیم که این دستور برای کدام رباتهاست. توجه داشته باشید که در ساخت این فایل، کوچکی و بزرگی حروف اهمیت دارند. البته توجه داشته باشید که برخی رباتها اهمیتی به این فایل نمیدهند و حتی صفحاتی که شما دسترسی به آن را مسدود اعلام کردهاید را بررسی میکنند.

اکنون رباتها ابتدا فایل robots.txt شما را میخوانند و سپس طبق آن عمل میکنند. بر روی این لینک کلیک کنید تا ابزار وبمستر برای شما باز شود. بنابراین شما میتوانید در مقابل این دستور نام فایلهایی را که قصد دارید برای رباتها ببندید بنویسید. به این ترتیب گوگل و موتورهای جستجوگر در زمانهایی که سایت آماده استفاده نیست، آن را نمیخزند (crawl نمیکنند) و در دسترس کاربران قرار نمیدهند. همانطور که میدانید، رتبه سایت حاصل جمع رتبه تک تک صفحات سایت است. البته همان طور که گفته شد، به صورت پیشفرض، خزندهها و رباتها تمام فایلها و صفحات سایت را بررسی میکنند، اما عدهای معتقدند برای تأکید بیشتر بر روی برخی صفحات یا فایلهای خاص باید از دستور allow مجله خبری seobythesea استفاده کرد. در مقابل عده دیگری سایتهایی که هنوز افزونه خود را به روزرسانی نکردهاند جستجو و به آنها حمله میکنند. کار این رباتها (که به آنها خزنده یا اسپایدر هم میگویند) این است که صفحات سایت را بررسی کنند و تغییرات آن را به اطلاع موتورهای جستجو برسانند. در این صورت میتوانید، آدرس این صفحه را در فایل robots.txt قرار دهید و به این ترتیب به موتورهای جستجو بفهمانید که این صفحات را بررسی نکرده و در فهرست SERP قرار ندهند.

ممکن است صفحاتی را روی سایت خود ایجاد کرده باشید که فقط برای افراد خاصی کاربرد داشته باشد؛ مثلاً فرض کنید یک صفحه مخصوص عقد قرارداد با کسانی که قصد همکاری با شما را دارند ایجاد کردهاید و نمیخواهید این صفحه در نتایج جستجوی گوگل نمایش داده شود. از آنجا که بازدید این صفحه پایین است، میتواند روی رتبه کل سایت شما اثر بگذارد. برای این منظور از وبمستر استفاده میکنیم. این کد برای کم شدن ترافیک سایتتان مناسب است و سرعت رفت و آمد رباتها به سایتتان را کاهش میدهد و در نتیجه سرعت سایتتان بهتر خواهد شد. با این کد دستوری به خزندهها میگویید که بین بررسی هر صفحه از سایت شما، برای مدت زمان مشخصی صبر کنند. شما با این دستور به تمام رباتهای خزنده (به جز رباتهای گوگل – این دستور بر روی رباتهای گوگل اثر ندارد) اعلام میکنید که بعد از بررسی و ایندکس کردن یک صفحه از سایتتان، 10 ثانیه صبر کنند و بعد از آن به بررسی صفحه بعدی بپردازند. بنابراین شما هر چیزی که در مقابل این دستور بنویسید، یعنی رباتها اجازه دسترسی به آن را ندارند. در غیر این صورت میتوانند به سایتتان صدمات جدی وارد نمایند.

قبل از اینکه اقدام به ساخت فایل robots.txt کنید، به انتهای آدرس سایتتان عبارت /robots.txt را اضافه کنید. بنابراین، این فایل نیز مانند فایل readme.html نقطهای برای نفوذ و تخریب سایتتان محسوب میشود. لذا این سایتها نباید اقدام به محدود کردن دسترسی با هدف افزایش سرعت سایتشان نمایند. بنابراین نام فایل را با حروف کوچک تایپ کنید. بنابراین چنانچه بخواهید اجازه دسترسی به فایل خاصی را مسدود کنید باید مسیر دسترسی به آن را در مقابل دستور disallow بنویسید. وقتی یک اسلش خالی در مقابل دستور :disallow بگذارید دسترسی به کل سایت را برای رباتها غیر مجاز کردهاید. بهتر است قبل و بعد از دستور sitemap یک خط خالی بگذارید تا از بروز خطا جلوگیری شود. هنگام محدود کردن دسترسی به محتویات یک پوشه، حتماً باید در انتهای نام پوشه یک اسلش دیگر بگذارید. در دستورات بالا، اجازه دسترسی به پوشه admin و فایل tutorial برای کلیه رباتها مسدود شده است. اما در خط دوم دسترسی به پوشه admin به همراه کلیه محتویات داخل پوشه مسدود شده است. همانطور که گفته شد، رباتهای موتورهای جستجو به طور پیش فرض تمام صفحات و فایلهای وبسایت شما را میخزند و اطلاعات آن را در اختیار موتورهای جستجو قرار میدهند. فایل readme.html حاوی اطلاعات وردپرس شماست.