اینترنت یک جهان مجازی همیشه در حال تکامل با بیش از 1.1 میلیارد وب سایت است.
آیا فکر می کنید که گوگل می تواند هر وب سایتی را در جهان بخزد؟
حتی با وجود تمام منابع، پول و مراکز داده ای که گوگل در اختیار دارد، حتی نمی تواند کل وب را بخزد – و نمی خواهد.
Crawl Budget چیست و آیا مهم است؟
Crawl Budget به مقدار زمان و منابعی اشاره دارد که Googlebot برای خزیدن صفحات وب در یک دامنه صرف می کند.
مهم است که سایت خود را بهینه کنید تا Google محتوای شما را سریعتر پیدا کند و محتوای شما را فهرست کند، که می تواند به بازدید و ترافیک سایت شما کمک کند.
اگر سایت بزرگی دارید که میلیونها صفحه وب دارد، مدیریت بودجه خزیدن برای کمک به Google در خزیدن مهمترین صفحات شما و درک بهتر محتوای شما بسیار مهم است.
گوگل بیان می کند که:
اگر سایت شما دارای تعداد زیادی صفحه نیست که به سرعت تغییر می کنند، یا اگر به نظر می رسد صفحات شما در همان روزی که منتشر می شوند خزیده می شوند، به روز نگه داشتن نقشه سایت و بررسی منظم پوشش شاخص خود کافی است. گوگل همچنین بیان می کند که هر صفحه باید بازبینی، ادغام و ارزیابی شود تا مشخص شود پس از خزیدن در کجا ایندکس می شود.
بودجه خزیدن توسط دو عنصر اصلی تعیین می شود: محدودیت ظرفیت خزیدن و تقاضای خزیدن.
تقاضای خزیدن به میزانی است که گوگل می خواهد در وب سایت شما بخزد. صفحات محبوب تر، به عنوان مثال، یک داستان محبوب از CNN و صفحاتی که تغییرات قابل توجهی را تجربه می کنند، بیشتر خزیده می شوند.
ربات گوگل می خواهد سایت شما را بدون غلبه بر سرورهای شما بخزد. برای جلوگیری از این امر، Googlebot یک محدودیت ظرفیت خزیدن را محاسبه می کند، که حداکثر تعداد اتصالات موازی همزمان است که Googlebot می تواند برای خزیدن یک سایت استفاده کند، و همچنین تاخیر زمانی بین واکشی ها.
با در نظر گرفتن ظرفیت خزیدن و تقاضای خزیدن، گوگل بودجه خزیدن یک سایت را به عنوان مجموعه URL هایی تعریف می کند که Googlebot می تواند و می خواهد بخزد. حتی اگر به محدودیت ظرفیت خزیدن نرسیده باشد، اگر تقاضای خزیدن کم باشد، Googlebot سایت شما را کمتر میخزد.
در اینجا 12 نکته برتر برای مدیریت بودجه خزیدن برای سایت های بزرگ تا متوسط با 10 هزار تا میلیون URL آورده شده است.
1. تعیین کنید چه صفحاتی مهم هستند و چه صفحاتی نباید خزیده شوند
تعیین کنید که چه صفحاتی مهم هستند و چه صفحاتی برای خزیدن اهمیت ندارند (و بنابراین، گوگل کمتر بازدید می کند).
هنگامی که مشخص کردید که از طریق تجزیه و تحلیل، می توانید ببینید چه صفحاتی از سایت شما ارزش خزیدن دارند و چه صفحاتی از سایت شما ارزش خزیدن را ندارند و آنها را از خزیدن حذف کنید.
به عنوان مثال، Macys.com دارای بیش از 2 میلیون صفحه است که ایندکس شده اند.
بودجه خزیدن خود را با اطلاع دادن به گوگل برای خزیدن برخی صفحات در سایت مدیریت می کند زیرا Googlebot را از خزیدن URL های خاص در فایل robots.txt محدود می کند.
Googlebot ممکن است تصمیم بگیرد که ارزش وقت گذاشتن برای نگاه کردن به بقیه سایت شما یا افزایش بودجه خزیدن خود را ندارد. مطمئن شوید که ناوبری وجهی و شناسه جلسه: از طریق robots.txt مسدود شده باشند.
2. محتوای تکراری را مدیریت کنید
در حالی که Google برای داشتن محتوای تکراری جریمه ای صادر نمی کند، شما می خواهید به Googlebot اطلاعات اصلی و منحصر به فردی را ارائه دهید که نیازهای اطلاعاتی کاربر نهایی را برآورده می کند و مرتبط و مفید است. مطمئن شوید که از فایل robots.txt استفاده می کنید.
گوگل اعلام کرد که از هیچ فهرستی استفاده نمیکند، زیرا همچنان درخواست میکند اما پس از آن حذف میشود.
3. خزیدن URL های غیر مهم را با استفاده از Robots.txt مسدود کنید و به گوگل بگویید چه صفحاتی می تواند بخزد
برای یک سایت در سطح سازمانی با میلیونها صفحه، Google توصیه میکند که خزیدن URLهای بیاهمیت را با استفاده از robots.txt مسدود کنید.
همچنین، میخواهید مطمئن شوید که صفحات مهم، دایرکتوریهایی که محتوای طلایی شما را در خود جای دادهاند، و صفحات پولی شما توسط Googlebot و موتورهای جستجوی دیگر قابل خزیدن هستند.
4. زنجیره تغییر مسیر طولانی
اگر می توانید تعداد تغییر مسیرهای خود را به تعداد کمی نگه دارید. داشتن تعداد زیادی تغییر مسیر یا حلقه های تغییر مسیر می تواند گوگل را گیج کند و محدودیت خزیدن شما را کاهش دهد.
گوگل بیان می کند که زنجیره های تغییر مسیر طولانی می تواند تأثیر منفی بر خزیدن داشته باشد.
5. از HTML استفاده کنید
استفاده از HTML شانس بازدید خزنده از هر موتور جستجو از وب سایت شما را افزایش می دهد.
در حالی که Googlebots هنگام خزیدن و فهرستبندی جاوا اسکریپت بهبود یافتهاند، خزندههای دیگر موتورهای جستجو به اندازه Google پیچیده نیستند و ممکن است با زبانهای دیگری غیر از HTML مشکل داشته باشند.
6. مطمئن شوید که صفحات وب شما به سرعت بارگذاری می شوند و تجربه کاربری خوبی ارائه می دهند
سایت خود را برای Core Web Vitals بهینه کنید.
هرچه محتوای شما سریعتر بارگیری شود – یعنی کمتر از سه ثانیه – گوگل سریعتر میتواند اطلاعات را در اختیار کاربران نهایی قرار دهد. اگر آنها آن را دوست داشته باشند، Google محتوای شما را ایندکس میکند زیرا سایت شما سلامت خزیدن Google را نشان میدهد که میتواند محدودیت خزیدن شما را افزایش دهد.
7. محتوای مفید داشته باشید
طبق گفته گوگل، محتوا بدون در نظر گرفتن سن، بر اساس کیفیت رتبه بندی می شود. محتوای خود را در صورت لزوم ایجاد و به روز کنید، اما هیچ ارزش اضافی در ایجاد ظاهر مصنوعی صفحات با ایجاد تغییرات بی اهمیت و به روز رسانی تاریخ صفحه وجود ندارد.
اگر محتوای شما نیازهای کاربران نهایی را برآورده می کند و به عنوان مثال مفید و مرتبط است، قدیمی یا جدید بودن آن مهم نیست.
اگر کاربران محتوای شما را مفید و مرتبط نمیدانند، توصیه میکنم محتوای خود را بهروزرسانی و تازهسازی کنید تا تازه، مرتبط و مفید باشد و آن را از طریق رسانههای اجتماعی تبلیغ کنید.
همچنین، صفحات خود را مستقیماً به صفحه اصلی پیوند دهید، که ممکن است مهمتر دیده شود و بیشتر خزیده شود.
8. مراقب خطاهای Crawl باشید
اگر برخی از صفحات سایت خود را حذف کرده اید، مطمئن شوید که URL برای صفحات حذف شده برای همیشه وضعیت 404 یا 410 را برمی گرداند. کد وضعیت 404 یک سیگنال قوی برای خزیدن دوباره آن URL است.
با این حال، URL های مسدود شده، بخشی از صف خزیدن شما برای مدت طولانی تری باقی می مانند و پس از حذف بلوک، دوباره خزیده می شوند.
- همچنین، گوگل اعلام می کند که هر صفحه نرم 404 را حذف می کند، که همچنان خزیده می شود و بودجه خزیدن شما را هدر می دهد. برای آزمایش این، به GSC بروید و گزارش Index Coverage خود را برای خطاهای نرم 404 بررسی کنید.
اگر سایت شما دارای کدهای وضعیت پاسخ HTTP 5xx (خطاهای سرور) یا وقفههای زمانی اتصال است، برعکس است، خزیدن کند میشود. گوگل توصیه می کند به گزارش Crawl Stats در کنسول جستجو توجه کنید و تعداد خطاهای سرور را به حداقل برسانید.
به هر حال، گوگل به قانون غیر استاندارد robots.txt “تاخیر خزیدن” احترام نمی گذارد یا به آن پایبند نیست.
حتی اگر از ویژگی nofollow استفاده کنید، اگر صفحه دیگری در سایت شما یا هر صفحه ای در وب، پیوند را به عنوان nofollow برچسب نزند، صفحه باز هم می تواند خزیده شود و بودجه خزیدن را هدر دهد.
9. نقشه های سایت را به روز نگه دارید
نقشه های سایت XML برای کمک به گوگل برای یافتن محتوای شما مهم هستند و می توانند کارها را سرعت بخشند.
بسیار مهم است که URL های نقشه سایت خود را به روز نگه دارید، از تگ
- فقط نشانیهای اینترنتی را که میخواهید توسط موتورهای جستجو فهرستبندی شوند، درج کنید.
- فقط نشانیهای اینترنتی را درج کنید که کدی با وضعیت 200 برمیگردانند.
- اطمینان حاصل کنید که یک فایل نقشه سایت کمتر از 50 مگابایت یا 50000 URL است و اگر تصمیم دارید از چندین نقشه سایت استفاده کنید، یک نقشه سایت فهرست که همه آنها را فهرست می کند.
- مطمئن شوید که نقشه سایت شما است UTF-8 کدگذاری شده است.
- عبارتند از پیوند به نسخه(های) بومی سازی شده از هر URL (به مستندات Google مراجعه کنید.)
- نقشه سایت خود را به روز نگه دارید، یعنی نقشه سایت خود را به روز کنید هر بار که یک URL جدید وجود دارد یا یک URL قدیمی به روز یا حذف شده است.
10. یک ساختار سایت خوب بسازید
داشتن ساختار سایت خوب برای عملکرد سئوی شما برای نمایه سازی و تجربه کاربری مهم است.
ساختار سایت می تواند نتایج صفحات نتایج موتورهای جستجو (SERP) را به روش های مختلفی از جمله خزیدن، نرخ کلیک و تجربه کاربر تحت تاثیر قرار دهد.
داشتن ساختاری واضح و خطی از سایت شما می تواند از بودجه خزیدن شما به طور موثر استفاده کند، که به Googlebot کمک می کند تا هر محتوای جدید یا به روز شده ای را پیدا کند.
همیشه قانون سه کلیک را به خاطر بسپارید، یعنی هر کاربری باید بتواند از هر صفحه ای از سایت شما به صفحه دیگر با حداکثر سه کلیک برود.
11. پیوند داخلی
هرچه بتوانید خزیدن و پیمایش در سایت خود را برای موتورهای جستجو آسان تر کنید، خزنده ها راحت تر می توانند ساختار، زمینه و محتوای مهم شما را شناسایی کنند.
داشتن پیوندهای داخلی که به یک صفحه وب اشاره می کنند می تواند به گوگل اطلاع دهد که این صفحه مهم است، به ایجاد سلسله مراتب اطلاعات برای وب سایت داده شده کمک می کند و می تواند به گسترش ارزش لینک در سراسر سایت شما کمک کند.
12. همیشه آمار خزیدن را رصد کنید
همیشه GSC را بررسی و نظارت کنید تا ببینید آیا سایت شما در حین خزیدن مشکلی دارد یا خیر و به دنبال راه هایی برای کارآمدتر کردن خزیدن خود باشید.
می توانید از گزارش Crawl Stats استفاده کنید تا ببینید آیا Googlebot در خزیدن سایت شما مشکلی دارد یا خیر.
اگر خطاها یا اخطارهای در دسترس بودن در GSC برای سایت شما گزارش شده است، به دنبال نمونه هایی در آن بگردید در دسترس بودن میزبان نمودارهایی که درخواستهای Googlebot از خط قرمز فراتر رفته است، روی نمودار کلیک کنید تا ببینید کدام URLها ناموفق هستند و سعی کنید آنها را با مشکلات موجود در سایت خود مرتبط کنید.
همچنین، می توانید از ابزار بازرسی URL برای آزمایش چند URL در سایت خود استفاده کنید.
اگر ابزار بازرسی URL اخطارهای بار میزبان را برگرداند، به این معنی است که Googlebot نمیتواند به اندازهای که کشف کرده است، URLهای سایت شما را بخزد.
بسته بندی
بهینه سازی بودجه خزیدن برای سایت های بزرگ به دلیل اندازه و پیچیدگی گسترده آنها بسیار مهم است.
با صفحات متعدد و محتوای پویا، خزندههای موتورهای جستجو در خزیدن کارآمد و مؤثر و فهرستبندی محتوای سایت با چالشهایی مواجه هستند.
با بهینه سازی بودجه خزیدن، صاحبان سایت می توانند خزیدن و نمایه سازی صفحات مهم و به روز شده را در اولویت قرار دهند و اطمینان حاصل کنند که موتورهای جستجو منابع خود را عاقلانه و موثر مصرف می کنند.
این فرآیند بهینه سازی شامل تکنیک هایی مانند بهبود معماری سایت، مدیریت پارامترهای URL، تعیین اولویت های خزیدن، و حذف محتوای تکراری است که منجر به دید بهتر موتورهای جستجو، بهبود تجربه کاربر و افزایش ترافیک ارگانیک برای وب سایت های بزرگ می شود.
منابع بیشتر:
تصویر ویژه: BestForBest/Shutterstock