نحوه مدیریت بودجه خزیدن برای سایت های بزرگ


اینترنت یک جهان مجازی همیشه در حال تکامل با بیش از 1.1 میلیارد وب سایت است.

آیا فکر می کنید که گوگل می تواند هر وب سایتی را در جهان بخزد؟

حتی با وجود تمام منابع، پول و مراکز داده ای که گوگل در اختیار دارد، حتی نمی تواند کل وب را بخزد – و نمی خواهد.

Crawl Budget چیست و آیا مهم است؟

Crawl Budget به مقدار زمان و منابعی اشاره دارد که Googlebot برای خزیدن صفحات وب در یک دامنه صرف می کند.

مهم است که سایت خود را بهینه کنید تا Google محتوای شما را سریعتر پیدا کند و محتوای شما را فهرست کند، که می تواند به بازدید و ترافیک سایت شما کمک کند.

اگر سایت بزرگی دارید که میلیون‌ها صفحه وب دارد، مدیریت بودجه خزیدن برای کمک به Google در خزیدن مهم‌ترین صفحات شما و درک بهتر محتوای شما بسیار مهم است.

گوگل بیان می کند که:

اگر سایت شما دارای تعداد زیادی صفحه نیست که به سرعت تغییر می کنند، یا اگر به نظر می رسد صفحات شما در همان روزی که منتشر می شوند خزیده می شوند، به روز نگه داشتن نقشه سایت و بررسی منظم پوشش شاخص خود کافی است. گوگل همچنین بیان می کند که هر صفحه باید بازبینی، ادغام و ارزیابی شود تا مشخص شود پس از خزیدن در کجا ایندکس می شود.

بودجه خزیدن توسط دو عنصر اصلی تعیین می شود: محدودیت ظرفیت خزیدن و تقاضای خزیدن.

تقاضای خزیدن به میزانی است که گوگل می خواهد در وب سایت شما بخزد. صفحات محبوب تر، به عنوان مثال، یک داستان محبوب از CNN و صفحاتی که تغییرات قابل توجهی را تجربه می کنند، بیشتر خزیده می شوند.

ربات گوگل می خواهد سایت شما را بدون غلبه بر سرورهای شما بخزد. برای جلوگیری از این امر، Googlebot یک محدودیت ظرفیت خزیدن را محاسبه می کند، که حداکثر تعداد اتصالات موازی همزمان است که Googlebot می تواند برای خزیدن یک سایت استفاده کند، و همچنین تاخیر زمانی بین واکشی ها.

با در نظر گرفتن ظرفیت خزیدن و تقاضای خزیدن، گوگل بودجه خزیدن یک سایت را به عنوان مجموعه URL هایی تعریف می کند که Googlebot می تواند و می خواهد بخزد. حتی اگر به محدودیت ظرفیت خزیدن نرسیده باشد، اگر تقاضای خزیدن کم باشد، Googlebot سایت شما را کمتر می‌خزد.

در اینجا 12 نکته برتر برای مدیریت بودجه خزیدن برای سایت های بزرگ تا متوسط ​​با 10 هزار تا میلیون URL آورده شده است.

1. تعیین کنید چه صفحاتی مهم هستند و چه صفحاتی نباید خزیده شوند

تعیین کنید که چه صفحاتی مهم هستند و چه صفحاتی برای خزیدن اهمیت ندارند (و بنابراین، گوگل کمتر بازدید می کند).

هنگامی که مشخص کردید که از طریق تجزیه و تحلیل، می توانید ببینید چه صفحاتی از سایت شما ارزش خزیدن دارند و چه صفحاتی از سایت شما ارزش خزیدن را ندارند و آنها را از خزیدن حذف کنید.

به عنوان مثال، Macys.com دارای بیش از 2 میلیون صفحه است که ایندکس شده اند.

صفحات Macys.com اسکرین شات از جستجو برای [site: macys.com]، گوگل، ژوئن 2023

بودجه خزیدن خود را با اطلاع دادن به گوگل برای خزیدن برخی صفحات در سایت مدیریت می کند زیرا Googlebot را از خزیدن URL های خاص در فایل robots.txt محدود می کند.

Googlebot ممکن است تصمیم بگیرد که ارزش وقت گذاشتن برای نگاه کردن به بقیه سایت شما یا افزایش بودجه خزیدن خود را ندارد. مطمئن شوید که ناوبری وجهی و شناسه جلسه: از طریق robots.txt مسدود شده باشند.

2. محتوای تکراری را مدیریت کنید

در حالی که Google برای داشتن محتوای تکراری جریمه ای صادر نمی کند، شما می خواهید به Googlebot اطلاعات اصلی و منحصر به فردی را ارائه دهید که نیازهای اطلاعاتی کاربر نهایی را برآورده می کند و مرتبط و مفید است. مطمئن شوید که از فایل robots.txt استفاده می کنید.

گوگل اعلام کرد که از هیچ فهرستی استفاده نمی‌کند، زیرا همچنان درخواست می‌کند اما پس از آن حذف می‌شود.

3. خزیدن URL های غیر مهم را با استفاده از Robots.txt مسدود کنید و به گوگل بگویید چه صفحاتی می تواند بخزد

برای یک سایت در سطح سازمانی با میلیون‌ها صفحه، Google توصیه می‌کند که خزیدن URL‌های بی‌اهمیت را با استفاده از robots.txt مسدود کنید.

همچنین، می‌خواهید مطمئن شوید که صفحات مهم، دایرکتوری‌هایی که محتوای طلایی شما را در خود جای داده‌اند، و صفحات پولی شما توسط Googlebot و موتورهای جستجوی دیگر قابل خزیدن هستند.

Robots.txtتصویر از نویسنده، ژوئن 2023

4. زنجیره تغییر مسیر طولانی

اگر می توانید تعداد تغییر مسیرهای خود را به تعداد کمی نگه دارید. داشتن تعداد زیادی تغییر مسیر یا حلقه های تغییر مسیر می تواند گوگل را گیج کند و محدودیت خزیدن شما را کاهش دهد.

گوگل بیان می کند که زنجیره های تغییر مسیر طولانی می تواند تأثیر منفی بر خزیدن داشته باشد.

5. از HTML استفاده کنید

استفاده از HTML شانس بازدید خزنده از هر موتور جستجو از وب سایت شما را افزایش می دهد.

در حالی که Googlebots هنگام خزیدن و فهرست‌بندی جاوا اسکریپت بهبود یافته‌اند، خزنده‌های دیگر موتورهای جستجو به اندازه Google پیچیده نیستند و ممکن است با زبان‌های دیگری غیر از HTML مشکل داشته باشند.

6. مطمئن شوید که صفحات وب شما به سرعت بارگذاری می شوند و تجربه کاربری خوبی ارائه می دهند

سایت خود را برای Core Web Vitals بهینه کنید.

هرچه محتوای شما سریع‌تر بارگیری شود – یعنی کمتر از سه ثانیه – گوگل سریع‌تر می‌تواند اطلاعات را در اختیار کاربران نهایی قرار دهد. اگر آن‌ها آن را دوست داشته باشند، Google محتوای شما را ایندکس می‌کند زیرا سایت شما سلامت خزیدن Google را نشان می‌دهد که می‌تواند محدودیت خزیدن شما را افزایش دهد.

7. محتوای مفید داشته باشید

طبق گفته گوگل، محتوا بدون در نظر گرفتن سن، بر اساس کیفیت رتبه بندی می شود. محتوای خود را در صورت لزوم ایجاد و به روز کنید، اما هیچ ارزش اضافی در ایجاد ظاهر مصنوعی صفحات با ایجاد تغییرات بی اهمیت و به روز رسانی تاریخ صفحه وجود ندارد.

اگر محتوای شما نیازهای کاربران نهایی را برآورده می کند و به عنوان مثال مفید و مرتبط است، قدیمی یا جدید بودن آن مهم نیست.

اگر کاربران محتوای شما را مفید و مرتبط نمی‌دانند، توصیه می‌کنم محتوای خود را به‌روزرسانی و تازه‌سازی کنید تا تازه، مرتبط و مفید باشد و آن را از طریق رسانه‌های اجتماعی تبلیغ کنید.

همچنین، صفحات خود را مستقیماً به صفحه اصلی پیوند دهید، که ممکن است مهمتر دیده شود و بیشتر خزیده شود.

8. مراقب خطاهای Crawl باشید

اگر برخی از صفحات سایت خود را حذف کرده اید، مطمئن شوید که URL برای صفحات حذف شده برای همیشه وضعیت 404 یا 410 را برمی گرداند. کد وضعیت 404 یک سیگنال قوی برای خزیدن دوباره آن URL است.

با این حال، URL های مسدود شده، بخشی از صف خزیدن شما برای مدت طولانی تری باقی می مانند و پس از حذف بلوک، دوباره خزیده می شوند.

  • همچنین، گوگل اعلام می کند که هر صفحه نرم 404 را حذف می کند، که همچنان خزیده می شود و بودجه خزیدن شما را هدر می دهد. برای آزمایش این، به GSC بروید و گزارش Index Coverage خود را برای خطاهای نرم 404 بررسی کنید.

اگر سایت شما دارای کدهای وضعیت پاسخ HTTP 5xx (خطاهای سرور) یا وقفه‌های زمانی اتصال است، برعکس است، خزیدن کند می‌شود. گوگل توصیه می کند به گزارش Crawl Stats در کنسول جستجو توجه کنید و تعداد خطاهای سرور را به حداقل برسانید.

به هر حال، گوگل به قانون غیر استاندارد robots.txt “تاخیر خزیدن” احترام نمی گذارد یا به آن پایبند نیست.

حتی اگر از ویژگی nofollow استفاده کنید، اگر صفحه دیگری در سایت شما یا هر صفحه ای در وب، پیوند را به عنوان nofollow برچسب نزند، صفحه باز هم می تواند خزیده شود و بودجه خزیدن را هدر دهد.

9. نقشه های سایت را به روز نگه دارید

نقشه های سایت XML برای کمک به گوگل برای یافتن محتوای شما مهم هستند و می توانند کارها را سرعت بخشند.

بسیار مهم است که URL های نقشه سایت خود را به روز نگه دارید، از تگ برای محتوای به روز استفاده کنید و بهترین شیوه های سئو را دنبال کنید، از جمله موارد زیر، اما نه محدود به آنها.

  • فقط نشانی‌های اینترنتی را که می‌خواهید توسط موتورهای جستجو فهرست‌بندی شوند، درج کنید.
  • فقط نشانی‌های اینترنتی را درج کنید که کدی با وضعیت 200 برمی‌گردانند.
  • اطمینان حاصل کنید که یک فایل نقشه سایت کمتر از 50 مگابایت یا 50000 URL است و اگر تصمیم دارید از چندین نقشه سایت استفاده کنید، یک نقشه سایت فهرست که همه آنها را فهرست می کند.
  • مطمئن شوید که نقشه سایت شما است UTF-8 کدگذاری شده است.
  • عبارتند از پیوند به نسخه(های) بومی سازی شده از هر URL (به مستندات Google مراجعه کنید.)
  • نقشه سایت خود را به روز نگه دارید، یعنی نقشه سایت خود را به روز کنید هر بار که یک URL جدید وجود دارد یا یک URL قدیمی به روز یا حذف شده است.

10. یک ساختار سایت خوب بسازید

داشتن ساختار سایت خوب برای عملکرد سئوی شما برای نمایه سازی و تجربه کاربری مهم است.

ساختار سایت می تواند نتایج صفحات نتایج موتورهای جستجو (SERP) را به روش های مختلفی از جمله خزیدن، نرخ کلیک و تجربه کاربر تحت تاثیر قرار دهد.

داشتن ساختاری واضح و خطی از سایت شما می تواند از بودجه خزیدن شما به طور موثر استفاده کند، که به Googlebot کمک می کند تا هر محتوای جدید یا به روز شده ای را پیدا کند.

همیشه قانون سه کلیک را به خاطر بسپارید، یعنی هر کاربری باید بتواند از هر صفحه ای از سایت شما به صفحه دیگر با حداکثر سه کلیک برود.

11. پیوند داخلی

هرچه بتوانید خزیدن و پیمایش در سایت خود را برای موتورهای جستجو آسان تر کنید، خزنده ها راحت تر می توانند ساختار، زمینه و محتوای مهم شما را شناسایی کنند.

داشتن پیوندهای داخلی که به یک صفحه وب اشاره می کنند می تواند به گوگل اطلاع دهد که این صفحه مهم است، به ایجاد سلسله مراتب اطلاعات برای وب سایت داده شده کمک می کند و می تواند به گسترش ارزش لینک در سراسر سایت شما کمک کند.

12. همیشه آمار خزیدن را رصد کنید

همیشه GSC را بررسی و نظارت کنید تا ببینید آیا سایت شما در حین خزیدن مشکلی دارد یا خیر و به دنبال راه هایی برای کارآمدتر کردن خزیدن خود باشید.

می توانید از گزارش Crawl Stats استفاده کنید تا ببینید آیا Googlebot در خزیدن سایت شما مشکلی دارد یا خیر.

اگر خطاها یا اخطارهای در دسترس بودن در GSC برای سایت شما گزارش شده است، به دنبال نمونه هایی در آن بگردید در دسترس بودن میزبان نمودارهایی که درخواست‌های Googlebot از خط قرمز فراتر رفته است، روی نمودار کلیک کنید تا ببینید کدام URL‌ها ناموفق هستند و سعی کنید آن‌ها را با مشکلات موجود در سایت خود مرتبط کنید.

همچنین، می توانید از ابزار بازرسی URL برای آزمایش چند URL در سایت خود استفاده کنید.

اگر ابزار بازرسی URL اخطارهای بار میزبان را برگرداند، به این معنی است که Googlebot نمی‌تواند به اندازه‌ای که کشف کرده است، URLهای سایت شما را بخزد.

بسته بندی

بهینه سازی بودجه خزیدن برای سایت های بزرگ به دلیل اندازه و پیچیدگی گسترده آنها بسیار مهم است.

با صفحات متعدد و محتوای پویا، خزنده‌های موتورهای جستجو در خزیدن کارآمد و مؤثر و فهرست‌بندی محتوای سایت با چالش‌هایی مواجه هستند.

با بهینه سازی بودجه خزیدن، صاحبان سایت می توانند خزیدن و نمایه سازی صفحات مهم و به روز شده را در اولویت قرار دهند و اطمینان حاصل کنند که موتورهای جستجو منابع خود را عاقلانه و موثر مصرف می کنند.

این فرآیند بهینه سازی شامل تکنیک هایی مانند بهبود معماری سایت، مدیریت پارامترهای URL، تعیین اولویت های خزیدن، و حذف محتوای تکراری است که منجر به دید بهتر موتورهای جستجو، بهبود تجربه کاربر و افزایش ترافیک ارگانیک برای وب سایت های بزرگ می شود.

منابع بیشتر:


تصویر ویژه: BestForBest/Shutterstock





منبع