بازیابی اطلاعات: مقدمه ای برای سئوکاران


هنگامی که ما در مورد بازیابی اطلاعات صحبت می کنیم، به عنوان متخصصان سئو، ما تمایل داریم به شدت بر مرحله جمع آوری اطلاعات – خزیدن – تمرکز کنیم.

در طول این مرحله، یک موتور جستجو URL هایی را که به آنها دسترسی دارد (حجم و وسعت بسته به عوامل دیگری که ما به صورت محاوره ای به عنوان بودجه خزیدن از آن یاد می کنیم) را کشف کرده و می خزند.

مرحله خزیدن چیزی نیست که ما در این مقاله روی آن تمرکز کنیم، و همچنین قرار نیست در مورد نحوه عملکرد نمایه سازی به طور عمیق توضیح دهم.

اگر می خواهید در مورد خزیدن و نمایه سازی بیشتر بخوانید، می توانید این کار را در اینجا انجام دهید.

در این مقاله، برخی از اصول بازیابی اطلاعات را پوشش خواهم داد، که در صورت درک، می تواند به شما در بهینه سازی بهتر صفحات وب برای رتبه بندی عملکرد کمک کند.

همچنین می تواند به شما در تجزیه و تحلیل بهتر تغییرات الگوریتم و به روز رسانی صفحه نتایج موتور جستجو (SERP) کمک کند.

برای درک و درک اینکه چگونه موتورهای جستجوی امروزی بازیابی اطلاعات عملی را پردازش می کنند، باید تاریخچه بازیابی اطلاعات در اینترنت را درک کنیم – به ویژه اینکه چگونه با فرآیندهای موتور جستجو ارتباط دارد.

با توجه به بازیابی اطلاعات دیجیتال و فناوری های بنیادی که توسط موتورهای جستجو پذیرفته شده است، می توانیم به دهه 1960 و دانشگاه کرنل برگردیم، جایی که جرارد سالتون تیمی را رهبری کرد که سیستم بازیابی اطلاعات SMART را توسعه داد.

سالتون با توسعه و استفاده از مدل‌سازی فضای برداری برای بازیابی اطلاعات اعتبار دارد.

وکتور مدل های فضایی

مدل‌های فضای برداری در جامعه علم داده به عنوان مکانیزم کلیدی در نحوه «جستجو» موتورهای جستجو و پلتفرم‌هایی مانند آمازون پذیرفته شده‌اند.

این روش به یک پردازنده مانند Google اجازه می دهد تا اسناد مختلف را با پرس و جوها در زمانی که پرس و جوها به صورت بردار نمایش داده می شوند، مقایسه کند.

گوگل در اسناد خود به این موضوع به عنوان جستجوی شباهت برداری یا «جستجوی نزدیکترین همسایه» اشاره کرده است که توسط دونالد کنوت در سال 1973 تعریف شد.

در جستجوی کلمات کلیدی سنتی، پردازنده از کلمات کلیدی، برچسب ها، برچسب ها و غیره در پایگاه داده برای یافتن محتوای مرتبط استفاده می کند.

این کاملاً محدود است، زیرا فیلد جستجو را در پایگاه داده محدود می کند زیرا پاسخ باینری بله یا خیر است. این روش همچنین می تواند در هنگام پردازش مترادف ها و موجودیت های مرتبط محدود شود.

هر چه دو موجودیت از نظر مجاورت نزدیکتر باشند، فضای کمتری بین بردارها وجود دارد و از نظر تشابه/دقت بالاتری در نظر گرفته می‌شود.

برای مبارزه با این موضوع و ارائه نتایج برای جستجوها با چندین تفسیر رایج، Google از شباهت برداری برای گره زدن معانی، مترادف‌ها و موجودیت‌های مختلف با هم استفاده می‌کند.

یک مثال خوب از آن زمانی است که شما نام من را در گوگل جستجو می کنید.

به گوگل، [dan taylor] می تواند:

  • من، شخص SEO.
  • یک روزنامه نگار ورزشی بریتانیایی
  • خبرنگار اخبار محلی
  • ستوان دن تیلور از فارست گامپ.
  • عکاس.
  • یک مدل ساز

با استفاده از جستجوی کلیدواژه سنتی با معیارهای بله/خیر باینری، این گسترش نتایج را در صفحه اول دریافت نمی‌کنید.

با جستجوی برداری، پردازنده می تواند صفحه نتایج جستجو را بر اساس شباهت و روابط بین موجودیت ها و بردارهای مختلف در پایگاه داده ایجاد کند.

می‌توانید وبلاگ این شرکت را در اینجا بخوانید تا درباره نحوه استفاده Google از آن در چندین محصول بیشتر بدانید.

تطبیق شباهت

هنگام مقایسه اسناد به این روش، موتورهای جستجو احتمالاً از ترکیبی از Query Term Weighting (QTW) و ضریب تشابه استفاده می کنند.

QTW وزنی را برای عبارات خاص در پرس و جو اعمال می کند، که سپس برای محاسبه ضریب شباهت با استفاده از مدل فضای برداری و با استفاده از ضریب کسینوس محاسبه می شود.

شباهت کسینوس شباهت بین دو بردار را اندازه گیری می کند و در تحلیل متن، برای اندازه گیری شباهت سند استفاده می شود.

این یک مکانیسم محتمل در نحوه تعیین محتوای تکراری و ارزش پیشنهادی توسط موتورهای جستجو در یک وب سایت است.

کسینوس بین -1 و 1 اندازه گیری می شود.

به طور سنتی در نمودار شباهت کسینوس، بین 0 و 1 اندازه گیری می شود که 0 حداکثر عدم تشابه یا متعامد و 1 حداکثر شباهت است.

نقش یک شاخص

در سئو، ما در مورد مشکلات ایندکس، نمایه سازی و نمایه سازی زیاد صحبت می کنیم – اما به طور فعال در مورد نقش ایندکس در موتورهای جستجو صحبت نمی کنیم.

هدف از ایندکس ذخیره اطلاعات است که گوگل از طریق سیستم های نمایه سازی لایه ای و خرده ها انجام می دهد تا به عنوان یک مخزن داده عمل کند.

به این دلیل که دسترسی از راه دور به صفحات وب، تجزیه محتوای آنها، امتیاز دهی و سپس ارائه یک SERP در زمان واقعی، غیر واقعی، غیرمنفعت و تجربه کاربر نهایی ضعیف است.

به طور معمول، یک فهرست موتور جستجوی مدرن حاوی یک کپی کامل از هر سند نیست، بلکه بیشتر یک پایگاه داده از نکات کلیدی و داده‌هایی است که نشانه گذاری شده است. سپس خود سند در حافظه پنهان دیگری زندگی می کند.

در حالی که ما دقیقاً نمی دانیم که موتورهای جستجو مانند گوگل به عنوان بخشی از سیستم بازیابی اطلاعات خود از چه مراحلی عبور می کنند، آنها احتمالاً مراحل زیر را خواهند داشت:

  • تحلیل ساختاری – قالب و ساختار متن، لیست ها، جداول، تصاویر و غیره
  • ساقه – کاهش تغییرات یک کلمه به ریشه آن. به عنوان مثال، “جستجو” و “جستجو” به “جستجو” کاهش می یابد.
  • تحلیل واژگانی – تبدیل سند به لیستی از کلمات و سپس تجزیه برای شناسایی عوامل مهم مانند تاریخ، نویسنده و تعداد اصطلاح. توجه داشته باشید، این همان TF * IDF نیست.

همچنین انتظار داریم در این مرحله، ملاحظات و نکات داده دیگری در نظر گرفته شوند، مانند بک لینک ها، نوع منبع، اینکه آیا سند از آستانه کیفیت برخوردار است یا نه، پیوند داخلی، محتوای اصلی/محتوای پشتیبانی و غیره.

دقت و پس از بازیابی

در سال 2016، پل هار بینش خوبی در مورد چگونگی اندازه گیری «موفقیت» فرآیند خود توسط گوگل و همچنین نحوه اعمال تنظیمات پس از بازیابی ارائه داد.

شما می توانید ارائه او را اینجا ببینید.

در اکثر سیستم‌های بازیابی اطلاعات، دو معیار اصلی وجود دارد که نشان می‌دهد سیستم چقدر در بازگرداندن یک مجموعه نتایج خوب موفق است.

اینها دقت و یادآوری هستند.

دقت، درستی

تعداد اسناد برگشتی که مرتبط هستند در مقابل تعداد کل اسناد برگشتی.

بسیاری از وب‌سایت‌ها طی ماه‌های اخیر در تعداد کل کلمات کلیدی که رتبه‌بندی کرده‌اند کاهش یافته‌اند (مانند کلمات کلیدی عجیب و غریب که احتمالاً در رتبه‌بندی آنها حقی نداشته‌اند). ما می توانیم حدس بزنیم که موتورهای جستجو در حال اصلاح سیستم بازیابی اطلاعات برای دقت بیشتر هستند.

به خاطر آوردن

تعداد اسناد مربوطه در مقابل تعداد کل اسناد مربوطه برگشتی.

موتورهای جستجو بیشتر به سمت دقت نسبت به یادآوری می روند، زیرا دقت منجر به صفحات نتایج جستجوی بهتر و رضایت بیشتر کاربر می شود. همچنین در برگرداندن اسناد بیشتر و پردازش داده های بیشتر از آنچه لازم است، سیستم فشرده تر است.

نتیجه

عمل بازیابی اطلاعات به دلیل فرمول ها و مکانیسم های مختلف مورد استفاده می تواند پیچیده باشد.

مثلا:

از آنجایی که ما به طور کامل نمی‌دانیم یا درک نمی‌کنیم که این فرآیند در موتورهای جستجو چگونه کار می‌کند، باید بیشتر روی اصول و دستورالعمل‌های ارائه‌شده تمرکز کنیم در مقابل تلاش برای بازی معیارهایی مانند TF*IDF که ممکن است مورد استفاده قرار گیرند یا ممکن است استفاده نشوند (و در وزن آنها متفاوت است. در نتیجه کلی).

منابع بیشتر:


تصویر ویژه: BRO.vector/Shutterstock





منبع