SEOBOMB
Img
موتورهای جستجو چگونه کار می کنند؟

موتورهای جستجو چگونه کار می کنند؟

جهت نمایش دادن صفحات یک وب سایت در نتایج جستجویی که کاربران انجام می دهند ، می بایست محتوای صفحات وب سایت برای موتور های جستجو در دسترس و قابل مشاهده باشد ، لذا چنانچه یک موتور جستجو نتواند صفحات یک سایت را مشاهده کند ، قادر نخواهد بود که محتوای آن وب سایت را در سرپ ها ( SERP ) که همان نتایج صفحه موتور جستجو هستند ، به کاربران ارائه دهد ، در همین راستا در این مقاله با ما همراه باشید تا چگونگی عملکرد موتورهای جستجو را مورد بررسی قرار دهیم.

بیشتر بخوانید: بازاریابی موتورهای جستجو

 

کارکرد موتورهای جستجودر وب

به طور کلی در رابطه با پاسخ این سئوال که موتورهای جستجو چگونه کار می کنند؟ می توان گفت که موتورهای جستجو در واقع نوعی ماشین های پاسخگویی هستند که جهت کشف ، فهمیدن و سازمان دهی محتوای صفحات وب سایت ها طراحی شده اند تا مناسب ترین محتوا را برای درخواست کاربران ارائه دهند ، در ادامه وارد جزئیات نحوه ی عملکرد موتورهای جستجو خواهیم شد .

موتور های جستجو جهت پاسخگویی به پرسش های کاربران سه بخش اصلی دارند :

بخش crawl(خزیدن): به طور کلی خزنده های  جهت یافتن محتوا ، در صفحات وب سایت ها گشت و گذار کرده و به هر لینک ، URL و کدی که می رسند ، آن را مورد بررسی قرار خواهند داد .

بخش Index(فهرست کردن): بخش ایندکس موتورهای جستجو ، محتوایی را که خزنده ها یافته اند را ذخیره و سازماندهی خواهند کرد  ، در واقع هر صفحه ای از وب سایت که ایندکس شود ، آماده ی نمایش به عنوان درخواست  کاربران در موتورهای جستجو خواهد بود .

بخش Rank( رتبه بندی ) : در این بخش ، قسمت هایی از محتوا که مناسب ترین و بهترین پاسخ به درخواست کاربران را دارند ، فراهم خواهد شد ، به عبارت دیگر ، بخش رنک ، نتایج جستجوی کاربران را به صورتی مرتب می سازد که کاربر جواب بهتری را مشاهده کند.

 

کراولینگ موتورهای جستجو

کراولینگ موتورهای جستجو در سال ۲۰۲۰

کراولینگ فرآیند کشف و کنکاشی است که موتورهای جستجو انجام می دهند تا بتوانند محتوای صفحات وب سایت ها را بررسی کنند برای این منظور ، گروهی از ربات های خزنده (crawlers) و عنکبوت ها(spiders) جهت پیدا کردن و به روزرسانی محتوا از سوی موتورهای جستجو به بستر اینترنت فرستاده می شود ، اگر چه محتوا در اینترنت می تواند صفحه ی وب، ویدئو ، عکس ، صدا ، PDF و غیره باشد اما به طور کلی محتوای هر وب سایتی ، صرف نظر از فرمت آن ،  با لینک پیدا می شود از این رو ، ربات ها با بررسی صفحات وب سایت ها  به دنبال لینک های موجود در آن صفحه می گردند تا اینکه URLهای جدید را پیدا کنند ، این کار به همین صورت ادامه پیدا می کند  تا ربات های جستحوگر ( خزنده ها و عنکبوت ها ) بتوانند هر لحظه محتوای جدیدی را کشف کرده و آن را یه ایندکس خود اضافه  کنند که در نهایت پایگاه داده ای بسیار عظیم از URL ها کشف و ذخیره خواهد شد و بعدا زمانی که یک کاربر اینترنت به دنبال اطلاعاتی می گردد، موتور های جستجو محتوای موجود بر روی URL را برای کاربر بازیابی کرده و به نمایش می گذارند .

نحوه ی ایندکس موتورهای جستجو

ایندکس موتور های جستجو تلاش می کند که داده ها و اطلاعات بیشماری را که در مرحله ی کراولینگ کشف شده اند را دسته بندی و ذخیره کرده و محتوای مناسب و استاندارد را برای کاربران به نمایش بگذارد.

بیشتر بخوانید:  متخصص سئو

 

نحوه ی رتبه بندی موتورهای جستجو

با انجام یک سرچ توسط کاربر ، موتور جستجو صفحه ی اول خود را برای مرتبط ترین محتوای سرچ آماده می کند که خود این صفحه نیز بر طبق مرتبط ترین محتوا مرتب می شود تا بتواند  درخواست کاربر را به درستی پاسخ دهد ، به عبارت ساده تر ؛ مرتب سازی نتایج جستجو بر اساس مرتبط ترین محتوا رنکینگ نام دارد ، از این رو می توان نتیجه گرفت که هر وب سایتی در نتایج جستجو بالاتر قرار می گیرد ، موتور جستجو آن را بهترین جواب برای جستجوی کاربر در نظر گرفته است.

بیشتر بخوانید: بک لینک چیست

 

چنانچه ربات و کراولرهای موتور جستجو بلاک شوند به نحوی که آنها به بخش یا کل وب سایت دسترسی نداشته باشند و نتوانند آن قسمت ها را ایندکس کنند ، صفحات وب سایت به کاربران نمایش داده نخواهند شد ، اما اگر می خواهید وب سایت شما به کاربران نمایش داده شوند باید مطمئن شوید که سایت شما به ربات های جستجو گر اجازه ی ورود می دهد لذا به جای مقابله با موتورهای جستجوگر ، باید یاد گرفت که چگونه با آنها کار کرد.

چگونه موتورهای جستجو سایت شما را پیدا می کنند؟

از آنجا  که شرط اصلی نمایش صفحات وب سایت در SERPها ایندکس شدن سایت توسط ربات های خزنده می باشد برای اینکه بفهمید کدام صفحه وب سایت شما ایندکس شده است ، باید به  گوگل مراجعه و در کادر جستجوی آن عبارت «site:yourdomain.com» را جستجو کرده و yourdomain را با دامنه خود جا به جا کنید ، این عمل به شما نشان می دهد که موتور جستجو گوگل کدام صفحه از دامنه وارد شده را ایندکس کرده است .

عددی که در کادر نمایش ، نشان داده خواهد شد (About …. results) تعداد صفحه های ایندیکس شده شما است که  می‌تواند از این کمتر و یا بیشتر نیز باشد، ولی در کل یک ایده به شما در باره تعداد صفحات ایندکس شده خواهد داد .

جهت مشاهده ی نتایج دقیق تر ، می توان از کنسول جستجوی گوگل استفاده کرد ،  در کنسول جستجوی گوگل می توان نظارت کامل تری بر گزارش های ایندکس سایت داشت، علاوه بر آن ، می توان نقشه ی سایت خود را نیز وارد کنید و ببینید چه صفحه های ایندکس شده است.

جهت بهره مندی از سرویس کنسول جستجوی گوگل ، می توان به صورت رایگان یک اکانت در Google Search Console ایجاد کرد .

دلایل عدم نمایش یک وب سایت در نتایج جستجو  :

  1. وب سایت مورد نظر کاملا جدید است و هنوز توسط ربات های خرنده ایندکس نشده است .
  2. وب سایت هیچ گونه لینک خارجی ندارد.
  3. شکل ناوبری در وب سایت برای ربات ها سخت بوده و آنها نمی توانند به راحتی صفحه های وب سایت را بیابند .
  4. وب سایت شما ، قطعه کد های ساده ای دارد که از ورود ربات های خزنده ممانعت می کند .
  5. وب سایت شما به دلیل استفاده از تاکتیک های اسپم ، توسط گوگل جریمه شده است.
  6. چنانچه یک وب سایت هیچ گونه لینک خارجی ندارد ، می توان با ثبت XML نقشه وب سایت  در Google Search Console آن را ایندکس کرد ، علاوه بر آن ؛ URLهای سایت را می توان به صورت دستی برای گوگل ارسال کرد .
  7. اگرچه هیچ زمانتی جهت سریع ایندکس شدن وب سایت وجود ندارد اما توصیه می شود که این روش نیز امتحان گردد.

 

مشاهده ی سایت توسط موتور جستجو

امکان مشاهده ی کل سایت توسط موتورهای جستجو

از آنجا که محتواهای مهم یک وب سایت در کل وب سایت وجود دارند ، لذا بسیار مهم است که خزنده های موتورهای جستجو بتوانند وارد سایت شده و همه ی محتوای سایت را در نتایج جستجو نشان دهند ، نه صرفا فقط صفحه اصلی وب سایت را ، پس لازم است که مطمئن شوید که موتور های جستجوی قادر به کشف کل سایت شما باشند زیرا چنانچه صفحاتی از سایت برای خزنده ها قابل درک نباشند ، مبهم باقی خواهند ماند ، جهت ایندکس شدن کل محتوای سایت ، موارد زیر را مد نظر قرار دهید :

ثبت نام در سایت :

اگر در یک وب سایت جهت دسترسی به محتوا آن، لازم است که کاربران ابتدا ثبت نام کنند ، مطمئنا محتوای وب سایت توسط خزنده های جستجوگر، ایندکس نخواهد شد زیرا ربات های خزنده جهت ثبت نام کردن طراحی نشده اند .

کادر جستجو :

وجود کادر جستجو در وب سایت که به منظور امکان جستجوی کاربران در کل صفحات سایت طراحی شده است ، تضمینی برای ایندکس شدن همه ی محتوای سایت توسط ربات های خزنده نخواهد بود زیرا ربات‌ها نمی توانند از کادر جستجو استفاده کنند .

محتوای غیرمتنی :

اگر چه با بروزرسانی و هوشمندتر شدن موتوهای جستجوگر می توان محتوای عکس ، فیلم ، گیف و … را نیز تا حدی تشخیص داد ولی متن های داخل این نوع محتواها به عنوان محتوای متنی ایندکس نمی شود لذا جهت نوشتن محتوا باید از قالب رایج HTML استفاده نمود.

بیشتر بخوانید:  هزینه سئو سایت

 

دنبال کردن راهنمای سایت توسط موتورهای جستجو:

اگر ربات های خزنده لینک یک وب سایت را در سایت خارجی پیدا کنند ،به راحتی وارد سایت شده و به دیگر صفحات سایت که به هم لینک داده شده و مرتبط هستند وارد خواهند شد و از این طریق به راحتی کل سایت توسط موتورهای جستجو ایندکس خواهد شد ، اما چنانچه صفحه ای از وب سایت لینکی در آن وجود ندارد و از هیچ جا به آن لینک داده نشده ، این صفحه را به کل برای موتورهای جستجو باید نامرئی فرض کرد .

دلایل عدم دسترسی ربات ها به کل سایت :

گوگل هنوز با ناوبریی که منوهای آن به زبان جاوا اسکریپت است ، مشکل دارد لذا بهتر است ناوبری وب سایت به زبان HTML باشد ، در واقع برای دسترسی راحت موتورهای جستجو به کل سایت ، نباید در گوشی‌های موبایل و دسکتاپ از ناوبری متفاوتی استفاده شود .

مخفی شدن بعضی از محتوای سایت برای ربات های خزنده ، در اثر شخصی سازی و نمایش محتوای متفاوت و یا منحصر به فرد به کاربران ، از دیگر دلایل عدم دسترسی ربات ها به کل سایت است .

عدم درج لینک در یک صفحه ی اصلی سایت سبب می شود ربات ها  نتوانند بخش های مختلف وب سایت را پیدا کنند.

ساختار وب سایت شما برای خزنده های گوگل در سال ۲۰۲۰

  • از آنجا که اکثر وب سایت ها شامل صفحه هایی  حاوی URLهای قدیمی ( حاوی محتوای ضعیف) ، URLهای تکراری(نظیر پارامتر های مرتب سازی و فیلتر برای ای‌کامرس)، صفحه‌های تستی ، صفحه‌های تبلیغاتی و غیره هستند لذا بهتر است موتورهای جستجوگر آن را ایندکس نکنند از این رو ، زمانی که اطمینان حاصل شد که ربات های خزنده (کراولرها )به راحتی می توانند به کلیه ی بخش های سایت دسترسی داشته باشند ، باید کاری کرد که به این صفحات دسترسی نداشته باشند .
  • از سوی دیگر ، محدود کردن گشت و گذار کراول ها در صفحات سایت ،  سبب خواهد شد که صفحات مهم وب سایت اولویت بندی شوند و بودجه ی کراول کردن صفحه های مهم وب سایت افزایش یابد که منظور از بودجه کراول ؛ میانگین صفحه هایی است که ربات های موتور جستجو در وب سایت بررسی می کنند .
  • راهنمایی ربات‌های موتور جستجو در وب سایت این امکان را ایجاد می کند که که ربات هایی نظیر ؛ گوگل‌‌بوت را به کمک فایل robots.txt، مگا تگ ، فایل sitemap.xml و غیره  ، راهنمایی کرد .
  • از آنجا که فایل robots.txt در ریشه وب سایت ها قرار دارد به خزنده های موتور جستجوگر توصیه می کند که کدام قسمت از سایت را باید و کدام قسمت را نباید ایندکس کند .
  • در واقع بهترین روش مسدود سازی ربات‌ها از صفحه غیر خصوصی ، استفاده از فایل  robots.txt می باشد .
  • نباید ربات‌ها را از دسترسی به صفحه های حساس و خصوصی مسدود کرد زیرا هر کاربری یا ربات با یک جستجوی ساده می تواند  به صفحه ی robots.txt دسترسی پیدا کرده و URLها را مشاهده کند .

نکات مهم فایل robots.txt :

در صورت عدم یافتن فایل robots.txt توسط ربات گوگل ، ربات به کراول کردن سایت ادامه خواهد داد (کد وضعیت ۴۰X HTTP).

در صورت یافتن فایل robots.txt توسط ربات گوگل ، ربات از دستورات پیروی کرده و طبق دستورات به کراول کردن سایت می پردازد (کد وضعیت ۲۰X HTTP).

اگر ربات گوگل نتواند کد وضعیت ۲۰X HTTP یا ۴۰X HTTP را دریافت کند(مثلا کد ۵۰۱ خطای سرور)، ربات نمی تواند مطمئن شود که آیا سایت فایل  robots.txt وجود دارد یا خیر و به همین جهت سایت شما را کراول نخواهد کرد .

دستورات متا

به طور کلی ربات های متا که دو نوع هستند ، دستورات های قویی در مورد چگونگی کراول و ایندکس کردن محتوای URL ارائه می دهند که نام این دو نوع ربات متای پرکاربرد meta robots tag و x-robots-tag می باشد .

ربات x-robots-tag انعطاف پذیری و قابلیت بالاتری را در زمینه بلاک کردن موتور های جستجو فراهم می کند زیرا می توان از عبارات منظم استفاده  کرد ، فایل های غیر HTML را مسدود کرده تا تگ های noindex در سراسر سایت اعمال شوند .

ربات های متا گزینه ی بسیار مناسبی جهت مسدود سازی  URL های حساس و خصوصی در برابر موتور های جستجو خواهند بود

توصیه می شود که جهت مخفی سازی URLهای حساس،  فرم لاگین امن در نظر گرفته شود تا در موردن ایندکس نشدن آن مطمئن باشید .

یک نکته در مورد وردپرس : در بخش داشبورد> تنظیمات> خواندن ، تیک مربوط به «قابلیت مشاهده موتور جستجو» باید زده شود ، وگرنه موتورهای جستجو از ایندکس کردن وب سایت شما به سبب وجود فایل robots.txt خودداری خواهند کرد .

مشکلات رایج اشاره شده را باید رفع کرد تا وب سایت تمیز شده و کراولر ها اماده جستوی در سایت شوند .

 

 

 

همه نظرات

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

فرم درخواست خدمات

درخواست خدمات سایت یا سئو رو از طریق فرم زیر ارسال کنید