موتورهای جستجو برای بررسی میلیون ها URL موجود در سطح وب نیاز به یه پروسیژور کاری و اجرای دارند که چگونه چطور کار کنند. این روند در سه مرحله زیر خلاصه می شود:
کرال کردن (Crawling): موتورهای جستجو عنکبوت و یا خزنده هایی را در اختیار دارند که اقدام به Crawl کردن (یا خزیدن) در تمام سطح اینترنت می کنند و محتواهای سایت ها را مورد ارزیابی قرار می دهند. این ربات های خزنده محتویات سایت ها را بررسی می کنند و نتیجه را برای گوگل می فرستند و از این طریق مشخص می شود این پیج ها و صفحات هر کدام چه نوع محتوایی را در بر دارند. بنابراین خزش در بین urlهای جدید اولین مرحله کاری آن ها می باشد.
ایندکس کردن (Indexing): بعد از کرال کردن یک وبسایت یا یک صفحه از یک سایت، موتور جستجو آن را در کنار صفحات مشابه در سایت های دیگر ارزیابی کرده و در نهایت طبقه بندی می کند. در حقیقت پروسه ایندکس کردن به ذخیرهسازی صفحاتی از وبسایت ها که حداقل یکبار خزش درآن ها اتفاق افتاده، در دیتابیسهای موتورهای جستجوگری مانند گوگل گفته میشود. موتورهای جستجوگر پایگاهای داده مخصوص خود را دارند که اطلاعات بسیاری از قبیل نتیجه خزش ها و اطلاعات پروسدازشی مربوطه را در خود دارند.
رتبهبندی کردن (Ranking): وقتی یک کاربر یک موضوعی را در گوگل یا هر موتور دیگری جستجو می کند، آن موتور جستجو ایندکسی از مرتبط ترین محتواها را به نحوی ارائه می دهد که شبیه ترین پاسخ ها به موضوع سرچ شده در جستجوگر به صورت اولویت بندی از پزیشن شماره 1 تا .... به کاربر ارائه شوند، یعنی که نتایج به ترتیب مرتبطترین به کم مربطترین ها رتبه بندی می شوند، به این روند رنکینگ یا رتبه بدی موتورهای جستجو گفته می شود.
خلاصه عملکرد: موتورهای جستجوگر ابتدا ابتدا خزندگان خود را به سرغ URL های جدید می فرستند تا پیج ها و محتواهای جدید را شناسایی کنند. پس از آن به محتوای موجود در آن URLها توجه می کنند و آن ها را مورد تجزیه و تحلیل قرار می دهند. بنابراین یک URL هیچگاه نباید از روی وبسایت شما حذف گردد.
پس از تجزیه و تحلیل رنکینگی از ایندکس های مرتبط را ایجاد کرده و در زمان سرچ کاربران این رتبه بندی ها را که در پایگاهای داده آن ها ذخیره شده اند را به ترتیب مشابه ترین ها نمایش می دهند.
صفحات شناسایی شده در توسط ربات ها به صورت دوره ایی کرال می شوند.
زمانبندی کرال دوباره به میزان فعالیت مدیریت وبسایت و سرعت اضافه کردن اطلاعات و محتواهای جدید تا حدودی می تواند بستگی داشته باشد.
فایل txt فایلی است که توسط مدیریت وبسایت ها (وبمستران) در سرور هاست ها قرار داده می شود تا به کرالرهای گوگل و سایر موتورهای جستجو فرمان دهد کدام urlها ها را خزش کنند و کدام ها را نه.
نام ربات گوگول را به صورت Googlebot بیان می کنند.
تصاویر، ویدئوها و فایل های غیر متنی نیز قابلیت کرال شدن را دارند.
از طریق همین خزش در فایل های متنی و جمع آوری آن ها در دیتابیس ها است که موتورهای جستجوگر می فهمند کدام صفحات کپی پیست هستند و بایستی ارزش کمتری بگیریند.
کرال مطابق Sitemap نیز یکی دیگر از روش های مورد استفاده در خزنده های موتورهای جستجوگر می باشد.