ساخت موتور جستجو با پایتون

نویسنده : علی بجنوردی | زمان انتشار : 16 بهمن 1400 ساعت 17:43

عناوین مهمترین مباحث مطرح شده در جلسه ی دوم:

- Seed

- نحوه ی نگهداری اطلاعات صفحات توسط Crawler ها

- فرم بکوس-نائور (Backus–Naur Form)

برچسب‌ها:

نوشته شده در یکشنبه یازدهم فروردین ۱۳۹۲ساعت 22:57 توسط سجاد جنت بوداغی

در جلسه ی اول استاد بهشتی توضیحاتی کلی درباره ی این درس و نحوه ی برگزاری آن ارائه کردند.

اهداف این درس:

- آشنایی با یک زبان برنامه نویسی (پایتون-python)

- آشنایی با موتورهای جستجو (Search Engine) و ایجاد آن!

مجله ی form مجله ای است که در هر سری، لیستی از موفق ترین افراد را اعلام می کند که از 10 نفری که نام آنها اعلام می شود به طور میانگین 8 نفر در حوزه ی IT فعالیت می کنند و نصف این تعداد، فعالیتشان به طور مستقیم در ارتباط با موتور های جستجو می باشد. که بیانگر اهمیت Search Engine ها می باشد.

Google، Bing، ebay و windows نمونه هایی موفق از فعالیت در حوزه ی موتور جستجو هستند.

استاد بهشتی با رسم نموداری بیان کردند که طبق بررسی های علمی مشخص شده است که تا حدود سال 2040(حدودا) حجم داده ها و دانش زیاد شده و دارای یک روند رشد هماهنگ هستند. یعنی با رشد دانش، داده ها هم افزایش می یابند. ولی در مورد سال (حدودا) 2040 به بعد دو نظریه وجود دارد:

- نظریه اول بیانگر کاهش رشد دانش و افزایش حجم داده هاست.

- و نظریه ی دوم بیانگر افزایش حجم داده ها و ثابت ماندن روند رشد دانش است.

موتور جستجو از 3 بخش اصلی تشکیل شده است:

1- Crawler یا خزنده: که وظیفه ی آن این است که تمام صفحات در قالب HTML را جمع آوری کند. به طور کلی وظایف Crawler ها به سه دسته تقسیم می شود:

> جمع آوری داده یا Data Gathering

> ذخیره داده در جای مناسب یا Data Storage

> آنالیز صفحه یا Link Analyze

2- Indexer یا نمایه ساز

3- Ranker یا رتبه بندی

در این قسمت، نحوه ی حرکت و پیمایش خزنده برای جمع آوری داده، توضیح داده شد.

به طور مختصر به این صورت است که Crawler هر صفحه ی وب را پویش می کند و در صورت یافتن لینک در آن صفحه، آنها را به صورت پشته ای نگهداری می کند و به تک تک آنها رجوع می کند. این کار تا آنجایی که تمام صفحات یک سایت بررسی شوند ادامه می یابد. این روند دارای حالت سلسه مراتبی است و البته برای انجام این خزش ها از الگوریتم های پیچیده ای استفاده می شود.

در پایان هم استاد بهشتی به بیان تفاوت web و internet پرداختند.

در واقع وب، مجموعه ای از منابع اطلاعاتی یا نقاطی هستند که یک اسم دارند و می توانند با برخی منابع دیگر ارتباط داشته باشند.

البته اینها فقط نکته های بود که تو کلاس به صورت خلاصه شده یادداشت کرده بودم.

برچسب‌ها:

نوشته شده در شنبه پنجم اسفند ۱۳۹۱ساعت 16:23 توسط سجاد جنت بوداغی