ساخت موتور جستجو با پایتون
نویسنده : علی بجنوردی | زمان انتشار : 16 بهمن 1400 ساعت 17:43
عناوین مهمترین مباحث مطرح شده در جلسه ی دوم:
- Seed
- نحوه ی نگهداری اطلاعات صفحات توسط Crawler ها
- فرم بکوس-نائور (Backus–Naur Form)
برچسبها:
,
,
,
,
نوشته شده در یکشنبه یازدهم فروردین ۱۳۹۲ساعت 22:57 توسط سجاد جنت بوداغی
در جلسه ی اول استاد بهشتی توضیحاتی کلی درباره ی این درس و نحوه ی برگزاری آن ارائه کردند.
اهداف این درس:
- آشنایی با یک زبان برنامه نویسی (پایتون-python)
- آشنایی با موتورهای جستجو (Search Engine) و ایجاد آن!
مجله ی form مجله ای است که در هر سری، لیستی از موفق ترین افراد را اعلام می کند که از 10 نفری که نام آنها اعلام می شود به طور میانگین 8 نفر در حوزه ی IT فعالیت می کنند و نصف این تعداد، فعالیتشان به طور مستقیم در ارتباط با موتور های جستجو می باشد. که بیانگر اهمیت Search Engine ها می باشد.
Google، Bing، ebay و windows نمونه هایی موفق از فعالیت در حوزه ی موتور جستجو هستند.
استاد بهشتی با رسم نموداری بیان کردند که طبق بررسی های علمی مشخص شده است که تا حدود سال 2040(حدودا) حجم داده ها و دانش زیاد شده و دارای یک روند رشد هماهنگ هستند. یعنی با رشد دانش، داده ها هم افزایش می یابند. ولی در مورد سال (حدودا) 2040 به بعد دو نظریه وجود دارد:
- نظریه اول بیانگر کاهش رشد دانش و افزایش حجم داده هاست.
- و نظریه ی دوم بیانگر افزایش حجم داده ها و ثابت ماندن روند رشد دانش است.
موتور جستجو از 3 بخش اصلی تشکیل شده است:
1- Crawler یا خزنده: که وظیفه ی آن این است که تمام صفحات در قالب HTML را جمع آوری کند. به طور کلی وظایف Crawler ها به سه دسته تقسیم می شود:
> جمع آوری داده یا Data Gathering
> ذخیره داده در جای مناسب یا Data Storage
> آنالیز صفحه یا Link Analyze
2- Indexer یا نمایه ساز
3- Ranker یا رتبه بندی
در این قسمت، نحوه ی حرکت و پیمایش خزنده برای جمع آوری داده، توضیح داده شد.
به طور مختصر به این صورت است که Crawler هر صفحه ی وب را پویش می کند و در صورت یافتن لینک در آن صفحه، آنها را به صورت پشته ای نگهداری می کند و به تک تک آنها رجوع می کند. این کار تا آنجایی که تمام صفحات یک سایت بررسی شوند ادامه می یابد. این روند دارای حالت سلسه مراتبی است و البته برای انجام این خزش ها از الگوریتم های پیچیده ای استفاده می شود.
در پایان هم استاد بهشتی به بیان تفاوت web و internet پرداختند.
در واقع وب، مجموعه ای از منابع اطلاعاتی یا نقاطی هستند که یک اسم دارند و می توانند با برخی منابع دیگر ارتباط داشته باشند.
البته اینها فقط نکته های بود که تو کلاس به صورت خلاصه شده یادداشت کرده بودم.
برچسبها:
,
,
,
,
نوشته شده در شنبه پنجم اسفند ۱۳۹۱ساعت 16:23 توسط سجاد جنت بوداغی