موضوعات وبسایت : تبلیغات
سوالات ICDL
آموزش امنیت اینستاگرام

ساخت موتور جستجو با پایتون

نویسنده : علی بجنوردی | زمان انتشار : 16 بهمن 1400 ساعت 17:43

عناوین مهمترین مباحث مطرح شده در جلسه ی دوم:

آموزش امنیت اینستاگرام
سوالات ICDL

- Seed

- نحوه ی نگهداری اطلاعات صفحات توسط Crawler ها

- فرم بکوس-نائور (Backus–Naur Form)



بخوانید...

برچسب‌ها:

خزنده

,

seed

,

موتور جستجو

,

پایتون

,

backus naur+

نوشته شده در یکشنبه یازدهم فروردین ۱۳۹۲ساعت 22:57 توسط سجاد جنت بوداغی

در جلسه ی اول استاد بهشتی توضیحاتی کلی درباره ی این درس و نحوه ی برگزاری آن ارائه کردند.

اهداف این درس:

        - آشنایی با یک زبان برنامه نویسی (پایتون-python)

        - آشنایی با موتورهای جستجو (Search Engine) و ایجاد آن!

مجله ی form مجله ای است که در هر سری، لیستی از موفق ترین افراد را اعلام می کند که از 10 نفری که نام آنها اعلام می شود به طور میانگین 8 نفر در حوزه ی IT فعالیت می کنند و نصف این تعداد، فعالیتشان به طور مستقیم در ارتباط با موتور های جستجو می باشد. که بیانگر اهمیت Search Engine ها می باشد.

Google، Bing، ebay و windows نمونه هایی موفق از فعالیت در حوزه ی موتور جستجو هستند.

استاد بهشتی با رسم نموداری بیان کردند که طبق بررسی های علمی مشخص شده است که تا حدود سال 2040(حدودا) حجم داده ها و دانش زیاد شده و دارای یک روند رشد هماهنگ هستند. یعنی با رشد دانش، داده ها هم افزایش می یابند. ولی در مورد سال (حدودا) 2040 به بعد دو نظریه وجود دارد:

- نظریه اول بیانگر کاهش رشد دانش و افزایش حجم داده هاست.

- و نظریه ی دوم بیانگر افزایش حجم داده ها و ثابت ماندن روند رشد دانش است.

موتور جستجو از 3 بخش اصلی تشکیل شده است:

        1- Crawler یا خزنده: که وظیفه ی آن این است که تمام صفحات در قالب HTML را جمع آوری کند. به طور کلی وظایف Crawler ها به سه دسته تقسیم می شود:

              > جمع آوری داده یا Data Gathering

              > ذخیره داده در جای مناسب یا Data Storage

              > آنالیز صفحه یا Link Analyze

        2- Indexer یا نمایه ساز

        3- Ranker یا رتبه بندی

در این قسمت، نحوه ی حرکت و پیمایش خزنده برای جمع آوری داده، توضیح داده شد.

به طور مختصر به این صورت است که Crawler هر صفحه ی وب را پویش می کند و در صورت یافتن لینک در آن صفحه، آنها را به صورت پشته ای نگهداری می کند و به تک تک آنها رجوع می کند. این کار تا آنجایی که تمام صفحات یک سایت بررسی شوند ادامه می یابد. این روند دارای حالت سلسه مراتبی است و البته برای انجام این خزش ها از الگوریتم های پیچیده ای استفاده می شود.

در پایان هم استاد بهشتی به بیان تفاوت web و internet پرداختند.

در واقع وب، مجموعه ای از منابع اطلاعاتی یا نقاطی هستند که یک اسم دارند و می توانند با برخی منابع دیگر ارتباط داشته باشند.

البته اینها فقط نکته های بود که تو کلاس به صورت خلاصه شده یادداشت کرده بودم.


برچسب‌ها:

موتور جستجو

,

پایتون

,

خزنده

,

crawler

,

indexer+

نوشته شده در شنبه پنجم اسفند ۱۳۹۱ساعت 16:23 توسط سجاد جنت بوداغی

آیا این مطلب برای شما مفید بود؟




ارسال نظر

نام


ایمیل


نظر