نمونه سوالات پیام نور
به فایل سون خوش آمدید

جهت استفاده بهتر از گوگل کروم استفاده نمایید.

منو كاربري
تبلیغات

سیلویکا

Image result for ‫سیویلیکا‬‎

نرم افزار آموزشی شهاب

فایل های بیشتر
آمار
تعداد دانلود فايل : 0 دانلود
امتیاز فایل : -6 امتیاز
بازدید : 142 مرتبه
گزارشات سايت

فايل هاي رايگان:
    1,657 فايل
فایل های غیر رایگان :
    5,442 فايل
فایل های ويژه:
    204 فايل
مجموع كاربران ويژه :
    0 كاربر
مجموع کاربران عادي :
    6,262 كاربر
adsads
آناتومی یک موتور جستجو وب فوق متنی در مقیاس وسیع
آناتومی یک موتور جستجو وب فوق متنی در مقیاس وسیع
تاریخ ارسال : 08 /12 /1393
دسته بندي: پابان نامه - پروژه - مقاله - تحقیق,فنی مهندسی,کامپیوتر
حجم فایل : 25.47 كيلوبايت
فرمت فايل هاي فشرده : word
تعداد صفحات : 41 صفحه
امتیاز : -6




قیمت : 3,500 تومان



توضیح :

 

آناتومی یک موتور جستجو وب فوق متنی در مقیاس وسیع

 

فهرست مطالب :
 
خلاصه
1
 
معرفي
2
 
موتورهاي جستجوي وب – گسترش يافتن: 1994-2001
3
 
گوگل: تغيير دادن وب
4
 
اهداف طراحي
5
 
كيفيت جستجوي بهينه شده
5
 
تحقيقات موتور جستجوي آكادميك
7
 
ويژگيهاي سيستم
8
 
رتبه صفحه: نظم بخشيدن به وب
9
 
توصيف محاسبه رتبه صفحه
10
 
توجيه شهودي
11
 
متن انكر (Anchor)
12
 
ويژگيهاي ديگر
13
 
3.كارهاي مربوطه
14
 
بازيافت اطلاعات
15
 
تفاوتهاي وب با مجموعه هاي كنترل شده
16
 
آناتومي سيستم
18
 
نگاهي كلي به معماري گوگل
18
 
ساختمان داده هاي مهم
21
 
فايلهاي بزرگ
21
 
مخزن
22
 
شخص سند
23
 
واژه نامه
24
 
ليستهاي بهترينها
25
 
شاخصهاي پيشرو
27
 
شاخص معكوس
28
 
جستجو و دانلود كردن وب
29
 
شاخص بندي وب
32
 
جستجو كردن
34
 
سيستم رتبه بندي
35
 
بازخور
37
 
عملكرد و نتايج
38
 
احتياجات منبع ذخيره سازي
39
 
عملكرد سيستم
40
 
عملكرد جستجو
41
 
 
 
خلاصه:
در اين بخش، به گوگل خواهم پرداخت، يك نمونة اصلي از يك موتور جستجوي در مقياس وسيع كه استفاده وسيعي از ساختار اراده شده در فوق متني مي كند. گوگل براي جستجو و يافتن (Crawl) و شاخص بندي وب به طور مؤثر و توليد نتايج هرچه رضايت بخش تر نسبت به سيستم هاي موجود طراحي شده است. اين نمونه اصلي با پايگاه داده اي متشكل متن و فوق پيوند كامل 24 ميليون صفحه در http://google.standard.edi/ موجود مي باشد. مهندسي يك موتور جستجو يك وظيفة چالش آور است. موتورهاي جستجو دهها تا صدها ميليون صفحه وب متشكل از تعداد قابل ملاحظه اي موضوعهاي متفاوت را شاخص بندي مي كنند و پاسخ گوي دهها ميليون پرس و جو به صورت روزانه هستند. بر خلاف اهميت بالاي موتورهاي جستجوي برروي وب تحقيقات آكادميك بسيار اندكي برروي آنها صورت گرفته است (در كشور عزيز ما دقيقاً هيچ مطالعه و تحقيقي صورت نگرفته است). علاوه بر اين به دليل سرعت پيشرفت تكنولوژي وب، امروزه ساخت يك موتور جستجو مسبت به سه سال پيش بسيار متفاوت است. اين بخش به بررسي و توصيف عمقي اين موتور جستجوي وب در مقياس وسيع مي پردازد. جداي از مشكلات تغيير مقياس تكنيكهاي جستجوي قديمي داده با اين وسعت، چالشهاي تكنيكي جديدي در زمينه استفاده از اطلاعات اضافي ارائه شده در فوق متن براي توليد نتايج جستجوي بوجود آمده است. اين بخش به اين كه چگونه مي توان يك سيستم در مقياس وسيع عملي كه بتواند اطلاعات اضافي ارائه شده در فقو متن را استخراج كند را توليد كرد، پاسخ خواهد گفت. همچنين ما به اين مشكل كه چگونه مي توان با مجموعه هاي فوق متن كنترل نشده (هر كسي مي تواند هر چه خواست بنيسد) كنار آمد، نيز دقت خواهيم كرد.
1. معرفي
وب چالشهاي جديدي براي بازيابي اطلاعات ايجاد مي كند. حجم اطلاعات موجود برروي وب به سرعت در حال افزايش است و به همان نسبت تعداد كاربران جديد كه در جستجوي وب بي تجربه هستند افزايش مي يابد. مردمي كه احتمالاً وب را از طريق گراف پيوند آن مرور مي كنند، اغلب كار خود را با شاخصهاي ذخيره شده با كيفيت بالاي انساني مانند ياهو! يا موتورهاي جستجو شروع مي كنند. ليتهاس ذخيره و نگهداري شده توسط انساني موضوعهاي معروف را به طور موثري پوشش مي دهند اما شخصي بودن، گران و پرهزينه بودن براي ساخت و نگهداري، كندي در پيشرفت و ناتواني در پوشش موضوعهاي مبهم و پيچيده از عيبتهاي عمده آنها محسوب مي شود. موتورهاي جستجو بر پاية هم خواني كلمات كليدي معمولاً نتيج را با كيفيت بسيار پايين برمي گرداند. براي بهتر شدن شرايط، بعضي شركتهاي تبليغاتاي تلاش وسيعي براي بدست آوردن نظر مردم از طريق گمراه كردن موتورهاي جستجوي اتوماتيك مي كنند. اقايان سرگي برين و لاورنس پيج موتور جستجوي در مقياس وسيعي ساخته اند كه به تعداد زيادي از مشكلات سيستم هاي موجود پرداخته است. و آن استفاده وسيعي از اين ساختمام ارائه شده در فوق متن مي كند به منظور فراهم كردن نتايج جستجوي با كيفيت بالاتر، اسيم اين سيستم، گوگل، انتخاب شده است. زيرا گوگل تلفظ معمول googol يا 10100 است و بسيار مناسب هدف ما براي ساختن يك موتور جستجوي بسيار در مقياس وسيع است.
1.1 موتورهاي جستجوي وب – گسترش يافتن: 1994-2001
تكنولوژي موتورهاي جستجو بايد به ميزان زيادي تغيير پيدا مي كرد تا بتواند هماهنگي خود را با گسترش وب حفظ كند. در 1994، يكي از اولين موتورهاي جستجوي وب يعمي كرم وب گسترة جهاني (WWWW) شاخصي از
000/110 صفحه وب و اسناد در دسترس وب داشت. از نوامبر 1998 موتورهاي جستجوي برتر ادعاي شاخص بندي از 2 ميليون (WebCrawler) تا 100 ميليون (از (Search Engine Watch صفحه وب و سند را داشتند. قابل پيش بيني است كه تا سال 2001 يك شاخص جامع از وب شامل بيش از دو ميليارد سند باشد. در همان زمان تعداد پرس و جوهايي كه موتورهاي جستجو اداره مي كنند به طور شگفت آوري افزايش مي يابد. در ماه مارس و آوريل 1994، كرم وب گستره جهاني (wwww) به طور روزانه حدوداً 1500 پرس و جو را دريافت مي كرد. در ماه نوامبر 1998، آلتاويستا (Altavista) اظهار داشت كه روزانه حدود 20 ميليون پرس و جو را اداره مي كند. با افزايش تعداد كاربران وب و سيستمهاي اتوماتيك كه از موتورهاي جستجو پرس و جو مي كنند به نظر مي رسد كه تا سال 2001 موتورهاي جستجو صدها ميليون پرس و جو را اداره خواهند كرد. هدف سيستم گوگل توجه به بسياري از مشكلات كيفيتي و مقياس پذيري است كه با عرضه تكنولوژي موتورهاي جستجوي اينترنتي به ميزان زيادي گسترش يافته اند.
1.2.1 گوگل: تغيير دادن وب
اين موتور جستجوايي كه در سطح وب امروز باشد چالشهاي بسياري را پديد مي آورد. تكنولوژي جستجو و يافتن سريع براي جمع آوري و به روز رساني سندهاي وب لازمي مي باشد. فضاي ذخيره سازي بهيد به طور كارآمدي براي ذخيره شاخصها و به طور اختياري خود سندها بكار گرفته شود. سيستم شاخص بندي بايد صدها گيگا بايت داده را به طور كارآمد پردازش كند. پرس و جحوها بايد به سرعت اداره شوند (با نرح صدها تا هزاران پرس و جو در ثانيه).
همان گونه كه وب گسترش مي يابد اين وظايف نيز به طور صعودي مشكل مي شوند. اگرچه عملكرد سخت افزار و هزينه ها به طور چشمگيري بهبود يافته اند و تا حدي از اين سختي را تعديل كرده اند. با اين وجود تعدادي استثناي قابل اشاره نيز مانند زمان استوانه يابي ديسك و قابليت ادامه كار در شرايط غيرمنتظره سيستم عامل وجود دارند. در طراحي گوگل هر دو مسئلهع گسترش وب  و تغييرات تكنولوژيك در نظر گرفته شده اند. گ.گل براي تغيير مقياس دادن مجموعه داده ها به خوبي طراحي شده است و از فضاي ذخيره سازي به طور مؤثري استفاده مي كند. ساختمان داده هاي آن براي دسترسي سريع بهينه سازي شده اند (به بخش 4.2 نگاه كنيد). علاوه بر اين، هزينه شاخص بندي و ذخيره متن يا HTML نهايتاً بستگي نمسبي به ميزان در دسترسي آنها دارد و اين بر تغيير مقياس منتاسب براي سيستم هاي متمركز شده مانند گوگل تاثيرگذار است.
 
.3.1 اهداف طراحي
.1.3.1 كيفيت جستجوي بهينه شده
هدف اصلي در طراحي گوگل بهينه كردنم موتورهاي جستجوي وب است. در سال 1994، بعضي از مردم تصور مي كردند يك شاخص جستجوي كامل امكان يافتن هر چيزي را ميسر مي سازد. بر طبق مقالة بهترينهاي وب 1994 – پيمايشگرها و «بهترين سرويس پيمايشي بايد امكان يافتن تقريباً هر چيزي را به آساني فراهم كند (هنگامي كه تمام داده ها وارد شدند)». اگرچه وب 1999 كاملاً متفاوت است. هر كسي كه اخيراً از يك موتور جستجو استفاده كرده باشد به سادگي در مي يابد كه كامل بودن شاخص تنها عامل مؤثر بر كيفيت نتايج جستجو نمي باشد. «نتايج آشغال» اغلب تمام نتايج مورد علاقه كاربر را خراب مي كنند. در حقيقت در نوامبر 1999، تنها يكي از چهار مكوتور تجاري برتر نتايج را خودش مي يابد (در پاسخ در ده نتيجه برتر، صفحه جستجو شده خودش را برمي رگداند). يكي از دلايل اصلي اين مشكل اين است كه تعداد سندهاي موجود در شاخصها به دلايل روشني افزايش پيدا كرده اند اما توانايي كاربر بريا يافتن و نگاه كردن اسناد پيشرفت نكرده است. مردم هنوز خواستار نتيجه اول جستجو هستند. به همين دليل، همان طور كهئ اندازة مجموعه گسترش مي يابد، به ابزارهايي كه دقت بسيار بالايي دارند نياز بيشتري پيدا مي شود (تعداد اسناد مربوط و مناسب برگردانده شده، در بين ده نتيجه برتر مي آيد). در واقع، گوگل مي خواهد مفهوم «مناسب» فقط شامل بهترين اسناد باشد درحاليكه ممكن است، ده ها هزار سند تقيرباً وجود داشته باشد. خوش بيني هاي جديدي در زمينه بهبود عملكرد موتورهاي جستجو و ساير برنامه هاي اجرايي با استفاده بيشتر از اطلاعات فوق متني بوجود آمده است
[Kleinberg 98]. علي الخصوص، ساختمان پيوندها [Page 98] و نوشته پيوندها اطلاعات زيادي براي قضاوت مناسب و فيلترينگ كيفيت فراهم مي كند. گوگل از هر دوي ساختمان پيوند و متن انكر استفاده مي كند.
 


  گزارش تخلف  |  افزودن به فایل های من | wizard | تاریخ ارسال : 08 /12 /1393

نظرات کاربران :

نظری توسط کاربران ثبت نشده است.
شما هم می توانید در مورد این فایل نظر دهید.
کاربر گرامی، لطفاً توجه داشته باشید که این بخش صرفا جهت ارائه نظرات شما درباره ی این محصول در نظر گرفته شده است. در صورتی که سوالی در رابطه با این محصول دارید یا نیازمند مشاوره هستید، فقط از طریق تماس تلفنی با بخش مشاوره اقدام نمایید.
کاربر گرامی چنانچه تمایل دارید، نقد یا نظر شما به نام خودتان در سایت ثبت شود، لطفاً لاگین نمایید.