![]() |
# 7 | |
אחראי פורום
|
ציטוט:
אתה לוקח לדוגמא - את הוסטס כמקום התחלתי. דף ממוצע בהוסטס מגיע לסביבות ה-20KB. יש בערך 800,000 דפים עם p=NUM בכתובת, 80,000 נושאים, לכל תגובה גם יש דף משלה בכל מיני פורמטים, רק לאנדקס את הוסטס - יקח לך לפחות כמה עשרות אם לא מאות ג'יגה בייט. (או שכמובן תכין אלגוריתם שידע לזהות HEADER ו-FOOTER משתנים במהירות - שזה כמה מאות שעות פיתוח של צוות מיומן כדי לעשות כיווץ מזערי בגודל). עכשיו אתה צריך גם להיזהר מ-duplicates שנראים דומים. שים לב שאני עכשיו רק מדבר על בעיות שעלולות להיווצר על ידי בעלי אתרים שלא מתכוונים לכך ואני מדבר רק על בעיות של אחסון המידע. אז נמשיך - כמה עשרות ג'יגה בייטים על אתר (ואני מניח שאתה לא הולך לשכור צוות ענקי כדי לצמצם את זה - וגם אז... תחשוב על כל הבעיות). עכשיו - מה עם דפים דומים? נגיד, http://www.hosts.co.il/forums/?meow ו-http://www.hosts.co.il/forums/?whaf זה דפים אותו הדבר - שההבדל היחיד, שתראה למטה "שעה" וזה יהיה שונה - אז יש הבדל כלשהו. נניח שזה מציג 30 נושאים רנדומאליים - מה אז תעשה? אז נגיד ופתרת את הבעייתיות הזאת. קח לדוגמא את האתר הזה: http://www.nth-dimension.org.uk/utils/ghash.php איך תתמודד איתו? וזה אתר קטן יחסית - אבל אני מקווה שאתה מבין את הקונספט. עכשיו - כל זה בהנחה שאף אחד לא רוצה בכוונה לפגוע בפעילות ה"עכביש" שלך... להכין ספיידר זה דבר מאוד מסובך - אל תתייחס לזה בכזאת קלות ראש. |
|
![]() |
חברים פעילים הצופים באשכול זה: 1 (0 חברים ו- 1 אורחים) | |
כלים לאשכול | |
תצורת הצגה | |
|
|