|
הרשם | ![]() |
שאלות ותשובות | ![]() |
רשימת חברים | ![]() |
לוח שנה | ![]() |
הודעות מהיום | ![]() |
חיפוש | ![]() |
|
![]() |
![]() |
|
כלים לאשכול | תצורת הצגה |
|
![]() |
# 1 |
חסום
|
בניית מנוע חיפוש...הכיצד?
כיצד אפשר לבנות מנוע חיפוש אשר דומה למנוע החיפוש של גוגל...ז"א מבחינת התכונות של המנוע עצמו.....זאת אומרת להכניס בוטים אוטומטים אשר בודקים כל אתר כיצד הוא מתקדם לפי מילות חיפוש ועוד...ולמשל כל יומיים יהיה עדכון של הדירוג במנוע החיפוש עצמו...
יש לזה מדריכים וכו'...? |
![]() |
![]() |
# 2 |
עסק רשום [?]
|
לבנות מנוע חיפוש כמו גוגל ייקח שנים ובנוסף תצטרך צוות גדול מאוד והרבה השקעה כספית
בכל מקרה בקשר לבוטים,כתבו תוכנה שסורקת את האתרים,והתדירות של הסריקה נקבעת ע"י אלגוריתם מסויים,וההתקדמות מדף לדף זה פשוט,התוכנה עוברת על כל הלינקים באתר,מה שלא מאונדקס היא מוסיפה לרשימה של אתרים שצריכים סריקה(משהו בסיגנון) ואז אחרי כמה זמן הדף נסרק מדריכים אתה לא תמצא לזה... |
![]() |
![]() |
# 3 |
אחראי פורום
|
|
![]() |
![]() |
# 4 |
חבר וותיק
|
בקיצור- שכח מזה אלא אם כן אתה מיליונר-מיליארדר. ואז הכסף יעשה את העבודה
|
![]() |
![]() |
# 5 | |
חבר וותיק
|
ציטוט:
התיכנות של המנוע חיפוש לא מסובך בכלל, רוב העבודה היא בשיפור האלגוריתם ככה שידע לעבוד בצורה הטובה ביותר. אני פיתחתי מערכת למנוע חיפוש - בשביל ה"כיף" "לימוד" "אתגר" - וזה לא מסובך בכלל. כמובן, אני לא משווה את מה שעשיתי לגוגל אבל הוא בהחלט ברמה סבירה +, והמליונים שדיברנו פה - אתה צריך השקעה בשביל שרתים שיחזיקו את כל המידע ויספקו הכל במהירות סבירה אבל בשביל התחלה אפשר להסתפק במס' שרתים בסכום חודשי סימלי (כמה אלפי שקלים בחודש). נ.ב. למי שואל "אם זה ככה למה לא העלת אותו והפצת אותו?" - מהסיבה הפשוטה שלהתחרות ב MSN GOOGLE וכו' זה מיותר ויהווה ביזבוז זמן מוחלט. נ.ב. 2 - למי ששאל פה לגבי האינדקוס: אני הכנסתי קישור לאתר וואלה! ומשם הגיעו אלפי אתרים ומכל אחד מהם עוד ועוד ככה זה ממשיך עד כמעט אין סוף (כמובן שאני עצרתי את זה בסופו של דבר). Last edited by Inet; 12-09-09 at 15:22.. |
|
![]() |
![]() |
# 6 | |
חבר וותיק
|
ציטוט:
|
|
![]() |
![]() |
# 7 | |
אחראי פורום
|
ציטוט:
אתה לוקח לדוגמא - את הוסטס כמקום התחלתי. דף ממוצע בהוסטס מגיע לסביבות ה-20KB. יש בערך 800,000 דפים עם p=NUM בכתובת, 80,000 נושאים, לכל תגובה גם יש דף משלה בכל מיני פורמטים, רק לאנדקס את הוסטס - יקח לך לפחות כמה עשרות אם לא מאות ג'יגה בייט. (או שכמובן תכין אלגוריתם שידע לזהות HEADER ו-FOOTER משתנים במהירות - שזה כמה מאות שעות פיתוח של צוות מיומן כדי לעשות כיווץ מזערי בגודל). עכשיו אתה צריך גם להיזהר מ-duplicates שנראים דומים. שים לב שאני עכשיו רק מדבר על בעיות שעלולות להיווצר על ידי בעלי אתרים שלא מתכוונים לכך ואני מדבר רק על בעיות של אחסון המידע. אז נמשיך - כמה עשרות ג'יגה בייטים על אתר (ואני מניח שאתה לא הולך לשכור צוות ענקי כדי לצמצם את זה - וגם אז... תחשוב על כל הבעיות). עכשיו - מה עם דפים דומים? נגיד, http://www.hosts.co.il/forums/?meow ו-http://www.hosts.co.il/forums/?whaf זה דפים אותו הדבר - שההבדל היחיד, שתראה למטה "שעה" וזה יהיה שונה - אז יש הבדל כלשהו. נניח שזה מציג 30 נושאים רנדומאליים - מה אז תעשה? אז נגיד ופתרת את הבעייתיות הזאת. קח לדוגמא את האתר הזה: http://www.nth-dimension.org.uk/utils/ghash.php איך תתמודד איתו? וזה אתר קטן יחסית - אבל אני מקווה שאתה מבין את הקונספט. עכשיו - כל זה בהנחה שאף אחד לא רוצה בכוונה לפגוע בפעילות ה"עכביש" שלך... להכין ספיידר זה דבר מאוד מסובך - אל תתייחס לזה בכזאת קלות ראש. |
|
![]() |
![]() |
# 8 |
חבר מתקדם
|
יש לי שאלה בנושא, איך הבוט יודע מאיזה אתר להתחיל לסרוק ?
|
![]() |
![]() |
# 9 |
חבר וותיק
|
מתוך רשימה שאתה מגדיר לו, והיא כל הזמן גדלה בעזרת הוספת אתרים בכל סריקה
|
![]() |
![]() |
# 10 |
חבר בקהילה
|
dsadas
|
![]() |
![]() |
חברים פעילים הצופים באשכול זה: 1 (0 חברים ו- 1 אורחים) | |
|
|