הרשם שאלות ותשובות רשימת חברים לוח שנה הודעות מהיום

חזור   הוסטס - פורום אחסון האתרים הגדול בישראל > עיצוב גראפי, תכנות על כל שפותיו וקידום ושיווק אתרים > פורום תיכנות

   
|!|

השב
 
כלים לאשכול תצורת הצגה
ישן 10-09-09, 19:27   # 1
Dws.co.il
חסום
 
מיני פרופיל
תאריך הצטרפות: Mar 2007
הודעות: 489

Dws.co.il לא מחובר  

בניית מנוע חיפוש...הכיצד?

כיצד אפשר לבנות מנוע חיפוש אשר דומה למנוע החיפוש של גוגל...ז"א מבחינת התכונות של המנוע עצמו.....זאת אומרת להכניס בוטים אוטומטים אשר בודקים כל אתר כיצד הוא מתקדם לפי מילות חיפוש ועוד...ולמשל כל יומיים יהיה עדכון של הדירוג במנוע החיפוש עצמו...

יש לזה מדריכים וכו'...?
  Reply With Quote
ישן 10-09-09, 19:46   # 2
Erez | TrustMedia.co.il
עסק רשום [?]
 
מיני פרופיל
תאריך הצטרפות: Jul 2008
הודעות: 1,854

Erez | TrustMedia.co.il לא מחובר  

לבנות מנוע חיפוש כמו גוגל ייקח שנים ובנוסף תצטרך צוות גדול מאוד והרבה השקעה כספית
בכל מקרה בקשר לבוטים,כתבו תוכנה שסורקת את האתרים,והתדירות של הסריקה נקבעת ע"י אלגוריתם מסויים,וההתקדמות מדף לדף זה פשוט,התוכנה עוברת על כל הלינקים באתר,מה שלא מאונדקס היא מוסיפה לרשימה של אתרים שצריכים סריקה(משהו בסיגנון) ואז אחרי כמה זמן הדף נסרק
מדריכים אתה לא תמצא לזה...
__________________
  Reply With Quote
ישן 10-09-09, 20:02   # 3
Daniel
אחראי פורום
 
מיני פרופיל
תאריך הצטרפות: Mar 2007
הודעות: 2,875

Daniel לא מחובר  

http://infolab.stanford.edu/~backrub/google.html
  Reply With Quote
ישן 10-09-09, 21:18   # 4
AlmogBaku
חבר וותיק
 
AlmogBaku's Avatar
 
מיני פרופיל
תאריך הצטרפות: Nov 2007
מיקום: מודיעין
הודעות: 1,022

AlmogBaku לא מחובר  

בקיצור- שכח מזה אלא אם כן אתה מיליונר-מיליארדר. ואז הכסף יעשה את העבודה
  Reply With Quote
ישן 12-09-09, 15:20   # 5
Inet
חבר וותיק
 
מיני פרופיל
תאריך הצטרפות: Nov 2007
הודעות: 1,295
שלח הודעה באמצעות ICO אל Inet שלח הודעה באמצעות MSN אל Inet

Inet לא מחובר  

ציטוט:
נכתב במקור על ידי Baku צפה בהודעה
בקיצור- שכח מזה אלא אם כן אתה מיליונר-מיליארדר. ואז הכסף יעשה את העבודה
אנשים, תפסיקו לדבר שטויות.

התיכנות של המנוע חיפוש לא מסובך בכלל, רוב העבודה היא בשיפור האלגוריתם ככה שידע לעבוד בצורה הטובה ביותר. אני פיתחתי מערכת למנוע חיפוש - בשביל ה"כיף" "לימוד" "אתגר" - וזה לא מסובך בכלל.

כמובן, אני לא משווה את מה שעשיתי לגוגל אבל הוא בהחלט ברמה סבירה +, והמליונים שדיברנו פה - אתה צריך השקעה בשביל שרתים שיחזיקו את כל המידע ויספקו הכל במהירות סבירה אבל בשביל התחלה אפשר להסתפק במס' שרתים בסכום חודשי סימלי (כמה אלפי שקלים בחודש).

נ.ב. למי שואל "אם זה ככה למה לא העלת אותו והפצת אותו?" - מהסיבה הפשוטה שלהתחרות ב MSN GOOGLE וכו' זה מיותר ויהווה ביזבוז זמן מוחלט.

נ.ב. 2 - למי ששאל פה לגבי האינדקוס: אני הכנסתי קישור לאתר וואלה! ומשם הגיעו אלפי אתרים ומכל אחד מהם עוד ועוד ככה זה ממשיך עד כמעט אין סוף (כמובן שאני עצרתי את זה בסופו של דבר).
__________________

Last edited by Inet; 12-09-09 at 15:22..
  Reply With Quote
ישן 12-09-09, 19:15   # 6
AlmogBaku
חבר וותיק
 
AlmogBaku's Avatar
 
מיני פרופיל
תאריך הצטרפות: Nov 2007
מיקום: מודיעין
הודעות: 1,022

AlmogBaku לא מחובר  

ציטוט:
נכתב במקור על ידי Inet צפה בהודעה
אנשים, תפסיקו לדבר שטויות.

התיכנות של המנוע חיפוש לא מסובך בכלל, רוב העבודה היא בשיפור האלגוריתם ככה שידע לעבוד בצורה הטובה ביותר. אני פיתחתי מערכת למנוע חיפוש - בשביל ה"כיף" "לימוד" "אתגר" - וזה לא מסובך בכלל.

כמובן, אני לא משווה את מה שעשיתי לגוגל אבל הוא בהחלט ברמה סבירה +, והמליונים שדיברנו פה - אתה צריך השקעה בשביל שרתים שיחזיקו את כל המידע ויספקו הכל במהירות סבירה אבל בשביל התחלה אפשר להסתפק במס' שרתים בסכום חודשי סימלי (כמה אלפי שקלים בחודש).

נ.ב. למי שואל "אם זה ככה למה לא העלת אותו והפצת אותו?" - מהסיבה הפשוטה שלהתחרות ב MSN GOOGLE וכו' זה מיותר ויהווה ביזבוז זמן מוחלט.

נ.ב. 2 - למי ששאל פה לגבי האינדקוס: אני הכנסתי קישור לאתר וואלה! ומשם הגיעו אלפי אתרים ומכל אחד מהם עוד ועוד ככה זה ממשיך עד כמעט אין סוף (כמובן שאני עצרתי את זה בסופו של דבר).
וזו בדיוק הסיבה שהוא צריך כמה מיליונים(הסיבה: שרתים, פיתוח אלגוריתמים, וכו').
  Reply With Quote
ישן 12-09-09, 20:27   # 7
Daniel
אחראי פורום
 
מיני פרופיל
תאריך הצטרפות: Mar 2007
הודעות: 2,875

Daniel לא מחובר  

ציטוט:
נכתב במקור על ידי Inet צפה בהודעה
אנשים, תפסיקו לדבר שטויות.

התיכנות של המנוע חיפוש לא מסובך בכלל, רוב העבודה היא בשיפור האלגוריתם ככה שידע לעבוד בצורה הטובה ביותר. אני פיתחתי מערכת למנוע חיפוש - בשביל ה"כיף" "לימוד" "אתגר" - וזה לא מסובך בכלל.

כמובן, אני לא משווה את מה שעשיתי לגוגל אבל הוא בהחלט ברמה סבירה +, והמליונים שדיברנו פה - אתה צריך השקעה בשביל שרתים שיחזיקו את כל המידע ויספקו הכל במהירות סבירה אבל בשביל התחלה אפשר להסתפק במס' שרתים בסכום חודשי סימלי (כמה אלפי שקלים בחודש).

נ.ב. למי שואל "אם זה ככה למה לא העלת אותו והפצת אותו?" - מהסיבה הפשוטה שלהתחרות ב MSN GOOGLE וכו' זה מיותר ויהווה ביזבוז זמן מוחלט.

נ.ב. 2 - למי ששאל פה לגבי האינדקוס: אני הכנסתי קישור לאתר וואלה! ומשם הגיעו אלפי אתרים ומכל אחד מהם עוד ועוד ככה זה ממשיך עד כמעט אין סוף (כמובן שאני עצרתי את זה בסופו של דבר).
בוא נחשוב טיפה.

אתה לוקח לדוגמא - את הוסטס כמקום התחלתי.

דף ממוצע בהוסטס מגיע לסביבות ה-20KB.
יש בערך 800,000 דפים עם p=NUM בכתובת, 80,000 נושאים,

לכל תגובה גם יש דף משלה בכל מיני פורמטים,


רק לאנדקס את הוסטס - יקח לך לפחות כמה עשרות אם לא מאות ג'יגה בייט.
(או שכמובן תכין אלגוריתם שידע לזהות HEADER ו-FOOTER משתנים במהירות - שזה כמה מאות שעות פיתוח של צוות מיומן כדי לעשות כיווץ מזערי בגודל).

עכשיו אתה צריך גם להיזהר מ-duplicates שנראים דומים. שים לב שאני עכשיו רק מדבר על בעיות שעלולות להיווצר על ידי בעלי אתרים שלא מתכוונים לכך ואני מדבר רק על בעיות של אחסון המידע.

אז נמשיך - כמה עשרות ג'יגה בייטים על אתר (ואני מניח שאתה לא הולך לשכור צוות ענקי כדי לצמצם את זה - וגם אז... תחשוב על כל הבעיות).

עכשיו - מה עם דפים דומים? נגיד, http://www.hosts.co.il/forums/?meow ו-http://www.hosts.co.il/forums/?whaf זה דפים אותו הדבר - שההבדל היחיד, שתראה למטה "שעה" וזה יהיה שונה - אז יש הבדל כלשהו.
נניח שזה מציג 30 נושאים רנדומאליים - מה אז תעשה?

אז נגיד ופתרת את הבעייתיות הזאת.

קח לדוגמא את האתר הזה:
http://www.nth-dimension.org.uk/utils/ghash.php

איך תתמודד איתו? וזה אתר קטן יחסית - אבל אני מקווה שאתה מבין את הקונספט.


עכשיו - כל זה בהנחה שאף אחד לא רוצה בכוונה לפגוע בפעילות ה"עכביש" שלך...


להכין ספיידר זה דבר מאוד מסובך - אל תתייחס לזה בכזאת קלות ראש.
  Reply With Quote
ישן 11-09-09, 14:01   # 8
Adir
חבר מתקדם
 
מיני פרופיל
תאריך הצטרפות: Feb 2006
הודעות: 685
שלח הודעה באמצעות MSN אל Adir

Adir לא מחובר  

יש לי שאלה בנושא, איך הבוט יודע מאיזה אתר להתחיל לסרוק ?
  Reply With Quote
ישן 11-09-09, 14:08   # 9
AlmogBaku
חבר וותיק
 
AlmogBaku's Avatar
 
מיני פרופיל
תאריך הצטרפות: Nov 2007
מיקום: מודיעין
הודעות: 1,022

AlmogBaku לא מחובר  

מתוך רשימה שאתה מגדיר לו, והיא כל הזמן גדלה בעזרת הוספת אתרים בכל סריקה
  Reply With Quote
ישן 11-09-09, 14:12   # 10
gaming-pc
חבר בקהילה
 
מיני פרופיל
תאריך הצטרפות: Mar 2009
הודעות: 221

gaming-pc לא מחובר  

dsadas

ציטוט:
נכתב במקור על ידי Baku צפה בהודעה
מתוך רשימה שאתה מגדיר לו, והיא כל הזמן גדלה בעזרת הוספת אתרים בכל סריקה
כלומר,"בהתחלה" גוגל הסתמך ש:
1.לכל אתר\דף יש לינק אליו מאתר\דף אחר?
2.בעיקרון זה אומר שיקח כמה חודשים טובים אם לא שנים להוסיף מעל ל70-90% מהדפים שיש באינטרנט,לא?
  Reply With Quote
השב

חברים פעילים הצופים באשכול זה: 1 (0 חברים ו- 1 אורחים)
 


חוקי פירסום
You may not post new threads
You may not post replies
You may not post attachments
You may not edit your posts

BB code is מופעל
סמיילים הם מופעל
[IMG] קוד מופעל
קוד HTML מכובה

קפיצה לפורום


כל הזמנים הם GMT +2. הזמן כעת הוא 22:19.

מופעל באמצעות VBulletin גרסה 3.8.6
כל הזכויות שמורות ©
כל הזכויות שמורות לסולל יבוא ורשתות (1997) בע"מ