הוסטס - פורום אחסון האתרים הגדול בישראל

הוסטס - פורום אחסון האתרים הגדול בישראל (https://hosts.co.il/forums/index.php)
-   פורום תיכנות (https://hosts.co.il/forums/forumdisplay.php?f=14)
-   -   האם יש פה מישהו שיודע לבנות רובוטים? (https://hosts.co.il/forums/showthread.php?t=22152)

adiga000 19-05-06 19:11

האם יש פה מישהו שיודע לבנות רובוטים?
 
האם יש פה מישהו שיודע לבנות רובוטים?
למנועי חיפוש וכו'.
GOOGLEBOT לדוגמא..
משהו שמחפש ברשת האתרים..

מישהו יודע לבנות \ איך בונים דבר כזה???

BlueNosE 19-05-06 19:23

חעח
GOOGLEBOT זה מחשב עם תוכנה
מחשב ממש חזק עם מעבד סוס
בלי מערכת הפעלה אפילו אני מתאר לעצמי (או אולי אם.. O.o)
שמריץ חיפוש..
בקיצור,
תוותר.

somebody 19-05-06 19:30

ציטוט:

נכתב במקור על ידי BlueNosE
חעח
GOOGLEBOT זה מחשב עם תוכנה
מחשב ממש חזק עם מעבד סוס
בלי מערכת הפעלה אפילו אני מתאר לעצמי (או אולי אם.. O.o)
שמריץ חיפוש..
בקיצור,
תוותר.

זה לא מחשב אחד.
זה מערך של 100 אלף מחשבים..

eLad 19-05-06 19:37

אני יכול לבנות עכביש (spider) ואולי איזה מערכת שתאנדקס לך מידע (בעזרת index server), בחינם אפילו (בשביל האתגר נו מה? |קורץ|). אתה מסדר את ה cluster??

MasterNir 19-05-06 20:26

ציטוט:

נכתב במקור על ידי somebody
זה לא מחשב אחד.
זה מערך של 100 אלף מחשבים..

בואו כולנו נגזים... למה לא?

eLad 19-05-06 20:36

ציטוט:

נכתב במקור על ידי MasterNir
בואו כולנו נגזים... למה לא?

"מערך המיחשוב של גוגל מתבסס על כ30 אשכולות שונים (Data-Centers) המכילים בתוכם כל אחד בתורו מעל 2,000 מחשבים דמוייPC. סה"כ זהו מערך חסר תקדים של 60,000 מחשבים שונים המחוברים יחדיו בשיתוף פעולה מדהים ויוצרים את מערכת החיפוש היעילה הידועה בשם גוגל. זוהי המערכת המבוזרת המסחרית הגדולה ביותר הנמצאת בשימוש בעולם המכילה כ 40TB של אינפורמציה. הנחת העבודה הבסיסית של גוגל היא שכ 2 מחשבים שונים בכל יום בכל אחד מהאשכולות השונים יקרסו/יפסיקו לעבוד ובכל זאת מנוע החיפוש ימשיך לעבוד כרגיל."

שים לב שזה מעודכן לשנת 2004 בלבד (נלקח מאתר מורנו'ס)
www.google.com/bot.html

MasterNir 19-05-06 20:43

אני לא כ"כ מתעניין בגוגל ברמה כזאת, אבל ידעתי שזה מעל 50 אלף... אבל המרחק בין 50, או אפילו 60 ל-100 אלף הוא בהחלט גדול, במיוחד כשמדובר במספרים כאלה...

adiga000 19-05-06 21:39

אני לא מתכווון לעשות GOOGLE2 ..
LOL
אני רוצה רוצה לנסות ולהתקדם עם מערכת חיפוש אתרים קטנה בעזרת רובוט.
ומי שיכול לעזור לי (אלעד) בבקשה תעזרו לי..

adiga000 19-05-06 21:49

מצאתי את זה וזה די מעניין חחח..
http://www.robotstxt.org/wc/active/html/index.html
הרבה סוגי רובוטים

eLad 19-05-06 21:51

אין לי כוח כרגע לבנות משהו
מחר בבוקר אני אשרבט איזה עכביש ואני אפרסם את הקוד שלו

adiga000 19-05-06 21:53

ד"א
באיזה שפה זה?
c?
c+?
c++?
VB?
.net?

somebody 19-05-06 22:18

ציטוט:

נכתב במקור על ידי MasterNir
בואו כולנו נגזים... למה לא?

"כיצד גוגל עונה לשאלות החיפוש של מליוני האנשים הפונים אליו בכל יום? לא הגיוני שכל האנשים מגיעים אל אותו שרת, ומקבלים ממנו שרותים. על מנת לתת לפזר את עומס הפניות של גוגל, וגם על מנת להבטיח שאם חלק מהמחשבים קורסים מנוע החיפוש ימשיך לעבוד ללא הפסקה, ל-Google אין מרכז ראשי אחד אלא מספר מרכזי מידע שונים. מנוע החיפוש Google מורכב מ-100,000 שרתים המחולקים לקבוצות המכונות datacenters....."
נילקח מיפה:
http://www.k.co.il/google-seo/google's-search-engine-overview/4/
ותאמין לי שהם יודעים מה הם אומרים.

ועם כול השירותים שגוגל הוסיפו בשנתיים האחרונות תיהיה בטוח שהם עברו את ה 100 אלף שרתים.

ציטוט:

אני יכול לבנות עכביש (spider) ואולי איזה מערכת שתאנדקס לך מידע (בעזרת index server), בחינם אפילו (בשביל האתגר נו מה? |קורץ|). אתה מסדר את ה cluster??
אלעד איך אתה לוקח את התוכן מעמודים? ע"י איזה אובייקט?(אתה בכלל עושה את זה ב ASP?).
סתם בה לי לנסות ולהתנסות בעוד דברים;)

MasterNir 19-05-06 22:19

חחחח נתחיל מזה שאין שפה כזאת C+...
ואני לא חושב שזה יהיה שווה משהו אם זה לא יהיה ב-c/cpp...

adiga000 19-05-06 22:22

אין C+???
תמיד חשבתי שיש..
אוקיי..
מישהו יודע פה איך עושים דבר כזה בכלל??
אני צריך רק שזה יעשה את הדבר הבא.
1 אם זה נכנס לדף כלשהו זה מכניס את הדף למסד
2 אם בדף יש לינק זה נכנס ללינק
3 מוסיף את הדף של הלינק וזה חוזר חלילה.

MasterNir 19-05-06 22:25

עשיתי WebSpider לכתובות אימייל פעם... אבל לא חושב שיש לי את הקוד עדיין...

adiga000 19-05-06 22:34

אתה מתכנת C\CPP??
כתוב שאתה מתכנת PHP \ ASP
..
אפשרי גם בהם?

BlueNosE 19-05-06 22:35

דוגרי אלעד,
איזה שפה?
לפני שאתה הולך לישון xD

MasterNir 19-05-06 22:38

ציטוט:

נכתב במקור על ידי adiga000
אתה מתכנת C\CPP??
כתוב שאתה מתכנת PHP \ ASP
..
אפשרי גם בהם?

אני יודע C ו-CPP, אבל נראה לי מיותר להוסיף אותם לחתימה, כמו JAVA ו-ASM, כי אין להן ביקוש פה...

אי אפשר להריץ תוכנה כזאת מסקריפט PHP, כי השרת יהרוג את התהליך (עניין של קונפיגורציה, בררת המחדל היא 5 דקות) כשההגבלת זמן תגמר...

adiga000 19-05-06 22:41

אממ... מחר מישהו יכול לעזור לי בזה?.
רק שיביא לי מחר את הסקריפט הכללי (והעובד) של זה

somebody 19-05-06 22:48

לפי מה שאני יודע(נזכרתי עכשיו) אפשר לעשות ב ASP ע"י נאוביקט XMLHTTP(ניראה לי קוראים לו ככה, לא זוכר, לא השתמשתי בו בחיים).
הוא מעתיק את קוד המקור של העמוד ממקומות מוגדרים לו, ואז אפשר לבצע י" פונקציות שבונים חיפוש בקוד המקור הזה, ואפשר כמובן גם לשמור אותו במסד.
רק שזה תהליך ארוךךךך ואיטיייי.. בגלל זה לא ניראה לי שמשתמשים בסופו של דבר באוביקט הזה..

MasterNir 19-05-06 22:52

ציטוט:

נכתב במקור על ידי somebody
לפי מה שאני יודע(נזכרתי עכשיו) אפשר לעשות ב ASP ע"י נאוביקט XMLHTTP(ניראה לי קוראים לו ככה, לא זוכר, לא השתמשתי בו בחיים).
הוא מעתיק את קוד המקור של העמוד ממקומות מוגדרים לו, ואז אפשר לבצע י" פונקציות שבונים חיפוש בקוד המקור הזה, ואפשר כמובן גם לשמור אותו במסד.
רק שזה תהליך ארוךךךך ואיטיייי.. בגלל זה לא ניראה לי שמשתמשים בסופו של דבר באוביקט הזה..

כתבתי בהודעה האחרונה שלי, הסקריפט ASP ימות לפני שהוא יסיים לעבור על כל האינטרנט...

עריכה:
איזה על כל האינטרנט? לא תעבור 0.001 אחוז...

somebody 19-05-06 22:54

ציטוט:

נכתב במקור על ידי MasterNir
כתבתי בהודעה האחרונה שלי, הסקריפט ASP ימות לפני שהוא יסיים לעבור על כל האינטרנט...

עריכה:
איזה על כל האינטרנט? לא תעבור 0.001 אחוז...

זה לא שיעבור זמן ריצת שרת.
רק שזה מיגע לחכות 6 שניות,5 שניות בלי לראות תוצאות..(בדרך כלל TIME OUT(ברירת מחדל) זה 20 שניות).
אבל יכול להיות שזה קרה לי בגלל שאין לי מושג בשימוש באוביקט הזה, וסתם כתבתי משהו שניראה לי סתם "עיצבן" את השרת, אני בטוח שאם אלעד או כל תכנת אחר שמיומן ויודע יותר ממני(במיוחד באוביקט הזה), יכול להשתמש באוביקט הזה רק שזה ירוץ יותר מהר.).

MasterNir 19-05-06 22:57

ציטוט:

נכתב במקור על ידי somebody
זה לא שיעבור זמן ריצת שרת.
רק שזה מיגע לחכות 6 שניות,5 שניות בלי לראות תוצאות..(בדרך כלל TIME OUT(ברירת מחדל) זה 20 שניות).
אבל יכול להיות שזה קרה לי בגלל שאין לי מושג בשימוש באוביקט הזה, וסתם כתבתי משהו שניראה לי סתם "עיצבן" את השרת, אני בטוח שאם אלעד או כל תכנת אחר שמיומן ויודע יותר ממני(במיוחד באוביקט הזה), יכול להשתמש באוביקט הזה רק שזה ירוץ יותר מהר.).

שרתים (ב-PHP לפחות) הורגים סקריפטים גם אם הם עדיין רצים כמו שצריך אם לקח להם יותר מ-X זמן לרוץ...

adiga000 19-05-06 23:02

אי אפשר לעשות שזה יהרוס לאחר זמן ממשוך?
על תנאי?

MasterNir 20-05-06 00:03

לא... סקריפט ב-PHP גם יהיה חלש מדיי, לא מספיק יציב...

תוכנה ב-C תהיה יותר חזקה ויציבה...

BlueNosE 20-05-06 07:46

ניר זה לא נכון
הרי זה גם יכול להפסיק אחרי שעה
תלוי מה הTIMEOUT המוקצב לו, אם בכלל, יש שרתים בלי TIMEOUT (כמעט ואין, הרוב זה 30 שניות)

MasterNir 20-05-06 11:45

אמרת את זה בעצמך... נתן לו שעה אפילו, נראה לך שהסקריפט יעבור על אחוז כל שהוא מהאינטרנט?

eLad 20-05-06 17:05

איך עושים? די בקלות האמת היא..

אני בונה סקריפט קטן (סה"כ סביבות ה 100-200 שורות בלבד) שבנוי ב ASP (עם Jscript בצד שרת, אבל אפשרי גם עם Vbscript מן הסתם אבל זה יהיה קצת איטי יותר)

אני מזין למערכת כתובת של אתר גדול, נניח בתור התחלה www.walla.co.il
בעזרת xmlHTTP אני נכנס לעמוד ומחפש אחרי הביטוי הזה:

קוד:

<a _____ href=" XXXXX " ____> ___ </a>
איפה שמופיע קו תחתון אני מתעלם ממנו (כי אני לא צריך את זה) ובסופו של דבר אני מכניס לתוך משתנה את ה XXXXXים שקיימים בכל עמוד. כלומר, את הלינקים הקיימים בו.

ואז אני פשוט קורא לפונקציה ברקורסיה שתתחיל להיכנס גם לתת - קישורים (נניח www.walla.co.il/bla/bla.asp) ותיכנס גם לתת - תת קישורים וכך הלאה עד אינסוף

אני מתבסס על העובדה שסביר להניח שלפחות קישור אחד מוואלה מפנה לאתר אחר (נניח לצורך הדוגמא ynet) ואז המערכת תיכנס ל ynet ותתחיל לעבור על כל הקישורים ב ynet (ושוב אני מתבסס על העובדה שסביר להניח שלפחות קישור אחד מ Ynet מכוון לאתר אחר) וכך הלאה והלאה ובעצם אין לזה סוף

איך אני מאנדקס את המידע?
משתמש באופציה נחמדה שקיימת בשרת windows שנקראית index server ומאפשרת לי לאנדקס דפים ולחפש בהם בשניות

כדי להריץ סקריפט כזה עם אינסוף רמות צריך כמה מחשבים די חזקים ..


כל הזמנים הם GMT +2. הזמן כעת הוא 02:17.

מופעל באמצעות VBulletin גרסה 3.8.6
כל הזכויות שמורות ©
כל הזכויות שמורות לסולל יבוא ורשתות (1997) בע"מ