הוסטס - פורום אחסון האתרים הגדול בישראל

הוסטס - פורום אחסון האתרים הגדול בישראל (https://hosts.co.il/forums/index.php)
-   פורום תיכנות (https://hosts.co.il/forums/forumdisplay.php?f=14)
-   -   קבלת מידע מHTML ושמירתו בTXT/HTML כפלט (https://hosts.co.il/forums/showthread.php?t=108508)

Tyler 04-03-15 04:30

קבלת מידע מHTML ושמירתו בTXT/HTML כפלט
 
אני מעוניין להוציא את המידע מהעמוד הבא
https://ru.wikipedia.org/wiki/%D0%9A...B8%D1%82%D1%83

ציטוט:

Показано 200 страниц из 30 624, находящихся в данной категории.
תרגום: "מוצגים 200 שמות מתוך 30,624"

ציטוט:

(предыдущие 200) (следующие 200)

תרגום: (200 קודמים) (200 הבאים).

בכל עמוד יש 200 שמות של מעיינות.
יש בסה"כ 30,624 מעיינות.
זה יוצא משהו בסביבות ה153 דפים בסה"כ.

אני מעונין לכתוב קוד שיעבור על כל ה153 ויוציא מכל דף את ה200 שמות שמופיעים בו לתוך קובץ TXT או HTML.

לבסוף אני רוצה שייצא קובץ פלט עם כל ה30,624 שמות בו.

חשבתי להשתמש ב:
file_get_html אבל הסתבכתי קצת בעיקר בגלל שמדובר פה במספר דפים ולא בעמוד אחד שאני רוצה למשוך ממנו מידע. כלומר אני לא צריך רק למשוך את המידע מהעמוד, אלא למשוך ולעבור עמוד ולמשוך מהעמוד הבא וכך הלאה.

גם ניסיתי לחפש משהו בAPI של ויקיפדיה או בקבצי המסד שלהם (שמפורסמים לציבור ומעודכנים מידי יום), ניסיתי למצוא איזשהי דרך העברה לXML או משהו בסגנון ישירות מהאתר שלהם. לא הצלחתי למצוא שום דבר.

אשמח לעזרה, תודה.

meshuga 05-03-15 17:58

תעשה דף PHP שמשתמש בfile_get_html
במקביל, דף HTML שעם AJAX מוסר לו לאיזה דף לגשת, ברגע שהוא מקבל תשובה שהוא סיים עם הדף הנוכחי, בAJAX תשלח אותה בקשה, עם העמוד הבא (או אם צריך גם תחזיר לו לאיזה עמוד לגשת...)...
(בהנחה שבדף PHP לכל עמוד אתה מפרק ומכניס לDB משלך)

Tyler 05-03-15 18:22

ציטוט:

נכתב במקור על ידי meshuga (פרסם 894608)
תעשה דף PHP שמשתמש בfile_get_html
במקביל, דף HTML שעם AJAX מוסר לו לאיזה דף לגשת, ברגע שהוא מקבל תשובה שהוא סיים עם הדף הנוכחי, בAJAX תשלח אותה בקשה, עם העמוד הבא (או אם צריך גם תחזיר לו לאיזה עמוד לגשת...)...
(בהנחה שבדף PHP לכל עמוד אתה מפרק ומכניס לDB משלך)

תודה אני אנסה את זה למרות שזה נראלי מסובך מידי ואולי גם לא יעבוד.
יש מישהו שהמליץ לי לי להשתמש בפונקציה של xpath במקביל עם הgoogle docs ולהעביר הכל לדף של אקסל איכשהו.

meshuga 06-03-15 13:07

ציטוט:

נכתב במקור על ידי Tyler (פרסם 894609)
תודה אני אנסה את זה למרות שזה נראלי מסובך מידי ואולי גם לא יעבוד.
יש מישהו שהמליץ לי לי להשתמש בפונקציה של xpath במקביל עם הgoogle docs ולהעביר הכל לדף של אקסל איכשהו.

זה לא מסובך ואני לא רואה למה שלא יעבוד...אם אתה יודע JQUERY זה ממש כמה שורות בJS..
ובPHP זה גם קצת (תלוי איך אתה מפרק את המידע שם...קצת ביטויים רגולרים...לא ממש סיפור)


כל הזמנים הם GMT +2. הזמן כעת הוא 17:37.

מופעל באמצעות VBulletin גרסה 3.8.6
כל הזכויות שמורות ©
כל הזכויות שמורות לסולל יבוא ורשתות (1997) בע"מ