View Single Post
ישן 04-03-15, 04:30   # 1
Tyler
חבר מתקדם
 
מיני פרופיל
תאריך הצטרפות: Jul 2013
הודעות: 417

Tyler לא מחובר  

Exclamation קבלת מידע מHTML ושמירתו בTXT/HTML כפלט

אני מעוניין להוציא את המידע מהעמוד הבא
https://ru.wikipedia.org/wiki/%D0%9A...B8%D1%82%D1%83

ציטוט:
Показано 200 страниц из 30 624, находящихся в данной категории.
תרגום: "מוצגים 200 שמות מתוך 30,624"

ציטוט:
(предыдущие 200) (следующие 200)

תרגום: (200 קודמים) (200 הבאים).

בכל עמוד יש 200 שמות של מעיינות.
יש בסה"כ 30,624 מעיינות.
זה יוצא משהו בסביבות ה153 דפים בסה"כ.

אני מעונין לכתוב קוד שיעבור על כל ה153 ויוציא מכל דף את ה200 שמות שמופיעים בו לתוך קובץ TXT או HTML.

לבסוף אני רוצה שייצא קובץ פלט עם כל ה30,624 שמות בו.

חשבתי להשתמש ב:
file_get_html אבל הסתבכתי קצת בעיקר בגלל שמדובר פה במספר דפים ולא בעמוד אחד שאני רוצה למשוך ממנו מידע. כלומר אני לא צריך רק למשוך את המידע מהעמוד, אלא למשוך ולעבור עמוד ולמשוך מהעמוד הבא וכך הלאה.

גם ניסיתי לחפש משהו בAPI של ויקיפדיה או בקבצי המסד שלהם (שמפורסמים לציבור ומעודכנים מידי יום), ניסיתי למצוא איזשהי דרך העברה לXML או משהו בסגנון ישירות מהאתר שלהם. לא הצלחתי למצוא שום דבר.

אשמח לעזרה, תודה.
__________________
facebook api, js, cpa, cpl, $$$
--------------------
שלח לי הודעה פרטית.
  Reply With Quote