אני מעוניין להוציא את המידע מהעמוד הבא
https://ru.wikipedia.org/wiki/%D0%9A...B8%D1%82%D1%83
ציטוט:
Показано 200 страниц из 30 624, находящихся в данной категории.
|
תרגום: "מוצגים 200 שמות מתוך 30,624"
ציטוט:
(предыдущие 200) (следующие 200)
|
תרגום: (200 קודמים) (200 הבאים).
בכל עמוד יש 200 שמות של מעיינות.
יש בסה"כ 30,624 מעיינות.
זה יוצא משהו בסביבות ה153 דפים בסה"כ.
אני מעונין לכתוב קוד שיעבור על כל ה153 ויוציא מכל דף את ה200 שמות שמופיעים בו לתוך קובץ TXT או HTML.
לבסוף אני רוצה שייצא קובץ פלט עם כל ה30,624 שמות בו.
חשבתי להשתמש ב:
file_get_html אבל הסתבכתי קצת בעיקר בגלל שמדובר פה במספר דפים ולא בעמוד אחד שאני רוצה למשוך ממנו מידע. כלומר אני לא צריך רק למשוך את המידע מהעמוד, אלא למשוך ולעבור עמוד ולמשוך מהעמוד הבא וכך הלאה.
גם ניסיתי לחפש משהו בAPI של ויקיפדיה או בקבצי המסד שלהם (שמפורסמים לציבור ומעודכנים מידי יום), ניסיתי למצוא איזשהי דרך העברה לXML או משהו בסגנון ישירות מהאתר שלהם. לא הצלחתי למצוא שום דבר.
אשמח לעזרה, תודה.