Pertanyaan Modul Python Terbaik untuk penguraian HTML [tertutup]


Saya memiliki situs web updater (orang dapat memperbarui konten (teks) bukan tampilan situs web) yang memiliki HTML, javascript sebagai bahasa ujung depan & python sebagai sisi back-end / server.

Saya menemukan bahwa memperbarui HTML sangat sulit dari ujung depan karena ketika saya mengambil HTML yang diperbarui oleh ele.innerHTML atau $ (ele) .html () memberi perubahan HTML tergantung pada browser (DAMN IE).

Jadi saya telah memutuskan untuk memperbarui HTML saya dari backend, yaitu, dengan Python

Menurut Anda apa modul python terbaik untuk mengurai informasi HTML & ambil?

Persyaratan saya adalah:
- bahwa modul minimal Python 2.5 atau kurang (karena hosting saya)
- Saya akan menguraikan HTML & menemukan semua elemen HTML yang ada di kelas "dapat diperbarui"
- Untuk setiap elemen kelas "dapat diupdate": ekstrak teks bagian dalam (bukan hanya teks / konten html)

Modul python mana yang Anda sarankan adalah yang terbaik untuk ini?
- HTMLParser.py
- htmllib.py
- tahu ada modul lain yang kompatibel dengan python 2.5?


5
2017-10-04 23:06


asal


Jawaban:


Saya telah menggunakan lxml ( http://lxml.de/lxmlhtml.html ). Ini relatif cepat untuk dokumen html berukuran normal dan memiliki dukungan untuk menggunakan BeautifulSoup. Seperti yang saya pahami, BeautifulSoup tidak lagi didukung jadi untuk semua proyek baru saya telah menggunakan lxml.


5
2017-10-04 23:32



Untuk menguraikan HTML, saya sarankan Anda untuk melihat Sup yang Indah. Ini cukup kuat dan dapat menangani beberapa markup yang kacau juga.

http://www.crummy.com/software/BeautifulSoup/

Lihat ini dan lihat apakah itu membantu Anda! Semoga itu terjadi.


8
2017-10-04 23:27