Удаление элементов хтмл в питоне

lordoleg · 03.12.2019

import requests
response = requests.get('https://ru.wikipedia.org/wiki/Mars')
print(response.text)
url='https://ru.wikipedia.org/wiki/Mars'
payload = {'key1': 'value1', 'key2': 'value2'}
response = requests.get('http://httpbin.org/get', params=payload)
headers = {'user-agent': 'my-app/0.0.1'}
response = requests.get(url, headers=headers)
from pyquery import PyQuery as pq
d = pq(url)
print(d)
p = d("td")
print(p.text())
Вот есть код. d это спрасеный хтмл код+ текст с сайта, а p обрезаный с помощью PyQ. Но иногда он обрезает криво. Есть ли другие способы очистки входящего текста из запроса от хтмл(таблиц, гиперссылок, картинок и т.д.) Буду рад примеру кода или библиотеки. Так же приветствуется любой сурс(сам искал и ничего толкового не нашел)

Loadi · 29.12.2019

Зависит от цели. Лучше написать свой парсер. Если что, то можно с помощью регулярок/сплита по "<" ">" делить

lordoleg · 29.12.2019

Loadi сказал: ↑

Зависит от цели. Лучше написать свой парсер. Если что, то можно с помощью регулярок/сплита по "<" ">" делить
Нажмите, чтобы раскрыть...

Спасибо, уже сделал. Да, ты прав, свой парсер лучше, так как заранее известно сайт. Легко из контейнеров доставать с помощью БФ4, если кому надо будет, делайте свой, займет час максимум, но можна делать вывод в файл или свой ХТМЛ проект!

Удаление элементов хтмл в питоне

lordoleg

Loadi

lordoleg