1. Apache08.07.2024 в 05:53от
Загрузка...
Загрузка...

Удаление элементов хтмл в питоне

Тема в разделе "Программирование", создана пользователем lordoleg, 03.12.2019.

Метки:
  1. lordoleg

    lordoleg

    Статус:
    Оффлайн
    Регистрация:
    05.04.17
    Сообщения:
    52
    Репутация:
    25 +/-
    import requests
    response = requests.get('https://ru.wikipedia.org/wiki/Mars')
    print(response.text)
    url='https://ru.wikipedia.org/wiki/Mars'
    payload = {'key1': 'value1', 'key2': 'value2'}
    response = requests.get('http://httpbin.org/get', params=payload)
    headers = {'user-agent': 'my-app/0.0.1'}
    response = requests.get(url, headers=headers)
    from pyquery import PyQuery as pq
    d = pq(url)
    print(d)
    p = d("td")
    print(p.text())
    Вот есть код. d это спрасеный хтмл код+ текст с сайта, а p обрезаный с помощью PyQ. Но иногда он обрезает криво. Есть ли другие способы очистки входящего текста из запроса от хтмл(таблиц, гиперссылок, картинок и т.д.) Буду рад примеру кода или библиотеки. Так же приветствуется любой сурс(сам искал и ничего толкового не нашел)
     
  2. Loadi

    Loadi

    Статус:
    Оффлайн
    Регистрация:
    15.03.16
    Сообщения:
    61
    Репутация:
    44 +/-
    Зависит от цели. Лучше написать свой парсер. Если что, то можно с помощью регулярок/сплита по "<" ">" делить
     
  3. lordoleg

    lordoleg

    Статус:
    Оффлайн
    Регистрация:
    05.04.17
    Сообщения:
    52
    Репутация:
    25 +/-
    Спасибо, уже сделал. Да, ты прав, свой парсер лучше, так как заранее известно сайт. Легко из контейнеров доставать с помощью БФ4, если кому надо будет, делайте свой, займет час максимум, но можна делать вывод в файл или свой ХТМЛ проект!