Использование Python для очистки вложенных разделов и интервалов в Twitter?

Я пытаюсь очистить понравившиеся и ретвиты от результатов поиска в Twitter.

После запуска Python ниже я получаю пустой список, [] . Я не использую API-интерфейс Twitter, потому что он не смотрит на твиты хэштегом так далеко.

Код, который я использую:

 from bs4 import BeautifulSoup import requests url = 'https://twitter.com/search?q=%23bangkokbombing%20since%3A2015-08-10%20until%3A2015-09-30&src=typd&lang=en' r = requests.get(url) data = r.text soup = BeautifulSoup(data, "lxml") all_likes = soup.find_all('span', class_='ProfileTweet-actionCountForPresentation') print(all_likes) 

Я могу успешно сохранить html в файл, используя этот код. При поиске текста не хватает больших объемов информации, таких как имена классов, которые я ищу …

Поэтому (часть) проблема, по-видимому, заключается в точном доступе к исходному коду.

  filename = 'newfile2.txt' with open(filename, 'w') as handle: handle.writelines(str(data)) 

На этом снимке экрана показан диапазон, который я пытаюсь очистить.

Скриншот именно того диапазона и содержимого, которое я пытаюсь очистить.

Я посмотрел на этот вопрос, другие понравились, но я не совсем понял.
Как использовать BeautifulSoup для получения глубоко вложенных значений div?

One Solution collect form web for “Использование Python для очистки вложенных разделов и интервалов в Twitter?”

Кажется, что ваш запрос GET возвращает допустимый HTML, но без элементов твита в элементе #timeline. Однако, добавление агента пользователя в заголовки запроса, похоже, исправляет это.

 from bs4 import BeautifulSoup import requests url = 'https://twitter.com/search?q=%23bangkokbombing%20since%3A2015-08-10%20until%3A2015-09-30&src=typd&lang=en' headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2228.0 Safari/537.36'} r = requests.get(url, headers=headers) data = r.text soup = BeautifulSoup(data, "lxml") all_likes = soup.find_all('span', class_='ProfileTweet-actionCountForPresentation') print(all_likes) 
  • Проблема скремблирования созданного javascript контента с помощью Selenium и python
  • Загрузите изображения из Google image search (python)
  • Как я могу нажать кнопку «Дополнительно» при веб-сканировании Tripadvisor с использованием селена?
  • Невозможно очистить конкретную таблицу с помощью BeautifulSoup4 (Python 3)
  • Подача формы механизации Python не работает
  • Ускорение прекрасного
  • Информация о заполнении формы селена python
  • Объект списка Python не имеет ошибки атрибута
  •  
    Interesting Posts for Van-Lav

    ошибка с добавлением к файлу и использование массива

    Поиск свойств неряшливых рисованных прямоугольников

    Python, преобразование CSV-файла в таблицу SQL

    кодирование при извлечении данных из файла JSON

    Как переопределить функциональность среза списка в его производном классе

    Как я могу выполнять задания в понимании списка?

    Принудительный мой паук для паузы, чтобы остановить сканирование

    Получение ошибки кортежа при попытке проанализировать файл конфигурации

    Python Tkinter: встроить сюжет matplotlib в виджет

    Python. По умолчанию пользовательские классы имеют методы __cmp __ () и __hash __ ()? Или?

    Scipy редкая матричная альтернатива для getrow ()

    Ограничение / регулирование скорости HTTP-запросов в GRequests

    Как анализировать HTML с помощью символов, отличных от ASCII, с помощью BeautifulSoup?

    Как я могу перебирать файлы в заданном каталоге?

    Python: при отправке электронной почты всегда блокируется в разделе: smtpserver = smtplib.SMTP («smtp.gmail.com», 587)

    Python - лучший язык программирования в мире.