Как удалить юникод?

Во время стирания веб-страниц и после избавления от всех html-тегов я получил черный телефонный символ \ u260e в юникоде (☎). Но в отличие от этого ответа я тоже хочу избавиться от него.

Я использовал следующие регулярные выражения в Scrapy для устранения тегов html:

pattern = re.compile("<.*?>|&nbsp;|&amp;",re.DOTALL|re.M) 

Затем я попытался сопоставить \ u260e, и я думаю, что меня поймал язва обратной косой черты . Я безуспешно пробовал эти шаблоны:

 pattern = re.compile("<.*?>|&nbsp;|&amp;|\u260e",re.DOTALL|re.M) pattern = re.compile("<.*?>|&nbsp;|&amp;|\\u260e",re.DOTALL|re.M) pattern = re.compile("<.*?>|&nbsp;|&amp;|\\\\u260e",re.DOTALL|re.M) 

Ничего из этого не получилось, и у меня все еще есть \ u260e как результат. Как я могу заставить это исчезнуть?

3 Solutions collect form web for “Как удалить юникод?”

Используя Python 2.7.3, для меня работает отлично:

 import re pattern = re.compile(u"<.*?>|&nbsp;|&amp;|\u260e",re.DOTALL|re.M) s = u"bla ble \u260e blo" re.sub(pattern, "", s) 

Вывод:

 u'bla ble blo' 

Как указано в @Zack, это работает из-за того, что строка теперь находится в юникоде, т. \u260e Строка уже конвертирована, а последовательность символов \u260e теперь является, вероятно, двумя байтами, которые использовались для написания этой маленькой черный телефон ☎ (:

Как только строка, подлежащая поиску, и регулярное выражение имеет сам черный телефон, а не последовательность символов \u260e , они оба совпадают.

Если ваша строка уже юникод, есть два простых способа. Очевидно, что второй будет влиять не только на ☎.

 >>> import string >>> foo = u"Lorum ☎ Ipsum" >>> foo.replace(u'☎', '') u'Lorum Ipsum' >>> "".join(s for s in foo if s in string.printable) u'Lorum Ipsum' 
  • Удалите символы не-ascii, но оставьте периоды и пробелы для получения дополнительной информации о string.printable
  • Самый лучший способ удалить несколько пробелов в строке на Python, если вы не хотите использовать несколько пробелов.

Вы можете попробовать с BeatifulSoup, как объяснено здесь , с чем-то вроде

 soup = BeautifulSoup (html.decode('utf-8', 'ignore')) 
  • рекурсивное сканирование с помощью Python и Scrapy
  • URL-адрес Facebook, возвращающий ответ URL-адреса мобильной версии в scrapy
  • Передача аргументов в process.crawl в Scrapy python
  • ошибка возникает при установке криптографии для scrapy в virtualenv на OS X
  • Ошибка при установке лучевой терапии
  • urlparse: ModuleNotFoundError, предположительно в Python2.7 и под кондой
  • Scrapy - Реактор не восстанавливается
  • Неоднократно не удалось установить scrapy и lxml
  •  
    Interesting Posts for Van-Lav

    Установка пакетов / модулей Python на Mac

    Отображение количества объектов на экране

    Singleton через модули

    Ошибка PyLint «Не удалось импортировать» – как установить PYTHONPATH?

    Получить данные из сценариев Jython с помощью JSR-223

    Обнаружение, если учетная запись пользователя Active Directory заблокирована с использованием LDAP в Python

    Как избежать глобальных переменных

    быстрый способ найти наименьший положительный истинный корень четвертичного многочлена 4 степени в питоне

    Почему вызов генератора KFold с тасованием дает одинаковые индексы?

    Удаление элементов с последовательными обманами

    forwardfill в сочетании с вычислением (метод = 'ffill' * xyz) в python pandas

    Какой хороший способ заменить международных персонажей их базовыми латинскими аналогами с помощью Python?

    Reportlab: заголовок с данными со страницы

    Недопустимое время закрытия IP-штекера в ОС Windows

    ссылка на аудиолаб в python2.6 на osx

    Python - лучший язык программирования в мире.