Tag: unicode

Удаление неанглийских слов из предложения в python

Я написал код, который отправляет запросы в Google и возвращает результаты. Я извлекаю фрагменты (резюме) из этих результатов для дальнейшей обработки. Тем не менее, иногда слова, отличные от английского, находятся в этих фрагментах, которые я им не хочу. например: /\u02b0w\u025bn w\u025bn unstressed \u02b0w\u0259n w\u0259n/ Я хочу только «безударное» слово в этом предложении. Как я могу […]

Python: конвертировать RTF-файл в unicode?

Я пытаюсь преобразовать строки в RTF-файл в последовательность строк unicode, а затем выполнить регулярное выражение в строках. (Мне нужно, чтобы они были unicode, чтобы я мог выводить их в другой файл.) Однако мой регулярный пример не работает – я думаю, потому что они не преобразуются в unicode должным образом. Вот мой код: usefulLines = [] […]

Ошибка UnicodeEncode в развернутом приложении Python

У меня есть простое приложение python / pyqt, которое вставляет данные в таблицу базы данных SQLITE, некоторые из записей содержат специальные символы, такие как умляуты. Я сделал разработку с использованием eclipse, протестировал ее и смог вставить все данные без каких-либо ошибок. Затем я решил создать исполняемый файл приложения. Я использую py2exe для создания исполняемого файла. […]

Как преобразовать некоторый символ в пятизначный unicode в Python 3.3?

Я хотел бы преобразовать некоторый символ в пятизначный unicode в Python 3.3. Например, import re print(re.sub('a', u'\u1D15D', 'abc' )) но результат отличается от того, что я ожидал. Должен ли я сам поставить персонаж, а не код? Есть ли лучший способ обработки пятизначных символов Юникода?

Как удалить ведущие символы Unciode из файла?

Я обрабатываю несколько тысяч xml-файлов и имею несколько проблемных файлов. В каждом случае они содержат ведущие символы Unicode, такие как C3 AF C2 BB C2 BF и EF BB BF и т. Д. Во всех случаях файл содержит только символы ASCII (после байтов заголовка), чтобы не было риска потери данных, превращающего их в ASCII. Мне […]

Преобразование кодовых точек Unicode в символ Unicode с использованием Python 3.3.1

У меня есть эта строка: sig=45C482D2486105B02211ED4A0E3163A9F7095E81.4DDB3B3A13C77FE508DCFB7C6CC68957096A406C\u0026type=video%2F3gpp%3B+codecs%3D%22mp4v.20.3%2C+mp4a.40.2%22\u0026quality=small\u 0026itag=17\u0026url=http%3A%2F%2Fr6—sn-cx5h-itql.c.youtube.com%2Fvideoplayback%3Fsource%3Dyoutube%26mt%3D1367776467%26expire%3D1367797699%26itag%3D17%26factor%3D1.25%2 6upn%3DpkX9erXUHx4%26cp%3DU0hVTFdUVV9OU0NONV9PTllHOnhGdTVLUThqUWJW%26key%3Dyt1%26id%3Dab9b0e2f311eaf00%26mv%3Dm%26newshard%3Dyes%26ms%3Dau%26ip%3D49.205.30.138%26sparams% 3Dalgorithm%252Cburst%252Ccp%252Cfactor%252Cid%252Cip%252Cipbits%252Citag%252Csource%252Cupn%252Cexpire%26burst%3D40%26algorithm%3Dthrottle-factor%26ipbits%3D8%26fexp%3D9 17000%252C919366%252C916626%252C902533%252C932000%252C932004%252C906383%252C904479%252C901208%252C925714%252C929119%252C931202%252C900821%252C900823%252C912518%252C911416 %252C930807%252C919373%252C906836%252C926403%252C900824%252C912711%252C929606%252C910075%26sver%3D3\u0026fallback_host=tc.v19.cache2.c.youtube.com Как вы можете видеть, он содержит обе формы: % xx . Например, %3 , %2F и т. Д. \ uxxxx . Например, Мне нужно преобразовать их в представление символов в Юникоде. Я использую Python 3.3.1 , и urllib.parse.unquote(s) преобразует только %xx в их представление […]

Как использовать шаблон контента типа Django и UTF-8 для шаблона?

Когда я делаю: return render_to_response() в Джанго. Как настроить тип контента на UTF-8? Так что все отображается UTF-8?

Печать японских (китайских) персонажей

Я читаю японский язык и хочу попробовать обработать японский текст. Я попробовал это с помощью Python 3: for i in range(1,65535): print(chr(i), end='') Тогда Питон дал мне массу ошибок. Что пошло не так? !"#$%&'()*+,-./0123456789:;<=>?@ABCDEFGHIJKLMNOPQRSTUVWXYZ[\]^_`abcdefghijklmnopqrstuvwxyz{|}~Traceback (most recent call last): File "C:\test\char.py", line 11, in <module> print(chr(i), end='') File "C:\Python31\lib\encodings\cp1252.py", line 19, in encode return codecs.charmap_encode(input,self.errors,encoding_table)[0] UnicodeEncodeError: […]

Удаление Unicode \ uxxxx в String из JSON с использованием Regex

У меня есть JSON-файл, в котором хранятся текстовые данные stream_key.json : {"text":"RT @WBali: Ideas for easter? Digging in with Seminyak\u2019s best beachfront view? \nRSVP: b&amp;f.wbali@whotels.com https:\/\/t.co\/fRoAanOkyC"} Поскольку мы видим, что текст в json-файле содержит unicode \u2019 , я хочу удалить этот код с помощью regex в Python 2.7, это мой код до сих пор (eraseunicode.py): […]

Преобразование в Emoji

поэтому я пытаюсь использовать эти данные, которые используют индикаторы unicode и делают печать с emojis. В настоящее время он находится в txt. файл, но позже я напишу в файл excel. Так или иначе, я получаю ошибку, я не уверен, что делать. Это текст, который я читаю: "Thanks @UglyGod \ud83d\ude4f https:\\/\\/t.co\\/8zVVNtv1o6\" "RT @Rosssen: Multiculti beatdown \ud83d\ude4f […]

Python - лучший язык программирования в мире.