Tag: unicode

Scrapy xpath utf-8 литералы

Мне нужно проверить скребковые поля, содержащие символы не-ascii. Когда я включаю литерал utf-8 в паука, я получаю эту ошибку: ValueError: все строки должны быть совместимы с XML: Unicode или ASCII, без NULL-байтов или управляющих символов Вот пример, который вызывает ошибку # -*- coding: utf-8 -*- import scrapy class DummySpider(scrapy.Spider): name = 'dummy' start_urls = ['http://www.google.com'] […]

Python – Map / Reduce – Как читать конкретное поле JSON при использовании примера count count count

Я следую примеру DISCO для подсчета слов из файла: Подсчет слов как карта / сокращение работы У меня нет проблем с этим, но я хочу попробовать прочитать в определенном поле из текстового файла, содержащего строки JSON. Файл имеет такие строки, как: {"favorited": false, "in_reply_to_user_id": 306846931, "contributors": null, "truncated": false, "text": "@CataDuarte8 No! av\u00edseme cuando vaya […]

Python 2.7 Unicode Dict

Мне интересно, как я могу кодировать Dicts в Python 2.7. Когда я делаю следующее: # coding=ISO-8859-1 Programmer = {'v': ["1","2x","3","4","5"]} Programmer.update({'x': ["1","2x","3","4","5"]}) Programmer.update({'y': ["1","2x","3","4","5"]}) Programmer.update({'z': ["1","2x","3","4","5"]}) Programmer.update({'æ': ["1","2x","3","4","5"]}) Programmer.update({'ø': ["1","2x","3","4","5"]}) Programmer.update({'å': ["1","2x","3","4","5"]}) print Programmer Я получил: {'v': ['1', '2x', '3', '4', '5'], '\xe5': ['1', '2x', '3', '4', '5'], '\xf8': ['1', '2x', '3', '4', '5'], '\xe6': […]

класс unicode в Python

help(unicode) печатает что-то вроде: class unicode(basestring) | unicode(string [, encoding[, errors]]) -> object … но вы можете использовать что-то отличное от basestring как аргумента, вы можете сделать unicode (1) и получить u'1 '. Что происходит в этом звонке? int не имеет метода __unicode__.

Удаление неанглийских слов из предложения в python

Я написал код, который отправляет запросы в Google и возвращает результаты. Я извлекаю фрагменты (резюме) из этих результатов для дальнейшей обработки. Тем не менее, иногда слова, отличные от английского, находятся в этих фрагментах, которые я им не хочу. например: /\u02b0w\u025bn w\u025bn unstressed \u02b0w\u0259n w\u0259n/ Я хочу только «безударное» слово в этом предложении. Как я могу […]

Python: конвертировать RTF-файл в unicode?

Я пытаюсь преобразовать строки в RTF-файл в последовательность строк unicode, а затем выполнить регулярное выражение в строках. (Мне нужно, чтобы они были unicode, чтобы я мог выводить их в другой файл.) Однако мой регулярный пример не работает – я думаю, потому что они не преобразуются в unicode должным образом. Вот мой код: usefulLines = [] […]

Ошибка UnicodeEncode в развернутом приложении Python

У меня есть простое приложение python / pyqt, которое вставляет данные в таблицу базы данных SQLITE, некоторые из записей содержат специальные символы, такие как умляуты. Я сделал разработку с использованием eclipse, протестировал ее и смог вставить все данные без каких-либо ошибок. Затем я решил создать исполняемый файл приложения. Я использую py2exe для создания исполняемого файла. […]

Как преобразовать некоторый символ в пятизначный unicode в Python 3.3?

Я хотел бы преобразовать некоторый символ в пятизначный unicode в Python 3.3. Например, import re print(re.sub('a', u'\u1D15D', 'abc' )) но результат отличается от того, что я ожидал. Должен ли я сам поставить персонаж, а не код? Есть ли лучший способ обработки пятизначных символов Юникода?

Как удалить ведущие символы Unciode из файла?

Я обрабатываю несколько тысяч xml-файлов и имею несколько проблемных файлов. В каждом случае они содержат ведущие символы Unicode, такие как C3 AF C2 BB C2 BF и EF BB BF и т. Д. Во всех случаях файл содержит только символы ASCII (после байтов заголовка), чтобы не было риска потери данных, превращающего их в ASCII. Мне […]

Преобразование кодовых точек Unicode в символ Unicode с использованием Python 3.3.1

У меня есть эта строка: sig=45C482D2486105B02211ED4A0E3163A9F7095E81.4DDB3B3A13C77FE508DCFB7C6CC68957096A406C\u0026type=video%2F3gpp%3B+codecs%3D%22mp4v.20.3%2C+mp4a.40.2%22\u0026quality=small\u 0026itag=17\u0026url=http%3A%2F%2Fr6—sn-cx5h-itql.c.youtube.com%2Fvideoplayback%3Fsource%3Dyoutube%26mt%3D1367776467%26expire%3D1367797699%26itag%3D17%26factor%3D1.25%2 6upn%3DpkX9erXUHx4%26cp%3DU0hVTFdUVV9OU0NONV9PTllHOnhGdTVLUThqUWJW%26key%3Dyt1%26id%3Dab9b0e2f311eaf00%26mv%3Dm%26newshard%3Dyes%26ms%3Dau%26ip%3D49.205.30.138%26sparams% 3Dalgorithm%252Cburst%252Ccp%252Cfactor%252Cid%252Cip%252Cipbits%252Citag%252Csource%252Cupn%252Cexpire%26burst%3D40%26algorithm%3Dthrottle-factor%26ipbits%3D8%26fexp%3D9 17000%252C919366%252C916626%252C902533%252C932000%252C932004%252C906383%252C904479%252C901208%252C925714%252C929119%252C931202%252C900821%252C900823%252C912518%252C911416 %252C930807%252C919373%252C906836%252C926403%252C900824%252C912711%252C929606%252C910075%26sver%3D3\u0026fallback_host=tc.v19.cache2.c.youtube.com Как вы можете видеть, он содержит обе формы: % xx . Например, %3 , %2F и т. Д. \ uxxxx . Например, Мне нужно преобразовать их в представление символов в Юникоде. Я использую Python 3.3.1 , и urllib.parse.unquote(s) преобразует только %xx в их представление […]

Python - лучший язык программирования в мире.