Tag: awk

Удалить строки из файла

Я делаю некоторую обработку текста в системе unix. У меня есть доступ к командной строке на этом компьютере, и у него есть Python, Perl и установленные по умолчанию программы обработки текста, awk и т. Д. У меня есть текстовый файл, который выглядит следующим образом: 2029754527851451717 2029754527851451717 2029754527851451717 2029754527851451717 2029754527851451717 2029754527851451717 1232453488239 Tue Mar 3 10:47:44 […]

Рекурсивное значение ключа в файле

Существует файл, имеющий два столбца [можно понимать как ключ и значение]: k1 v1 k2 v2 k3 v3 k4 k1 k5 k4 Теперь я хочу, чтобы выход из этого файла: k1 v1 k2 v2 k3 v3 k4 k1 v1 k5 k4 k1 v1 Ибо, если значение другого ключа – это еще один ключ, тогда поднесите это […]

Как я могу эффективно искать множество строк сразу во многих файлах?

Привет, я отправляю свою часть кода, а затем я объясню свою цель: for eachcsv in matches: with open(eachcsv, 'r') as f: lines = f.readlines() for entry in rs: for line in lines: if entry in line: print("found %s in %s" % (entry, eachcsv)) Поэтому в «match» я получил список csv-файлов (путь к ним). Я открываю […]

удалять пустые столбцы в огромном файле

Самый быстрый способ удалить пустые столбцы в файле. Пример файла приведен ниже. Я использовал python 'pandas' package, но это занимает слишком много времени (после ~ 10 минут я не получил ответа и так ушел, как я должен сделать это для многих файлов), чтобы загрузить мой 2-гигабайтный файл. df = read_table(inFileName, sep="\t") df = df.dropna(axis=1,how='all') #remove […]

Python как «perl -pe», выполните команду Python для каждой строки в stdin

Возможный дубликат: Python эквивалентен perl -pe? Есть ли способ обработать каждую строку stdin с заданной командой Python без настройки файлов с помощью шаблона? С Perl я могу просто сделать что-то вроде: perl -pe '… command …' могу ли я сделать то же самое с Python? Примечание: что-то подобное возможно во многих других инструментах, например sed, […]

Как удалить подколонку из вложенного-CSV-файла?

Если файл разделен пробелом как таковой: 0.0 1:0.000000 2:1.000000 3:0.000000 4:0.000000 5:1.000000 6:0.000000 7:1.000000 8:1.000000 9:1.000000 10:1.000000 11:1.000000 12:1.000000 13:1.000000 14:1.000000 15:0.919033 16:1.000000 17:1.000000 18:1.000000 19:1.000000 20:0.000000 21:0.037771 0.0 1:0.000000 2:1.000000 3:0.000000 4:0.000000 5:1.000000 6:0.000000 7:1.000000 8:0.800000 9:0.666667 10:1.000000 11:0.800000 12:0.666667 13:1.000000 14:0.875000 15:0.874574 16:0.848662 17:0.901802 18:0.938795 19:0.903077 20:0.333332 21:0.196682 0.0 1:1.098612 2:1.000000 3:1.000000 4:0.000000 […]

Удаление строк с повторяющимися значениями в последних

У меня есть файл с разделителями табуляции, который выглядит так: chr1 12226559 12227059 TNFRSF1B chr1 17051560 17052060 chr1 17053279 17053779 chr1 17338423 17338923 ATP13A2 ATP13A2 ATP13A2 chr1 19577574 19578074 EMC1 MRTO4 chr1 19578046 19578546 EMC1 MRTO4 chr1 19638239 19638739 AKR7A2 PQLC2 PQLC2 PQLC2 AKR7A2 PQLC2 Я хочу, чтобы строки, где значение column4 повторяется, должны быть […]

Использование инструментов Unix для обработки текста: поиск и замена всего текста, который не находится между некоторыми строками

Я ищу, чтобы сделать некоторую обработку текста в связке * .org файлов. Я хотел бы изменить следующее в каждом файле: [my description](link) в [[link][my description]] , `some text` в =some text= , ## some heading в ** some heading , *some italics* в /some italics/ , а также **some bold** в *some bold* , Да, […]

Pythonic способ отправки содержимого файла в канал и подсчета # строк за один шаг

с учетом файла> 4gb myfile.gz, мне нужно прогнать его в трубу для потребления с помощью быстрой загрузки Teradata. Мне также нужно подсчитать количество строк в файле. В идеале, я хочу сделать только один проход через файл. Я использую awk для вывода всей строки ($ 0) в stdout и с помощью предложения END awk записывает количество […]

обрабатывать текстовый файл с использованием различных разделителей

Мой текстовый файл (к сожалению) выглядит так … <amar>[amar-1000#Fem$$$_Y](1){india|1000#Fem$$$,mumbai|1000#Mas$$$} <akbar>[akbar-1000#Fem$$$_Y](1){} <john>[-0000#$$$_N](0){USA|0100#$avi$$,NJ|0100#$avi$$} Он содержит имя клиента, за которым следует некоторая информация. Последовательность … текстовая строка, за которой следует список, набор и затем словарь <> [] () {} Это не совместимый с python файл, поэтому данные не так ожидаются. Я хочу обработать файл и извлечь некоторую информацию. […]

Python - лучший язык программирования в мире.