Tag: awk

Как удалить подколонку из вложенного-CSV-файла?

Если файл разделен пробелом как таковой: 0.0 1:0.000000 2:1.000000 3:0.000000 4:0.000000 5:1.000000 6:0.000000 7:1.000000 8:1.000000 9:1.000000 10:1.000000 11:1.000000 12:1.000000 13:1.000000 14:1.000000 15:0.919033 16:1.000000 17:1.000000 18:1.000000 19:1.000000 20:0.000000 21:0.037771 0.0 1:0.000000 2:1.000000 3:0.000000 4:0.000000 5:1.000000 6:0.000000 7:1.000000 8:0.800000 9:0.666667 10:1.000000 11:0.800000 12:0.666667 13:1.000000 14:0.875000 15:0.874574 16:0.848662 17:0.901802 18:0.938795 19:0.903077 20:0.333332 21:0.196682 0.0 1:1.098612 2:1.000000 3:1.000000 4:0.000000 […]

Удаление строк с повторяющимися значениями в последних

У меня есть файл с разделителями табуляции, который выглядит так: chr1 12226559 12227059 TNFRSF1B chr1 17051560 17052060 chr1 17053279 17053779 chr1 17338423 17338923 ATP13A2 ATP13A2 ATP13A2 chr1 19577574 19578074 EMC1 MRTO4 chr1 19578046 19578546 EMC1 MRTO4 chr1 19638239 19638739 AKR7A2 PQLC2 PQLC2 PQLC2 AKR7A2 PQLC2 Я хочу, чтобы строки, где значение column4 повторяется, должны быть […]

Использование инструментов Unix для обработки текста: поиск и замена всего текста, который не находится между некоторыми строками

Я ищу, чтобы сделать некоторую обработку текста в связке * .org файлов. Я хотел бы изменить следующее в каждом файле: [my description](link) в [[link][my description]] , `some text` в =some text= , ## some heading в ** some heading , *some italics* в /some italics/ , а также **some bold** в *some bold* , Да, […]

Pythonic способ отправки содержимого файла в канал и подсчета # строк за один шаг

с учетом файла> 4gb myfile.gz, мне нужно прогнать его в трубу для потребления с помощью быстрой загрузки Teradata. Мне также нужно подсчитать количество строк в файле. В идеале, я хочу сделать только один проход через файл. Я использую awk для вывода всей строки ($ 0) в stdout и с помощью предложения END awk записывает количество […]

обрабатывать текстовый файл с использованием различных разделителей

Мой текстовый файл (к сожалению) выглядит так … <amar>[amar-1000#Fem$$$_Y](1){india|1000#Fem$$$,mumbai|1000#Mas$$$} <akbar>[akbar-1000#Fem$$$_Y](1){} <john>[-0000#$$$_N](0){USA|0100#$avi$$,NJ|0100#$avi$$} Он содержит имя клиента, за которым следует некоторая информация. Последовательность … текстовая строка, за которой следует список, набор и затем словарь <> [] () {} Это не совместимый с python файл, поэтому данные не так ожидаются. Я хочу обработать файл и извлечь некоторую информацию. […]

переупорядочение данных из нескольких файлов данных

У меня 40 000 файлов данных. Каждый файл содержит 1445 строк плавающих чисел в одном столбце. Теперь мне нужно переставить данные в другом порядке. Первое число из каждого файла данных необходимо собирать и сбрасывать в новый файл (скажем, abc1.dat). Этот конкретный файл (abc1.dat) будет содержать 40 000 номеров. И второе число из каждого файла данных […]

как обрезать файл по количеству символов в определенном столбце

У меня есть 4 столбца, разделенных символом a ; , Некоторые строки в 3-м или 4-м столбцах огромны с более чем 10000 символами. Как бы удалить строки, независимо от того, какие столбцы, где длина одного конкретного столбца превышает 10000 символов? Я попытался с этим awk '{i += (length() + 1); if (i <= 10000) print […]

Подбирать строки из файла на основе номеров строк в другом файле

У меня есть два файла: один содержит адреса (номера строк) и другие данные, например: адресный файл: 2 4 6 7 1 3 5 файл данных 1.000451451 2.000589214 3.117892278 4.479511994 5.484514874 6.784499874 7.021239396 Я хочу рандомизировать файл данных на основе количества файлов адресов, чтобы получить: 2.000589214 4.479511994 6.784499874 7.021239396 1.000451451 3.117892278 5.484514874 Я хочу сделать это […]

Обработка текста двумя файлами

У меня есть два текстовых файла в следующем формате: Во-первых, это в каждой строке: Key1:Value1 Второе: Key2:Value2 Есть ли способ заменить Value1 в file1 на Value2 полученный от использования его в качестве ключа в file2 ? Например: file1: foo:hello bar:world file2: hello:adam bar:eve Я хотел бы получить: foo:adam bar:eve Не обязательно совпадение между двумя файлами […]

Sed скрипт для редактирования файла csv или Python

В нашем проекте нам нужно импортировать файл csv в postgres. Существует несколько типов файлов, означающих длину файла, так как некоторые файлы имеют меньшее количество столбцов, а некоторые – все. Нам нужен быстрый способ импортировать этот файл в postgres. Я хочу использовать COPY FROM postgres, так как требования к скорости обработки очень высокие (почти 150 файлов […]

 
Interesting Posts for Van-Lav

Выделение int для строки в Python

итерация по двум значениям списка за раз в python

Как получить путь к файлу для класса в Python?

Использование ресурса tastypie в поле зрения

Является ли MATLAB быстрее, чем Python (небольшой простой эксперимент)

Python – Scikit находит переменную важность для категориальных переменных

Перевод отдельных слов с учетом контекста с использованием инструментов обработки компьютерных языков

Почему источник Anaconda активируется не существует?

Как разбить список на пары всеми возможными способами

Построение чередующегося буфера для pyopengl и numpy

Как создать конвейер итератора в Python?

Python – список одинаковых столбцов / строк из матрицы

Использование Celery для реального времени, синхронный внешний API-запрос с Gevent

Разработка графического интерфейса с IronPython и Visual Studio 2010

Python – повторить неудачную задачу Celery из другой очереди

Python - лучший язык программирования в мире.