Tag: awk

Подбирать строки из файла на основе номеров строк в другом файле

У меня есть два файла: один содержит адреса (номера строк) и другие данные, например: адресный файл: 2 4 6 7 1 3 5 файл данных 1.000451451 2.000589214 3.117892278 4.479511994 5.484514874 6.784499874 7.021239396 Я хочу рандомизировать файл данных на основе количества файлов адресов, чтобы получить: 2.000589214 4.479511994 6.784499874 7.021239396 1.000451451 3.117892278 5.484514874 Я хочу сделать это […]

Обработка текста двумя файлами

У меня есть два текстовых файла в следующем формате: Во-первых, это в каждой строке: Key1:Value1 Второе: Key2:Value2 Есть ли способ заменить Value1 в file1 на Value2 полученный от использования его в качестве ключа в file2 ? Например: file1: foo:hello bar:world file2: hello:adam bar:eve Я хотел бы получить: foo:adam bar:eve Не обязательно совпадение между двумя файлами […]

Sed скрипт для редактирования файла csv или Python

В нашем проекте нам нужно импортировать файл csv в postgres. Существует несколько типов файлов, означающих длину файла, так как некоторые файлы имеют меньшее количество столбцов, а некоторые – все. Нам нужен быстрый способ импортировать этот файл в postgres. Я хочу использовать COPY FROM postgres, так как требования к скорости обработки очень высокие (почти 150 файлов […]

Использовать имя папки в виде столбца в текстовом файле

Ленивый меня подумывает о добавлении колонки в некоторые текстовые файлы. Текстовые файлы находятся в каталогах, и я хотел бы добавить имя каталога в текстовый файл. Как текстовый файл text.txt в папке the_peasant : has a wart was dressed up like a witch has a false nose станет: the_peasant has a wart the_peasant was dressed up […]

Почему 4 разных языка дают 4 разных результата?

Рассмотрим это (все команды выполняются на 64-битной системе Arch Linux): Perl (v5.24.0) $ perl -le 'print 10190150730169267102/1000%10' 6 awk (GNU Awk 4.1.3) $ awk 'BEGIN{print 10190150730169267102/1000%10}' 6 R (3.3.1) > (10190150730169267102/1000)%%10 [1] 6 bc $ echo 10190150730169267102/1000%10 | bc 7 Python 2 (2.7.12) >>> print(10190150730169267102/1000%10) 7 Python 3 (3.5.2) >>> print(10190150730169267102/1000%10) 8.0 Итак, Perl, gawk […]

Регулярное выражение – заменить все пробелы в начале строки на периоды

Меня не волнует, если я достиг этого через vim, sed, awk, python и т. Д. Я пробовал все, не мог сделать это. Для ввода: top f1 f2 f3 sub1 f1 f2 f3 sub2 f1 f2 f3 sub21 f1 f2 f3 sub3 f1 f2 f3 Я хочу: top f1 f2 f3 …sub1 f1 f2 f3 …sub2 […]

Удаление дублированных строк из txt-файла

Я обрабатываю большие текстовые файлы (~ 20 МБ), содержащие данные, разделенные линией. Большинство записей данных дублируются, и я хочу удалить эти дубликаты, чтобы сохранить только одну копию. Кроме того, чтобы сделать проблему несколько более сложной, некоторые записи повторяются с добавлением дополнительного бита информации. В этом случае мне нужно сохранить запись, содержащую дополнительную информацию, и удалить […]

Преобразование экспоненциального в десятичное в python

У меня есть массив в python, который содержит набор значений, некоторые из них 2.32313e + 07 2.1155e + 07 1.923e + 07 11856 112,32 Как преобразовать экспоненциальные форматы в десятичный формат Дополнительно: Есть ли способ, с помощью которого я могу преобразовать экспоненту непосредственно в десятичный код при печати в UNIX с awk?

Shell: вставьте пустую / новую строку на две строки над рисунком

Чтобы добавить пустую строку над каждой строкой, соответствующей вашему регулярному выражению, вы можете использовать: sed '/regexp/{x;p;x;}' Но я хочу добавить пустую строку, а не одну строку выше, но две строки над строкой, которая соответствует моему регулярному выражению. Образец, который я буду сопоставлять, – это почтовый индекс в адресной строке. Вот фрагмент форматирования текста: случайная информация […]

Эффективно усреднять второй столбец по интервалам, определенным первым столбцом

В файле данных есть два числовых столбца. Мне нужно рассчитать среднее значение второго столбца через интервалы (например, 100) первого столбца. Я могу запрограммировать эту задачу в R, но мой R-код очень медленный для относительно большого файла данных (миллионы строк, причем значение первого столбца меняется от 1 до 33132539). Здесь я показываю свой R-код. Как я […]

Python - лучший язык программирования в мире.