Tag: sed

Как полностью стереть дублированные строки с помощью Linux-инструментов, таких как grep, sort, sed, uniq?

Как полностью стереть дублированные строки с помощью Linux-инструментов, таких как grep, sort, sed, uniq? Этот вопрос действительно трудно написать, потому что я не вижу ничего, чтобы придать ему смысл. Но пример явно прямой. Если у меня есть файл вроде этого: 1 2 2 3 4 После разбора файла, стирающего дублированные строки, получилось так: 1 3 […]

Анализ данных в awk

У меня есть данные по генетике: MUT1 G_->_A_(het) 44%_(96)___[45%_(49)_/_43%_(47)] rs1799967_(Gene_file;_1000Genomes;_ClinVarVCF;_dbSNP,MutDB) c.4956G>A 1 MUT1 A_->_G_(homo) 99%_(297)___[99%_(151)_/_99%_(146)] rs206075_(Gene_file;_1000Genomes;_ClinVarVCF;_dbSNP) c.4563A>G 1 MUT1 G_->_C_(homo) 100%_(259)___[100%_(132)_/_100%_(127)] COSM4147689_(COSMIC),_COSM4147690_(COSMIC),_rs206076_(Gene_file;_1000Genomes;_ClinVar;_ClinVarVCF;_dbSNP) c.6513G>C 2 MUT1 A_->_C_(het) 41%_(103)___[42%_(53)_/_40%_(50)] COSM3753646_(COSMIC),_COSM147663_(COSMIC),_rs144848_(Gene_file;_1000Genomes;_ClinVarVCF;_dbSNP,MutDB) c.1114A>C 5 Мне нужно разобрать эти данные и извлечь только какие-то поля. Требовать выход: MUT1 het 44% rs1799967 c.4956G>A 1 MUT1 homo 99% rs206075c.4563A>G 1 MUT1 homo […]

Чтобы найти и заменить тире в определенном столбце

У меня есть файл, который имеет пять столбцов. Файл 1 выглядит так: 1111 1111 exm-IND1-200449980 II 1111 1111 exm-IND1-201453487 I – 1111 1111 exm-IND1-85310248 II 1111 1111 exm-IND10-102817747 DD 1111 1111 exm-IND10-18329639 – D 1111 1111 exm-IND10-27476467 II 1111 1111 exm-IND10-27727540 D – Я бы хотел избавиться – но только в столбцах 4 и 5 […]

Вставить данные вместе в bash

Я покажу вам пример того, что мне нужно делать с моими данными. У меня есть два текстовых файла, разделенных вкладкой. cat in1.tsv 111 ABC 111 DEF 111 GHI 222 ABC 333 ABC 333 DEF Эта таблица может содержать около тысячи строк. Число столбцов меньше 100. В первом столбце могут быть повторные ваулы (например, 111 и […]

Сортировка строк теми, которые содержат числа, игнорируя числа, прикрепленные к букве

Сортировка строк теми, которые содержат числа, игнорируя числа, прикрепленные к букве Мне нужно отсортировать строки в файле, так что строки, содержащие хотя бы одно число (0-9), не считая числа 1-5, когда предшествует одна из этих букв («a», «e», «g», , "i", "n", "o", "r", "u", "v" или "u:" (u + :)), перемещается в конец файла. […]

Умножать с помощью поиска и замены

Можно ли использовать регулярные выражения для выполнения арифметики? Например, найдите все числа в файле и умножьте их на скалярное значение.

Быстро удалить первые n строк из многих текстовых файлов

Мне нужно создать выходной текстовый файл, удалив первые две строки входного файла. На данный момент я использую sed «1,2d» input.txt> output.txt Мне нужно сделать это для тысяч файлов, поэтому я использую python: import os for filename in somelist: os.system('sed "1,2d" %s-in.txt > %s-out.txt'%(filename,filename)) но это довольно медленно. Мне нужно сохранить исходный файл, поэтому я не […]

удалять пустые столбцы в огромном файле

Самый быстрый способ удалить пустые столбцы в файле. Пример файла приведен ниже. Я использовал python 'pandas' package, но это занимает слишком много времени (после ~ 10 минут я не получил ответа и так ушел, как я должен сделать это для многих файлов), чтобы загрузить мой 2-гигабайтный файл. df = read_table(inFileName, sep="\t") df = df.dropna(axis=1,how='all') #remove […]

Python как «perl -pe», выполните команду Python для каждой строки в stdin

Возможный дубликат: Python эквивалентен perl -pe? Есть ли способ обработать каждую строку stdin с заданной командой Python без настройки файлов с помощью шаблона? С Perl я могу просто сделать что-то вроде: perl -pe '… command …' могу ли я сделать то же самое с Python? Примечание: что-то подобное возможно во многих других инструментах, например sed, […]

Переменные аргументы матрицы с регулярным выражением

Чтобы увеличить производительность в коде FORTRAN, я бы хотел переставить индексы массивов таким образом, чтобы 4-й индекс был перемещен на второе место, например, я хочу изменить следующую строку ts(l,i,j,k) = ts(l,i,j,k1(i,j)) в ts(l,k,i,j) = ts(l,k1(i,j),i,j) Обратите внимание, что это только пример строки, индексы не всегда называются i, j, k, l … я просто знаю имя […]

Python - лучший язык программирования в мире.