Python найти ссылку для загрузки файла на веб-странице

Мне нужно регулярное выражение, которое вернет мне текст, содержащийся между двойными кавычками, который начинается с указанного текстового блока и заканчивается конкретным расширением файла (например .txt). Я использую urllib2 для получения html страницы (html довольно прост).

В принципе, если у меня есть что-то вроде

<tr> <td valign="top"><img src="/icons/unknown.gif" alt="[ ]"></td> <td><a href="Client-8.txt">new_Client-8.txt</a></td> <td align="right">27-Jun-2012 18:02 </td> </tr> 

Он должен просто вернуться ко мне

 Client-8.txt 

Если возвращаемое значение содержится в двойных кавычках. Я знаю, как имя файла начинается с «Client-» и расширение файла «.txt».

Я играю с r.search (regex, string), где вводимая строка является html страницы. Но я воняю регулярные выражения.

Благодаря!

Вы не должны использовать регулярные выражения для этой задачи. Гораздо проще написать скрипт с BeautifulSoup для обработки HTML и найти нужные вам элементы.

В вашем случае вы должны искать все <a> элементы, чей атрибут href начинается с Client- и заканчивается на .txt . Это даст вам список всех файлов.

 soup = BeautifulSoup('<tr><td valign="top"><img src="/icons/unknown.gif" alt="[ ]"></td><td><a href="Client-8.txt">new_Client-8.txt</a></td><td align="right">27-Jun-2012 18:02 </td>') x=soup.findAll('a') for i in x: if '.txt' in i['href']: print(i['href'])