Tag: sitemap

Как очистить все содержимое с бесконечного веб-сайта прокрутки? SCRAPY

Я использую scrapy. Веб-сайт, который я использую, имеет бесконечный свиток. на сайте множество сообщений, но я только соскоблила 13. Как очистить остальные сообщения? вот мой код: class exampleSpider(scrapy.Spider): name = "example" #from_date = datetime.date.today() – datetime.timedelta(6*365/12) allowed_domains = ["example.com"] start_urls = [ "http://www.example.com/somethinghere/" ] def parse(self, response): for href in response.xpath("//*[@id='page-wrap']/div/div/div/section[2]/div/div/div/div[3]/ul/li/div/h1/a/@href"): url = response.urljoin(href.extract()) yield […]

Внедрение sitemaps в Django

У меня возникла проблема с внедрением sitemaps в моем приложении. Я использую Virtualenv, django 1.4 и Python 2.7. Буду признателен, если вы поможете мне решить эту проблему. Это то, что я сделал: В моем urls.py from sitemap import JobPostSitemap sitemaps = { 'jobs': JobPostSitemap, } … # Removed other urls url(r'^sitemap\.xml$', 'django.contrib.sitemaps.views.sitemap', {'sitemaps': sitemaps}), Затем […]

Карта сайта и объект с несколькими URL-адресами

В Django используется обычный файл Sitemap для сайта: from django.contrib.sitemaps import Sitemap from schools.models import School class SchoolSitemap(Sitemap): changefreq = "weekly" priority = 0.6 def items(self): return School.objects.filter(status = 2) а затем в модели Школы мы определяем: def get_absolute_url(self): return reverse('schools:school_about', kwargs={'school_id': self.pk}) В такой реализации у меня есть одна ссылка для одной школы в […]

Scrapy сканирует все ссылки sitemap

Я хочу просканировать все его ссылки, присутствующие в файле sitemap.xml фиксированного сайта. Я наткнулся на файл Sitemap Scope от Scrapy . До сих пор я извлекал все URL-адреса в файле Sitemap. Теперь я хочу просканировать каждую ссылку файла Sitemap. Любая помощь будет очень полезна. Код пока: class MySpider(SitemapSpider): name = "xyz" allowed_domains = ["xyz.nl"] sitemap_urls […]

Разбор URL-адресов в sitemap с разным URL-адресом, используя sitemap spider в scrapy, python

Я использую sitemap spider в scrapy, python. Карта сайта, похоже, имеет необычный формат с «//» перед URL-адресами: <url> <loc>//www.example.com/10/20-baby-names</loc> </url> <url> <loc>//www.example.com/elizabeth/christmas</loc> </url> myspider.py from scrapy.contrib.spiders import SitemapSpider from myspider.items import * class MySpider(SitemapSpider): name = "myspider" sitemap_urls = ["http://www.example.com/robots.txt"] def parse(self, response): item = PostItem() item['url'] = response.url item['title'] = response.xpath('//title/text()').extract() return item Я […]

как анализировать файл sitemap.xml с помощью XmlFeedSpider от scrapy?

Я пытаюсь проанализировать файлы sitemap.xml с помощью scrapy, файлы sitemap похожи на следующие, с гораздо большим количеством узлов url . <?xml version="1.0" encoding="UTF-8"?> <urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9" xmlns:video="http://www.sitemaps.org/schemas/sitemap-video/1.1"> <url> <loc> http://www.site.com/page.html </loc> <video:video> <video:thumbnail_loc> http://www.site.com/thumb.jpg </video:thumbnail_loc> <video:content_loc>http://www.example.com/video123.flv</video:content_loc> <video:player_loc allow_embed="yes" autoplay="ap=1"> http://www.example.com/videoplayer.swf?video=123 </video:player_loc> <video:title>here is the page title</video:title> <video:description>and an awesome description</video:description> <video:duration>302</video:duration> <video:publication_date>2011-02-24T02:03:43+02:00</video:publication_date> <video:tag>w00t</video:tag> <video:tag>awesome</video:tag> <video:tag>omgwtfbbq</video:tag> <video:tag>kthxby</video:tag> […]

Как создать графическую карту сайта большого сайта

Я хотел бы создать графическую карту сайта для моего сайта. Насколько я могу судить по двум этапам: обход веб-сайта и анализ связи ссылки для извлечения древовидной структуры генерировать визуально приятную визуализацию дерева Кто-нибудь имеет советы или опыт в этом, или знает о существующей работе, на которой я могу опираться (в идеале на Python)? Я натолкнулся […]

Кэширование файлов Sitemap в django

Я реализовал простой класс sitemap, используя приложение sitemap для django. Поскольку это заняло много времени, я добавил ручное кэширование: class ShortReviewsSitemap(Sitemap): changefreq = "hourly" priority = 0.7 def items(self): # try to retrieve from cache result = get_cache(CACHE_SITEMAP_SHORT_REVIEWS, "sitemap_short_reviews") if result!=None: return result result = ShortReview.objects.all().order_by("-created_at") # store in cache set_cache(CACHE_SITEMAP_SHORT_REVIEWS, "sitemap_short_reviews", result) return result […]

Interesting Posts for Van-Lav

Двухмерная цветовая рампа (матрица 256×256), интерполированная из 4 угловых цветов

Python: доступ к функции DLL с использованием ctypes – доступ по функции * имя * не работает

Целочисленный квадратный корень в python

Является ли эликсир устаревшим?

Python / Scikit-learn / regressions – от панд Dataframes до прогноза Scikit

Как я могу проверить, находится ли элемент в списке, используя личность вместо равенства?

Существует ли способ, с помощью которого я могу использовать классы WMI в java

Разница между базой данных и базами sqla в Beaker?

Вычитание текущего и предыдущего элементов в списке

python – элегантный способ выбрать самое высокое взвешенное значение в наборе

Csv.reader (filename) Python действительно возвращает список? Не похоже

Как нарисовать заполненную дугу в matplotlib

Советы по обновлению до python 3.0?

Выполнение Python из php

Магический метод Python Расширенное недопущение задания

Python - лучший язык программирования в мире.