Почему моя база данных Cassandra так медленно считывает данные? Я хотел бы прочитать 100 000 строк менее чем за 10 секунд

У меня есть таблица статей «cassandra» с 400 000 строк с

primary key (source,created_at desc) 

Когда я запрашиваю наши данные, используя:

 select * from articles where source = 'abc' and created_at <= '2016-01-01 00:00:00' 

загрузка 110 000 строк занимает 8 минут.

Это очень медленно, и я не знаю, где ошибка.

Я хотел бы загрузить 100 000 строк менее чем за 10 секунд. Не уверен, что это возможно?

Вот еще несколько деталей:

  • У меня 3 узла, replication factor =2, stragegy=SimpleStrategy , 4CPU, 32G RAM
  • Я использую Cassandra-driver-3.0.0. Я не уверен, что это происходит из python или Cassandra, поскольку мы также используем python.

Вот моя схема CQL:

 CREATE TABLE crawler.articles ( source text, created_at timestamp, id text, category text, channel text, last_crawled timestamp, text text, thumbnail text, title text, url text, PRIMARY KEY (source, created_at, id) ) WITH CLUSTERING ORDER BY (created_at DESC, id ASC) AND bloom_filter_fp_chance = 0.01 AND caching = '{"keys":"ALL", "rows_per_partition":"ALL"}' AND comment = '' AND compaction = {'sstable_size_in_mb': '160', 'enabled': 'true', 'unchecked_tombstone_compaction': 'false', 'tombstone_compaction_interval': '86400', 'tombstone_threshold': '0.2', 'class': 'org.apache.cassandra.db.compaction.LeveledCompactionStrategy'} AND compression = {'sstable_compression': 'org.apache.cassandra.io.compress.LZ4Compressor'} AND dclocal_read_repair_chance = 0.1 AND default_time_to_live = 604800 AND gc_grace_seconds = 864000 AND max_index_interval = 2048 AND memtable_flush_period_in_ms = 0 AND min_index_interval = 128 AND read_repair_chance = 0.0 AND speculative_retry = '99.0PERCENTILE'; CREATE INDEX articles_id_idx ON crawler.articles (id); CREATE INDEX articles_url_idx ON crawler.articles (url); 

Спасибо за ваши ответы!

One Solution collect form web for “Почему моя база данных Cassandra так медленно считывает данные? Я хотел бы прочитать 100 000 строк менее чем за 10 секунд”

Очень сложно сказать точную проблему, не зная точную конфигурацию.

Но вы можете проверить следующее:

 Monitor Cassandra for memory consumption and stage throughput. Set your Memtable thresholds low. Access Cassandra concurrently. Don't store all your data in a single row. Check for time-outs. What is the size of javaHeap? 
  • cassandra - тот же запрос работает с cql, но не с драйвером python
  • Можно ли использовать SQLAlchemy с Cassandra CQL?
  • Драйвер драйвера Datastax Python cassandra не работает на Ubuntu
  • Python читает данные Кассандры в пандах
  • OperationTimedOut: errors = {}, last_host = 127.0.0.1
  • Ошибка: невозможно подключиться к серверу cassandra. Неконфигурированный стол
  • TimeUUID с Кассандрой и Лазыбой
  • Кассандра / Пикасса: получение случайных строк
  •  
    Interesting Posts for Van-Lav

    сэндвич-шаблон в javascript-коде

    Распаковать список в индексы другого списка в python

    Как я могу разбить эту длинную строку на Python?

    недопустимый синтаксис on =?

    Выполнить несколько независимых операторов в SQLAlchemy Core?

    Предложения Framework / CMS для корпоративного сайта и интрасети (я должен убедить президента в его целостности!)

    Как я могу перехватить, когда виджет теряет фокус

    Получать предупреждения через psycopg2

    Pyusb на окнах – нет доступных бэкэнд

    Совет по переводу кода с очень несвязанных языков (в данном случае Scheme to Python)?

    Использование модуля запросов Python для отправки формы без имени ввода

    TypeError: не может конкатенировать объекты 'str' и 'instance' (python urllib)

    В Python heapq.heapify не принимает cmp или ключевые функции в качестве аргументов, как отсортировано

    Python: как найти, существует ли путь между двумя узлами в графе?

    Как обрезать изображение в OpenCV с помощью Python

    Python - лучший язык программирования в мире.