skip to main
|
skip to sidebar
Скахин Алексей / pihel
Личный блог. Заметки о программировании и не только
Страницы
Главная страница
Резюме
SQL
BigData
понедельник, 19 августа 2019 г.
Оптимизация хранения данных в Orc для Hive
ORC: формат файла
Параметры по умолчанию
Максимальная доля уникальных значений для создания справочника
Количество строк в stride
Партицирование
Кластеризация
Время вставки
Select по ключу кластеризации
Отличие Hive кластеризации от Spark
Сортировка
Размер данных
Время вставки
Select по первому ключу сортировки
Select по второму ключу сортировки
Select по ключу без сортировки
Sort Merge Bucket Join
ORC: Bloom filter
Время вставки
Размер данных
Select по ключу bloom filter
Увеличение False positive Bloom filter
Ускорение вставки в кластеризованную таблицу с динамическим партицированием
Сравнение результатов
Сравнение ORC с Parquet
Скорость полного чтения
Скорость чтения с фильтром по полю CLUSTERED
Скорость чтения с фильтром по полю с Bloom filter
Распространенность форматов
Итоговое сравнение
Hive: Predicate pushdown
Join predicate pushdown
Partition pruning
Hive: BroadCast Join
Skew Join
Проявление
Исправление через Union и Broadcast
Исправление через Salting
Исправление встроенными средства Hive
Исправление в Spark
Hive 3: Materialized view
Hive LLAP
‹
›
Главная страница
Открыть веб-версию