skip to main
|
skip to sidebar
Скахин Алексей / pihel
Личный блог. Заметки о программировании и не только
Страницы
Главная страница
Резюме
SQL
BigData
понедельник, 19 августа 2019 г.
Оптимизация хранения данных в Orc для Hive
Метки:
bigdata
,
bloom
,
clustering
,
hadoop
,
hive
,
index
,
orc
,
parquet
,
performance
,
skew
,
spark
,
sql
ORC: формат файла
Параметры по умолчанию
Максимальная доля уникальных значений для создания справочника
Количество строк в stride
Партицирование
Кластеризация
Время вставки
Select по ключу кластеризации
Отличие Hive кластеризации от Spark
Сортировка
Размер данных
Время вставки
Select по первому ключу сортировки
Select по второму ключу сортировки
Select по ключу без сортировки
Sort Merge Bucket Join
ORC: Bloom filter
Время вставки
Размер данных
Select по ключу bloom filter
Увеличение False positive Bloom filter
Ускорение вставки в кластеризованную таблицу с динамическим партицированием
Сравнение результатов
Сравнение ORC с Parquet
Скорость полного чтения
Скорость чтения с фильтром по полю CLUSTERED
Скорость чтения с фильтром по полю с Bloom filter
Распространенность форматов
Итоговое сравнение
Hive: Predicate pushdown
Join predicate pushdown
Partition pruning
Hive: BroadCast Join
Skew Join
Проявление
Исправление через Union и Broadcast
Исправление через Salting
Исправление встроенными средства Hive
Исправление в Spark
Hive 3: Materialized view
Hive LLAP
Дальше »
Следующие
Предыдущие
Главная страница
Подписаться на:
Сообщения (Atom)
Разделы
Главная
Обо мне
SQL
Oracle
Hana
BigData
Spark
Hive
Языки
Java
Scala
Python
ML
Performance tuning
Мои разработки
Любимые статьи
Реклама
Архив блога
►
2030
(1)
►
февраля 2030
(1)
►
2024
(6)
►
ноября 2024
(1)
►
июля 2024
(1)
►
июня 2024
(1)
►
апреля 2024
(1)
►
марта 2024
(2)
►
2023
(3)
►
ноября 2023
(1)
►
мая 2023
(2)
►
2022
(2)
►
января 2022
(2)
►
2021
(2)
►
июля 2021
(1)
►
января 2021
(1)
►
2020
(9)
►
ноября 2020
(1)
►
августа 2020
(2)
►
июня 2020
(1)
►
мая 2020
(1)
►
марта 2020
(2)
►
февраля 2020
(1)
►
января 2020
(1)
▼
2019
(6)
►
ноября 2019
(1)
▼
августа 2019
(1)
Оптимизация хранения данных в Orc для Hive
►
июня 2019
(1)
►
мая 2019
(1)
►
марта 2019
(1)
►
февраля 2019
(1)
►
2018
(4)
►
ноября 2018
(1)
►
июня 2018
(1)
►
мая 2018
(1)
►
января 2018
(1)
►
2017
(5)
►
августа 2017
(2)
►
апреля 2017
(1)
►
марта 2017
(1)
►
февраля 2017
(1)
►
2016
(12)
►
декабря 2016
(3)
►
ноября 2016
(2)
►
октября 2016
(1)
►
мая 2016
(1)
►
апреля 2016
(1)
►
марта 2016
(1)
►
февраля 2016
(1)
►
января 2016
(2)
►
2015
(8)
►
сентября 2015
(1)
►
июня 2015
(1)
►
мая 2015
(1)
►
апреля 2015
(1)
►
февраля 2015
(3)
►
января 2015
(1)
►
2014
(4)
►
декабря 2014
(1)
►
июня 2014
(2)
►
апреля 2014
(1)
►
2013
(1)
►
июля 2013
(1)
►
2012
(6)
►
декабря 2012
(2)
►
ноября 2012
(1)
►
сентября 2012
(1)
►
мая 2012
(1)
►
апреля 2012
(1)
►
2011
(4)
►
июня 2011
(1)
►
мая 2011
(1)
►
марта 2011
(1)
►
февраля 2011
(1)
►
2010
(10)
►
ноября 2010
(1)
►
сентября 2010
(1)
►
августа 2010
(2)
►
мая 2010
(2)
►
апреля 2010
(1)
►
января 2010
(3)
►
2009
(17)
►
декабря 2009
(2)
►
ноября 2009
(5)
►
октября 2009
(2)
►
сентября 2009
(1)
►
августа 2009
(7)
В сети
1.
Почта
2.
Linkedin
3.
Telegram
(
Канал о etl
)
4.
GitHub
5.
LeetCode