skip to main
|
skip to sidebar
Скахин Алексей / pihel
Личный блог. Заметки о программировании и не только
Страницы
Главная страница
Резюме
SQL
BigData
понедельник, 19 августа 2019 г.
Оптимизация хранения данных в bigdata
Метки:
bigdata
,
bloom
,
clustering
,
hadoop
,
hive
,
index
,
orc
,
parquet
,
performance
,
skew
,
spark
,
sql
ORC: формат файла
Параметры по умолчанию
Максимальная доля уникальных значений для создания справочника
Количество строк в stride
Партицирование
Кластеризация
Время вставки
Select по ключу кластеризации
Отличие Hive кластеризации от Spark
Сортировка
Размер данных
Время вставки
Select по первому ключу сортировки
Select по второму ключу сортировки
Select по ключу без сортировки
Sort Merge Bucket Join
ORC: Bloom filter
Время вставки
Размер данных
Select по ключу bloom filter
Увеличение False positive Bloom filter
Ускорение вставки в кластеризованную таблицу с динамическим партицированием
Сравнение результатов
Сравнение ORC с Parquet
Скорость полного чтения
Скорость чтения с фильтром по полю CLUSTERED
Скорость чтения с фильтром по полю с Bloom filter
Распространенность форматов
Итоговое сравнение
Hive: Predicate pushdown
Join predicate pushdown
Partition pruning
Hive: BroadCast Join
Skew Join
Проявление
Исправление через Union и Broadcast
Исправление через Salting
Исправление встроенными средства Hive
Исправление в Spark
Hive 3: Materialized view
Hive LLAP
Iceberg
Схема формата данных
Конкурентный доступ
Улучшение партицирования
Версионирование
Компакция и распределение
Дальше »
Следующие
Предыдущие
Главная страница
Подписаться на:
Сообщения (Atom)
Разделы
Главная
Обо мне
SQL
BigData
Spark
Hive
Kubernetes
Kafka
Языки
Python
Scala
Java
ML
Performance tuning
Мои разработки
Любимые статьи
Реклама
Архив блога
►
2030
(1)
►
февраля 2030
(1)
►
2024
(8)
►
декабря 2024
(2)
►
ноября 2024
(1)
►
июля 2024
(1)
►
июня 2024
(1)
►
апреля 2024
(1)
►
марта 2024
(2)
►
2023
(3)
►
ноября 2023
(1)
►
мая 2023
(2)
►
2022
(2)
►
января 2022
(2)
►
2021
(2)
►
июля 2021
(1)
►
января 2021
(1)
►
2020
(9)
►
ноября 2020
(1)
►
августа 2020
(2)
►
июня 2020
(1)
►
мая 2020
(1)
►
марта 2020
(2)
►
февраля 2020
(1)
►
января 2020
(1)
▼
2019
(6)
►
ноября 2019
(1)
▼
августа 2019
(1)
Оптимизация хранения данных в bigdata
►
июня 2019
(1)
►
мая 2019
(1)
►
марта 2019
(1)
►
февраля 2019
(1)
►
2018
(4)
►
ноября 2018
(1)
►
июня 2018
(1)
►
мая 2018
(1)
►
января 2018
(1)
►
2017
(5)
►
августа 2017
(2)
►
апреля 2017
(1)
►
марта 2017
(1)
►
февраля 2017
(1)
►
2016
(12)
►
декабря 2016
(3)
►
ноября 2016
(2)
►
октября 2016
(1)
►
мая 2016
(1)
►
апреля 2016
(1)
►
марта 2016
(1)
►
февраля 2016
(1)
►
января 2016
(2)
►
2015
(8)
►
сентября 2015
(1)
►
июня 2015
(1)
►
мая 2015
(1)
►
апреля 2015
(1)
►
февраля 2015
(3)
►
января 2015
(1)
►
2014
(4)
►
декабря 2014
(1)
►
июня 2014
(2)
►
апреля 2014
(1)
►
2013
(1)
►
июля 2013
(1)
►
2012
(6)
►
декабря 2012
(2)
►
ноября 2012
(1)
►
сентября 2012
(1)
►
мая 2012
(1)
►
апреля 2012
(1)
►
2011
(4)
►
июня 2011
(1)
►
мая 2011
(1)
►
марта 2011
(1)
►
февраля 2011
(1)
►
2010
(10)
►
ноября 2010
(1)
►
сентября 2010
(1)
►
августа 2010
(2)
►
мая 2010
(2)
►
апреля 2010
(1)
►
января 2010
(3)
►
2009
(17)
►
декабря 2009
(2)
►
ноября 2009
(5)
►
октября 2009
(2)
►
сентября 2009
(1)
►
августа 2009
(7)
В сети
1.
Почта
2.
Linkedin
3.
Telegram
(
Канал о etl
)
4.
GitHub
5.
LeetCode