В облаке MS Azure есть 2 простых способа организовать кластер Spark - это Databricks и HDInsight.
среда, 28 июля 2021 г.
вторник, 5 января 2021 г.
Оптимизация Spark Scala UDF
- Проблемы Scala UDF
- Создание Native Scala UDF для Catalyst
- Использование
- Тестовые данные
- Сравнение планов, Codegen и производительности
- Использование в SQL
Проблемы Scala UDF
1. UDF - черный ящик для Codegen: представляет из себя вызов java функции и не встраивается в wholestagegen2. Нет возможности not null оптимизации
3. UDF не может быть спущена на уровень файлов (predicate pushdown)
4. Конвертация UTF-8 строк Spark в UTF-16 строки JVM при передаче параметров и получении результата.
Подписаться на:
Сообщения (Atom)