- Проблемы Scala UDF
- Создание Native Scala UDF для Catalyst
- Использование
- Тестовые данные
- Сравнение планов, Codegen и производительности
- Использование в SQL
Проблемы Scala UDF
1. UDF - черный ящик для Codegen: представляет из себя вызов java функции и не встраивается в wholestagegen2. Нет возможности not null оптимизации
3. UDF не может быть спущена на уровень файлов (predicate pushdown)
4. Конвертация UTF-8 строк Spark в UTF-16 строки JVM при передаче параметров и получении результата.