воскресенье, 7 мая 2023 г.

Памятка по Docker и Kuber

Памятка по Python

суббота, 22 января 2022 г.

Удаленный запуск SAP DS job используя Python

В этой статье расскажу как встроить инструмент SAP DS в потоки Airflow.

Если у вас в компании много SAP, но не хватило денег на Hana Enterprise, то единственный способ копирования данных во вне - это использовать SAP DS через сервера приложений SAP.
Минусы этой схемы - это старый, неудобный инструмент и что запуски DS нельзя встроить в потоки Airflow.
От неудобного интерфейса и nocode никуда не деться, но вынесем хотя бы запуски job заданий SAP DS внутрь Airflow.


среда, 28 июля 2021 г.

Azure: Databricks vs HDInsight

В облаке MS Azure есть 2 простых способа организовать кластер Spark - это Databricks и HDInsight.

вторник, 5 января 2021 г.

Оптимизация Spark Scala UDF


Проблемы Scala UDF

1. UDF - черный ящик для Codegen: представляет из себя вызов java функции и не встраивается в wholestagegen
2. Нет возможности not null оптимизации
3. UDF не может быть спущена на уровень файлов (predicate pushdown)
4. Конвертация UTF-8 строк Spark в UTF-16 строки JVM при передаче параметров и получении результата.

четверг, 12 ноября 2020 г.

Графовые базы: особенности хранения данных

В этой статье хотел бы осветить основные аспекты быстрого доступа к графовым данным

понедельник, 8 июня 2020 г.

Отчеты Oracle Sql Developer для анализа запросов

У каждого, кто работает с Бд Oracle есть набор любимых запросов для ее диагностики.
В этой статье хотел бы описать мои, которые запускаются из Oracle Sql developer.
Выгрузка всех отчетов находится по ссылке github
Для работы необходимо наличие лицензии "Diagnostic and Tuning Pack"