понедельник, 4 февраля 2030 г.

Скахин Алексей / pihel

Скахин Алексей, pihel Биография:
Родился в Вологде 9 марта 1987 года. В 2009 году окончил ВоГУ по специальности программное обеспечение. Проживаю в Санкт-Петербурге.
В свободное от работы время люблю играть в волейбол и кататься на велосипеде.

Места работы:
6. Лента: Performance specialist: Sap Abap, Oracle, 2016 - ...
Big Data developer: Azure Databricks, OnPrem Hadoop, Spark, Scala, Hive, 2018 - ...
5. Сигма: разработчик баз данных Oracle ( sql, pl/sql, Oracle BI EE, dwh ), 2015 - 2016
4. Tops Consulting: разработчик баз данных Oracle ( sql, pl/sql ), 2013 - 2015
3. Макси: разработка системы управления предприятием (C++, Oracle, Pl/Sql) 2010-2013
2. Rstyle Softlab ОПР ДСУП: разработка системы управления предприятием (rsl/vbs/fast report/ms sql) 2008-2010
1. ВНКЦ ЦЭМИ РАН: разработка внутренней информационной системы (php/js/mysql) 2007-2008 г.
0. Фриланс - web направление 2003-2015

Contacts:
1. Email
2. Linkedin
3. Telegram

Skills:
1. Oracle development and performance tuning (OLTP and DWH)
2. Big Data developer: Azure Databricks, OnPrem Hadoop, Spark, Scala, Hive, Bash
3. Sap, Abap performance managment: tracing, root cause analyses
4. Sometimes Web/php development

Сертификаты и курсы:
- Big Data Analysis with Scala and Spark
- Functional Programming Principles in Scala
- Нейронные сети и компьютерное зрение
- Введение в Data Science и машинное обучение
- Введение в Scala
- Нейронные сети
- Hadoop. Система для обработки больших объемов данных
- Java Performance Tuning with Mission Control & Flight Recorder Ed 1
- Oracle Database 12c: Perfomance Management and Tuning Ed 1 PRV
- S Parallel Processing in Oracle Database 12c Ed 1 PRV
- A First Step Towards SAP HANA Query Optimization

Мои любимые статьи:
Внутреннее устройство Oracle: Оптимизация запросов Oracle: Big Data:

суббота, 22 января 2022 г.

Удаленный запуск SAP DS job используя Python

В этой статье расскажу как встроить инструмент SAP DS в потоки Airflow.

Если у вас в компании много SAP, но не хватило денег на Hana Enterprise, то единственный способ копирования данных во вне - это использовать SAP DS через сервера приложений SAP.
Минусы этой схемы - это старый, неудобный инструмент и что запуски DS нельзя встроить в потоки Airflow.
От неудобного интерфейса и nocode никуда не деться, но вынесем хотя бы запуски job заданий SAP DS внутрь Airflow.


среда, 28 июля 2021 г.

Azure: Databricks vs HDInsight

В облаке MS Azure есть 2 простых способа организовать кластер Spark - это Databricks и HDInsight.

вторник, 5 января 2021 г.

Оптимизация Spark Scala UDF


Проблемы Scala UDF

1. UDF - черный ящик для Codegen: представляет из себя вызов java функции и не встраивается в wholestagegen
2. Нет возможности not null оптимизации
3. UDF не может быть спущена на уровень файлов (predicate pushdown)
4. Конвертация UTF-8 строк Spark в UTF-16 строки JVM при передаче параметров и получении результата.

четверг, 12 ноября 2020 г.

Графовые базы: особенности хранения данных

В этой статье хотел бы осветить основные аспекты быстрого доступа к графовым данным