Скахин Алексей / pihel

понедельник, 4 февраля 2030 г.

Скахин Алексей / pihel

Метки: алексей, обомне, резюме, скахин, about, pihel

Биография:
Родился в Вологде 9 марта 1987 года. В 2009 году окончил ВоГУ по специальности программное обеспечение. Проживаю в Санкт-Петербурге.
В свободное от работы время люблю играть в волейбол и кататься на велосипеде.

Места работы:
7. Корус Консалтинг: Data Engineer: Yandex Cloud, Spark, Python, Airflow, 2024 - ...
6. Лента: Performance specialist: Sap Abap, Oracle, 2016 - 2024
Big Data developer: Yandex Cloud, Azure Databricks, OnPrem Hadoop, Spark, Scala, Python, Hive, Airflow, 2018 - 2024
5. Сигма: разработчик баз данных Oracle ( sql, pl/sql, Oracle BI EE, dwh ), 2015 - 2016
4. Tops Consulting: разработчик баз данных Oracle ( sql, pl/sql ), 2013 - 2015
3. Макси: разработка системы управления предприятием (C++, Oracle, Pl/Sql) 2010-2013
2. Rstyle Softlab ОПР ДСУП: разработка системы управления предприятием (rsl/vbs/fast report/ms sql) 2008-2010
1. ВНКЦ ЦЭМИ РАН: разработка внутренней информационной системы (php/js/mysql) 2007-2008 г.
0. Фриланс - web направление 2003-2015

Contacts:
1. Email
2. Linkedin
3. Telegram

Skills:
1. Big Data developer: Yandex Cloud, Azure Databricks, OnPrem Hadoop, Spark, Python, Scala, Hive, Bash, Airflow
2. Oracle development and performance tuning (OLTP and DWH)
3. Sap, Abap performance managment: tracing, root cause analyses
4. Sometimes Web/php development

Сертификаты и курсы:
- Clickhouse
- DBT
- Инженер облачных сервисов Yandex
- Big Data Analysis with Scala and Spark
- Functional Programming Principles in Scala
- Нейронные сети и компьютерное зрение
- Введение в Data Science и машинное обучение
- Введение в Scala
- Нейронные сети
- Hadoop. Система для обработки больших объемов данных
- Java Performance Tuning with Mission Control & Flight Recorder Ed 1
- Oracle Database 12c: Perfomance Management and Tuning Ed 1 PRV
- S Parallel Processing in Oracle Database 12c Ed 1 PRV
- A First Step Towards SAP HANA Query Optimization

Мои любимые статьи:
Big Data:

Внутреннее устройство Oracle:

Оптимизация запросов Oracle:

вторник, 17 июня 2025 г.

Памятка по ClickHouse

Метки: bigdata, clickhouse, sql

Краткие заметки курса Managed Service for ClickHouse

Дальше »

воскресенье, 16 февраля 2025 г.

Dbt

Метки: bigdata, dbt, jinja, scd, sql

Вводная статья о основных возможностях DBT.

Дальше »

суббота, 28 декабря 2024 г.

Api микросервисы на FastApi и Python

Метки: api, docker, fastapi, http, pydantic, python

Часто вижу в требованиях к DE знание фреймворка FastApi для создание конечного api к расчитанным данным.
Решил в этой статье пройтись обзорно по основным функциям.

Преимущества фреймворка

- легкий старт за счет декораторов
- встроенный веб сервер
- async io из коробки для асинхронной работы с http
- валидация данных на основе схемы
- автоматическая swagger дока
- авторизация и прочее

Дальше »

среда, 4 декабря 2024 г.

Инженер облачных сервисов Yandex

Метки: bigdata, cloud, docker, kuber, python, yandex

Памятка на основе прохождения курса Инженер облачных сервисов (Сертификат)

Виртуальные машины

Managed DB

DevOPS

Serverless

Безопасность

Оптимизация затрат

Дальше »

воскресенье, 3 ноября 2024 г.

Spark 3.2 - 4.0 preview - what's new

Метки: bigdata, spark

A list of new features in Spark that I think are important for a developer.

Дальше »

среда, 3 июля 2024 г.

Grokking System Design Interview for Engineers

Метки: bigdata, db, system design

Статья заметка, на основании прохождения курса Grokking Modern System Design Interview for Engineers & Managers (Сертификат)

Составные части системы

Дизайн на реальных примерах

Дальше »

четверг, 20 июня 2024 г.

Масштабирование python

Метки: parallel, performance, process, python, thread

Дальше »

воскресенье, 28 апреля 2024 г.

ClickHouse vs Spark в Яндекс облаке

Метки: bigdata, clickhouse, performance, s3, spark, yandex

Часто для DA/DS нужно расчитать множество разрезов одного агрегата.
При расчете не нужны join, но наличие distinct не дает свести к подходу от большего к меньшему.
В этой заметке попытался понять степень преимущества ClickHouse перед Spark и где есть недостатки в реалиях ЯО (спойлер: стоимость и IO при работе с S3).

Дальше »

четверг, 28 марта 2024 г.

CDC репликация средствами Debezium и Kafka Connect

Метки: bigdata, debezium, kafka, kafka connect, mysql

Настрока CDC репликации данных между реляционной бд MySql и Kafka

Дальше »

Скахин Алексей / pihel

Страницы

понедельник, 4 февраля 2030 г.