Что бы вступить в ряды "Принятый кодер" Вам нужно:
Написать 10 полезных сообщений или тем и Получить 10 симпатий.
Для того кто не хочет терять время,может пожертвовать средства для поддержки сервеса, и вступить в ряды VIP на месяц, дополнительная информация в лс.
Пользаватели которые будут спамить, уходят в бан без предупреждения. Спам сообщения определяется администрацией и модератором.
Гость, Что бы Вы хотели увидеть на нашем Форуме? Изложить свои идеи и пожелания по улучшению форума Вы можете поделиться с нами здесь. ----> Перейдите сюда
Все пользователи не прошедшие проверку электронной почты будут заблокированы. Все вопросы с разблокировкой обращайтесь по адресу электронной почте : info@guardianelinks.com . Не пришло сообщение о проверке или о сбросе также сообщите нам.

JavaScript отключен. Для полноценно использования нашего сайта, пожалуйста, включите JavaScript в своем браузере.

Aws Glue & ETL bookmarks

Автор темы Sascha
Дата начала 23 Сен 2025

Оффлайн

Sascha

Заместитель Администратора

Команда форума

Администратор

#1

ETL is not a tool → it’s a methodology or workflow.
Extract → Transform → Load = a process to move raw data into a clean, usable form for analytics.

AWS Glue (tool/service)

AWS Glue = Amazon’s serverless ETL service.
It lets you build and run ETL pipelines without managing servers.
Glue provides all the parts you need to implement ETL:

How Glue Fits Into ETL

Extract

Glue connectors pull data from sources: S3, RDS, DynamoDB, JDBC databases, etc.
- Pull data from sources: databases, APIs, files, IoT sensors, logs, etc.
- Example: Extract customer data from MySQL, clickstream data from S3, and logs from CloudWatch.

Transform

Glue generates Spark jobs (PySpark) to clean and enrich data.
You can customize transformations with Python.
Supports job bookmarks to avoid reprocessing the same data.
- Clean, enrich, and reformat the data.
- Examples:
- Remove duplicates.
- Convert dates to a standard format.
- Join multiple tables (e.g., customer + orders).
- Aggregate (e.g., daily sales totals).

This step ensures the data is usable and consistent.

Load

Glue can load data into S3 (data lake), Redshift (warehouse), or other targets.
- Write the transformed data into a target system:
- Data warehouse (Amazon Redshift, Snowflake).
- Data lake (Amazon S3, Lake Formation).
- Analytics system (Elasticsearch, Athena).

Extra Glue Features

Glue Data Catalog → a centralized metadata store (like a database of all your datasets).
Glue Crawlers → scan data sources and automatically infer schema (tables, columns, data types).
Glue Studio → visual interface to design ETL jobs.
Glue Streaming ETL → for real-time data pipelines.

Tools for ETL

AWS Glue (serverless ETL service).
Apache Spark, Apache Flink.
Talend, Informatica.
Custom Python jobs with Pandas.

What is a Job Bookmark?

A bookmark is a mechanism to keep track of previously processed data in an ETL job.
It ensures that when your ETL job runs again, it only processes new or changed data, instead of reprocessing everything.

Why It Matters

Without bookmarks:

Each ETL run processes the entire dataset → inefficient, expensive, and may cause duplicates.

With bookmarks:

ETL job “remembers” where it left off.
Next run starts from the last checkpoint (like saving your place in a book).

Where Used

AWS Glue ETL jobs (Spark or Python shell).
Glue streaming jobs (with checkpoints).
Similar concept in Apache Spark and other ETL tools → often called checkpointing or incremental processing.

Takeaway

Bookmark = memory of ETL job progress.
Ensures incremental processing (only new/changed data).
Prevents duplicates, saves time & cost.

Источник:

Пожалуйста Авторизируйтесь или Зарегистрируйтесь для просмотра скрытого текста.

Вам необходимо войти или зарегистрироваться, чтобы здесь отвечать.

Поделиться:

Facebook Pinterest Tumblr WhatsApp Электронная почта Ссылка

На данном сайте используются cookie-файлы, чтобы персонализировать контент и сохранить Ваш вход в систему, если Вы зарегистрируетесь.
Продолжая использовать этот сайт, Вы соглашаетесь на использование наших cookie-файлов.

Accept Узнать больше....

Вверх Снизу