Skip to main content

ListS3

Описание

Извлекает список объектов из корзины S3. Для каждого объекта создается FlowFile, представляющий объект, чтобы его можно было получить вместе с FetchS3Object. Этот процессор предназначен для работы только на основном узле в кластере. Если основной узел изменится, новый основной узел продолжит с того места, где остановился предыдущий, без дублирования всех данных.

Теги

Amazon, S3, AWS, list

Свойства

НазваниеОписание
BucketВедро S3 для взаимодействия Поддерживает язык выражений: true (будет оцениваться только с использованием переменных среды)
RegionРегион AWS для подключения.
AWS Credentials Provider ServiceСлужба контроллера, которая используется для получения поставщика учетных данных AWS.
Listing StrategyУкажите, как определять новые/обновленные объекты. Подробные описания стратегий см. в разделе «Стратегии».
Entity Tracking State CacheListed entities are stored in the specified cache storage so that this processor can resume listing across NiFi restart or in case of primary node change. 'Tracking Entities' strategy require tracking information of all listed entities within the last 'Tracking Time Window'. To support large number of entities, the strategy uses DistributedMapCache instead of managed state. Cache key format is 'ListedEntities::{processorId}(::{nodeId})'. If it tracks per node listed entities, then the optional '::{nodeId}' part is added to manage state separately. E.g. cluster wide cache key = 'ListedEntities::8dda2321-0164-1000-50fa-3042fe7d6a7b', per node cache key = 'ListedEntities::8dda2321-0164-1000-50fa-3042fe7d6a7b::nifi-node3' The stored cache content is Gzipped JSON string. The cache key will be deleted when target listing configuration is changed. Used by 'Tracking Entities' strategy.This Property is only considered if the [Listing Strategy] Property has a value of "Tracking Entities".
Entity Tracking Time WindowSpecify how long this processor should track already-listed entities. 'Tracking Entities' strategy can pick any entity whose timestamp is inside the specified time window. For example, if set to '30 minutes', any entity having timestamp in recent 30 minutes will be the listing target when this processor runs. A listed entity is considered 'new/updated' and a FlowFile is emitted if one of following condition meets: 1. does not exist in the already-listed entities, 2. has newer timestamp than the cached entity, 3. has different size than the cached entity. If a cached entity's timestamp becomes older than specified time window, that entity will be removed from the cached already-listed entities. Used by 'Tracking Entities' strategy. Поддерживает язык выражений: true (будет оцениваться только с использованием переменных среды)This Property is only considered if the [Entity Tracking State Cache] Property has a value specified.
Entity Tracking Initial Listing TargetSpecify how initial listing should be handled. Used by 'Tracking Entities' strategy.This Property is only considered if the [Listing Strategy] Property has a value of "Tracking Entities".
Record WriterУказывает, какой писатель записей следует использовать для создания списка. Если не указано иное, для каждого перечисленного объекта будет создан один FlowFile. Если указано средство записи, все объекты будут записаны в один FlowFile вместо добавления атрибутов в отдельные FlowFiles.
Minimum Object AgeМинимальный возраст объекта S3, при котором он может быть рассмотрен; любой объект, созданный менее чем за это время (согласно дате последней модификации), будет проигнорирован
Maximum Object AgeМаксимальный возраст объекта S3, при котором он может быть рассмотрен; любой объект, старше этого времени (согласно дате последней модификации), будет проигнорирован.
Listing Batch SizeЕсли не используется средство записи, это свойство определяет, сколько объектов S3 должно быть перечислено в одной партии. Как только это число будет достигнуто, созданные FlowFiles будут переданы из процессора. Если установить более низкое значение, это может привести к снижению задержки при отправке FlowFiles до завершения полного списка. Однако это может значительно снизить производительность. При более высоких значениях может потребоваться больше памяти для хранения всей информации перед отправкой FlowFiles. Это свойство игнорируется при использовании Record Writer, так как одним из основных преимуществ Record Writer является возможность отправлять весь список в виде одного FlowFile.
Write Object TagsЕсли установлено значение «Истина», теги, связанные с объектом S3, будут записаны в качестве атрибутов FlowFile.
Write User MetadataЕсли установлено значение «истина», пользовательские метаданные, связанные с объектом S3, будут добавлены в атрибуты/записи FlowFile
Communications TimeoutВремя ожидания для установления соединения с AWS или получения данных от AWS до истечения времени ожидания.
SSL Context ServiceУказывает необязательную службу контекста SSL, которая, если она предоставлена, будет использоваться для создания соединений.
Endpoint Override URLURL-адрес конечной точки, который будет использоваться вместо URL-адреса AWS по умолчанию, включая схему, хост, порт и путь. Библиотеки AWS выбирают URL-адрес конечной точки в зависимости от региона AWS, но это свойство переопределяет выбранный URL-адрес конечной точки, позволяя использовать другие конечные точки, совместимые с S3. Поддерживает язык выражений: true (будет оцениваться только с использованием переменных среды)
Signer OverrideБиблиотека AWS S3 по умолчанию использует подпись версии 4, но это свойство позволяет указать подпись версии 2 для поддержки более старых сервисов, совместимых с S3, или даже подключить собственную реализацию подписи.
Custom Signer Class NameFully qualified class name of the custom signer class. The signer must implement com.amazonaws.auth.Signer interface. Поддерживает язык выражений: true (будет оцениваться только с использованием переменных среды)This Property is only considered if the [Signer Override] Property has a value of "Custom Signature".
Custom Signer Module LocationСписок путей к файлам и/или каталогам, содержащим JAR-файл пользовательской подписи и его зависимости (если есть).This property expects a comma-separated list of resources. Each of the resources may be of any of the following types: directory, file. Поддерживает язык выражений: true (будет оцениваться только с использованием переменных среды)This Property is only considered if the [Signer Override] Property has a value of "Custom Signature".
Proxy Configuration ServiceУказывает службу контроллера конфигурации прокси для проксирования сетевых запросов.
DelimiterСтрока, используемая для разделения каталогов в корзине. Пожалуйста, ознакомьтесь с документацией AWS, чтобы правильно использовать это поле.
PrefixПрефикс, используемый для фильтрации списка объектов. Не начинайте с косой черты '/'. В большинстве случаев он должен заканчиваться косой чертой '/'. Поддерживает язык выражений: true (будет оцениваться только с использованием переменных среды)
Use VersionsУказывает, следует ли использовать версии S3, если применимо. Если значение равно false, будет возвращена только последняя версия каждого объекта.
List TypeУказывает, следует ли использовать исходную конечную точку List Objects или более новую конечную точку List Objects версии 2.
Requester PaysЕсли установлено значение «Истина», это означает, что запрашивающий соглашается оплатить любые расходы, связанные с перечислением объектов в корзине S3. Это устанавливает для заголовка «x-amz-request-payer» значение «запрашивающий». Обратите внимание, что этот параметр неприменим, если для параметра «Использовать версии» установлено значение «истина».

Взаимосвязи

  • success: Файлы потока направляются в эту связь после успешной обработки.