SampleRecord
Описание
Отбирает записи FlowFile на основе указанной стратегии выборки (например, выборки с использованием алгоритма резервуара). Полученный FlowFile может содержать фиксированное количество записей (в случае алгоритмов на основе резервуара), некоторую подмножество общего количества записей (в случае вероятностной выборки) или детерминированное количество записей (в случае интервальной выборки)
Теги
record, sample, reservoir, range, interval
Свойства
Название | Описание |
---|---|
Record Reader | Указывает службу контроллера для анализа входящих данных и определения их схемы |
Record Writer | Указывает службу контроллера, используемую для записи результатов в FlowFile |
Sampling Strategy | Указывает, какой метод использовать для выборки записей из входящего FlowFile |
Sampling Interval | Указывает количество записей, которые нужно пропустить перед записью в исходящий файл FlowFile. Это свойство используется только в том случае, если для стратегии выборки установлено значение «Интервальная выборка». Значение ноль (0) приведет к тому, что в исходящий файл FlowFile не будут включены записи, значение один (1) приведет к включению всех записей, а значение два (2) приведет к включению половины записей и так далее. Поддерживает язык выражений: true (будет оцениваться с использованием атрибутов файла потока и переменных среды)This Property is only considered if the [Sampling Strategy] Property has a value of "Interval Sampling". |
Sampling Range | Указывает диапазон записей, которые нужно включить в выборку, от 1 до общего количества записей. Например, '3,6-8,20-' включает третью запись, шестую, седьмую и восьмую записи, а также все записи, начиная с двадцатой. Запятые разделяют непересекающиеся интервалы, и интервал может быть между двумя числами (например, 6-8) или до заданного числа (например, -5), или от числа до номера последней записи (например, 20-). Если это свойство не задано, будут включены все записи. Поддерживает язык выражений: true (будет оцениваться с использованием атрибутов файла потока и переменных среды)This Property is only considered if the [Sampling Strategy] Property has a value of "Range Sampling". |
Sampling Probability | Указывает вероятность (в процентах от 0 до 100) включения записи в исходящий файл FlowFile. Это свойство используется только в том случае, если для стратегии выборки установлено значение «Вероятностная выборка». Значение 0 (ноль) приведет к тому, что ни одна запись не будет включена в исходящий файл FlowFile, а значение 100 приведет к тому, что все записи будут включены в исходящий файл FlowFile. Поддерживает язык выражений: true (будет оцениваться с использованием атрибутов файла потока и переменных среды)This Property is only considered if the [Sampling Strategy] Property has a value of "Probabilistic Sampling". |
Reservoir Size | Указывает количество записей, которые необходимо записать в исходящий файл FlowFile. Это свойство используется только в том случае, если для стратегии выборки заданы стратегии на основе резервуаров, такие как выборка из резервуаров. Поддерживает язык выражений: true (будет оцениваться с использованием атрибутов файла потока и переменных среды)This Property is only considered if the [Sampling Strategy] Property has a value of "Reservoir Sampling". |
Random Seed | Указывает конкретное число, которое используется в качеств е начального значения для генератора случайных чисел (используется в вероятностных стратегиях). Установка этого свойства гарантирует, что одни и те же записи будут выбираться даже при использовании вероятностных стратегий. Поддерживает язык выражений: true (будет оцениваться с использованием атрибутов файла потока и переменных среды)This Property is only considered if the [Sampling Strategy] Property is set to one of the following values: [Probabilistic Sampling], [Reservoir Sampling] |
Взаимосвязи
- success: Файл FlowFile направляется в эту связь, если выборка прошла успешно
- failure: Если обработка файла FlowFile по какой-либо причине не удалась (например, запись недействительна), исходный файл FlowFile будет направлен в эту связь
- original: Исходный файл FlowFile направляется в эту связь, если выборка прошла успешно