Skip to main content

SampleRecord

Описание

Отбирает записи FlowFile на основе указанной стратегии выборки (например, выборки с использованием алгоритма резервуара). Полученный FlowFile может содержать фиксированное количество записей (в случае алгоритмов на основе резервуара), некоторую подмножество общего количества записей (в случае вероятностной выборки) или детерминированное количество записей (в случае интервальной выборки)

Теги

record, sample, reservoir, range, interval

Свойства

НазваниеОписание
Record ReaderУказывает службу контроллера для анализа входящих данных и определения их схемы
Record WriterУказывает службу контроллера, используемую для записи результатов в FlowFile
Sampling StrategyУказывает, какой метод использовать для выборки записей из входящего FlowFile
Sampling IntervalУказывает количество записей, которые нужно пропустить перед записью в исходящий файл FlowFile. Это свойство используется только в том случае, если для стратегии выборки установлено значение «Интервальная выборка». Значение ноль (0) приведет к тому, что в исходящий файл FlowFile не будут включены записи, значение один (1) приведет к включению всех записей, а значение два (2) приведет к включению половины записей и так далее. Поддерживает язык выражений: true (будет оцениваться с использованием атрибутов файла потока и переменных среды)This Property is only considered if the [Sampling Strategy] Property has a value of "Interval Sampling".
Sampling RangeУказывает диапазон записей, которые нужно включить в выборку, от 1 до общего количества записей. Например, '3,6-8,20-' включает третью запись, шестую, седьмую и восьмую записи, а также все записи, начиная с двадцатой. Запятые разделяют непересекающиеся интервалы, и интервал может быть между двумя числами (например, 6-8) или до заданного числа (например, -5), или от числа до номера последней записи (например, 20-). Если это свойство не задано, будут включены все записи. Поддерживает язык выражений: true (будет оцениваться с использованием атрибутов файла потока и переменных среды)This Property is only considered if the [Sampling Strategy] Property has a value of "Range Sampling".
Sampling ProbabilityУказывает вероятность (в процентах от 0 до 100) включения записи в исходящий файл FlowFile. Это свойство используется только в том случае, если для стратегии выборки установлено значение «Вероятностная выборка». Значение 0 (ноль) приведет к тому, что ни одна запись не будет включена в исходящий файл FlowFile, а значение 100 приведет к тому, что все записи будут включены в исходящий файл FlowFile. Поддерживает язык выражений: true (будет оцениваться с использованием атрибутов файла потока и переменных среды)This Property is only considered if the [Sampling Strategy] Property has a value of "Probabilistic Sampling".
Reservoir SizeУказывает количество записей, которые необходимо записать в исходящий файл FlowFile. Это свойство используется только в том случае, если для стратегии выборки заданы стратегии на основе резервуаров, такие как выборка из резервуаров. Поддерживает язык выражений: true (будет оцениваться с использованием атрибутов файла потока и переменных среды)This Property is only considered if the [Sampling Strategy] Property has a value of "Reservoir Sampling".
Random SeedУказывает конкретное число, которое используется в качестве начального значения для генератора случайных чисел (используется в вероятностных стратегиях). Установка этого свойства гарантирует, что одни и те же записи будут выбираться даже при использовании вероятностных стратегий. Поддерживает язык выражений: true (будет оцениваться с использованием атрибутов файла потока и переменных среды)This Property is only considered if the [Sampling Strategy] Property is set to one of the following values: [Probabilistic Sampling], [Reservoir Sampling]

Взаимосвязи

  • success: Файл FlowFile направляется в эту связь, если выборка прошла успешно
  • failure: Если обработка файла FlowFile по какой-либо причине не удалась (например, запись недействительна), исходный файл FlowFile будет направлен в эту связь
  • original: Исходный файл FlowFile направляется в эту связь, если выборка прошла успешно