SplitText
Описание
Разделяет текстовый файл на несколько меньших текстовых файлов по границам строк, ограниченных максимальным количеством строк или общим размером фрагмента. Каждый выходной файл раздела будет содержать не более настроенного количества строк или байт. Если указаны и счетчик разделения строк, и максимальный размер фрагмента, разделение происходит на достижении первого ограничения. Если первая строка фрагмента превышает максимальный размер фрагмента, эта строка будет выведена в один разделенный файл, который превышает настроенный максимальный размер. Этот компонент также позволяет указать, что каждый раздел должен включать строки заголовка. Строки заголовка могут быть вычислены либо путем указания количества строк, которые должны составлять заголовок, либо с использованием маркера заголовка для сопоставления с прочитанными строками. Если такое сопоставление происходит, соответствующая строка будет рассматриваться как заголовок. Имейте в виду, что после первого сбоя в сопоставлении маркера заголовка дальнейшие сопоставления не будут выполнены, и остальная часть данных будет обработана как обычные строки для данного раздела. Если после вычисления заголовка данных больше нет, результат раздела будет состоять только из строк заголовка.
Теги
split, text
Свойства
Название | Описание |
---|---|
Line Split Count | Количество строк, которые будут добавлены в каждый разделенный файл, за исключением строк заголовка. При нулевом значении необходимо задать максимальный размер фрагмента, и количество строк не будет учитываться при определении разделенных файлов. |
Maximum Fragment Size | Максимальный размер каждого разделенного файла, включая строки заголовка. ПРИМЕЧАНИЕ: если одна строка превышает это свойство (включая заголовки, если применимо), эта строка будет выведена в отдельном фрагменте, размер которого превышает этот параметр «Максимальный размер фрагмента». |
Header Line Count | Количество строк, которые следует считать частью заголовка; строки заголовка будут продублированы во всех файлах фрагментов. |
Header Line Marker Characters | Первый символ (символы) в строке файла данных, обозначающий строку заголовка. Это значение игнорируется, если количество строк заголовка не равно нулю. Первая строка, не содержащая символов-разделителей строк заголовка, и все последующие строки считаются не относящимися к заголовку. |
Remove Trailing Newlines | Удалять ли новые строки в конце каждого файла, на который разбивается текст. Если вы планируете позже объединить файлы, на которые разбивается текст, установите значение false. Если для этого параметра установлено значение «истина» и генерируется файл FlowFile, содержащий только «пустые строки» (т. е. состоящий только из символов \r и \n), файл FlowFile не будет создан. Однако обратите внимание, что если указаны строки заголовка, результирующий файл FlowFile никогда не будет пустым, так как он будет состоять из строк заголовка, поэтому может быть создан файл FlowFile, содержащий только строки заголовка. |
Взаимосвязи
- failure: Если файл по какой-то причине не может быть разделён, исходный файл будет направлен в это место назначения, и ничего не будет направлено в другое место
- original: Исходный входной файл будет направлен по этому каналу связи, если он был успешно разделён на 1 или более файлов
- splits: Разделенные файлы будут направлены по этому каналу связи, если входной файл был успешно разделён на 1 или более файлов