Skip to main content

Мониторинг потока данных

Visary ETL предоставляет большой объем информации о потоке данных, позволяющей отслеживать его работоспособность и статус. В строке состояния отображается информация об общем состоянии системы (см. "Пользовательский интерфейс Visary ETL"). Процессоры, группы процессов и группы удаленных процессов предоставляют подробные сведения о своих операциях. Соединения и группы процессов предоставляют информацию об объеме данных в их очередях. Страница Сводки содержит информацию обо всех компонентах на холсте в табличном формате, а также предоставляет информацию о системной диагностике, которая включает использование диска, загрузку процессора и информацию о куче Java и сборке мусора. В кластеризованной среде эта информация доступна для каждого узла или в виде агрегатов по всему кластеру. Ниже мы рассмотрим каждый из этих объектов мониторинга.

Анатомия процессора

Visary ETL содержит значительный объем информации о каждом процессоре на холсте, среди которых можно выделить основные элементы:

  • Тип процессора: В Visary ETL предусмотрено несколько различных типов процессоров, позволяющих выполнять широкий спектр задач. Каждый тип процессора предназначен для выполнения одной конкретной задачи. Тип процессора (в данном примере PutFile) описывает задачу, которую выполняет этот процессор. В этом случае процессор записывает потоковый файл на диск или "помещает" потоковый файл в файл.

  • Индикатор сводки: Когда процессор регистрирует, что произошло какое-либо событие, он генерирует сводку для уведомления тех, кто отслеживает Visary ETL, через пользовательский интерфейс. DFM может настроить, какие сводки должны отображаться в пользовательском интерфейсе, обновив поле "Уровень сводок" на вкладке "Настройки" диалогового окна конфигурации процессора. Значение по умолчанию - WARN, что означает, что в пользовательском интерфейсе будут отображаться только предупреждения и ошибки. Этот значок отображается только в том случае, если для данного процессора не существует сводки. Когда он присутствует, при наведении курсора мыши на значок отображается всплывающая подсказка, объясняющая сообщение, предоставленное процессором, а также уровень сводки. Если экземпляр Visary ETL кластеризован, на нем также будет показан узел, отправивший сводку. Срок действия сводок автоматически истекает через пять минут.

  • Индикатор состояния: Показывает текущее состояние процессора. Возможны следующие варианты:

    • Запущен: Процессор в данный момент запущен.
    • Остановлен: Процессор исправен и включен, но не запущен.
    • Недействителен: Процессор включен, но в данный момент не работает и не может быть запущен. При наведении курсора на этот значок появится всплывающая подсказка, указывающая, почему процессор не работает.
    • Отключен: Процессор не запущен и не может быть запущен до тех пор, пока он не будет включен. Этот статус не указывает, работает процессор или нет.
  • Наименование процессора: Это имя процессора, определяемое пользователем. По умолчанию имя процессора совпадает с типом процессора.

  • Активные задачи: Количество задач, которые в данный момент выполняет данный процессор. Это количество ограничено параметром "Параллельные задачи" на вкладке "Планирование" диалогового окна конфигурации процессора. Здесь мы видим, что процессор в данный момент выполняет одну задачу. Если экземпляр Visary ETL кластеризован, это значение представляет количество задач, которые в данный момент выполняются на всех узлах кластера.

  • Статистика за 5 минут: Процессор отображает несколько различных статистических данных в табличной форме. Каждая из этих статистических данных отражает объем работы, выполненной за последние пять минут. Если экземпляр Visary ETL кластеризован, эти значения показывают, какой объем работы был выполнен всеми узлами вместе взятыми за последние пять минут. Эти показатели являются:

    • Входящие: объем данных, которые процессор извлек из очередей своих входящих подключений. Это значение представлено в виде <count> (<size>), где <count> - количество потоковых файлов, которые были извлечены из очередей, а <size> - общий размер содержимого этих потоковых файлов.

    • Чтение/запись: Общий размер содержимого потокового файла, который процессор считывает с диска и записывает на диск. Это дает ценную информацию о производительности ввода-вывода, необходимой данному процессору. Некоторые процессоры могут только считывать данные, ничего не записывая, в то время как другие не будут считывать данные, а будут только записывать данные. Другие не будут ни считывать, ни записывать данные, а некоторые процессоры будут и считывать, и записывать данные. Это то, чего мы и ожидали, поскольку этот процессор просто копирует содержимое потокового файла на диск. Однако обратите внимание, что это не совпадает с объемом данных, которые он извлекает из своих входных очередей. Это связано с тем, что некоторые файлы, которые он извлек из входных очередей, уже существуют в выходном каталоге, и процессор настроен на сбой маршрутизации потоковых файлов, когда это происходит. Таким образом, для тех файлов, которые уже существовали в выходном каталоге, данные не были ни прочитаны, ни записаны на диск.

    • Исходящие: объем данных, который Процессор передал своим исходящим соединениям. Сюда не входят потоковые файлы, которые процессор удаляет сам, или потоковые файлы, которые перенаправляются на соединения, которые автоматически завершаются. Как и в приведенном выше показателе "In", это значение представлено в виде <count> (<size>), где <count> - это количество потоковых файлов, которые были переданы исходящим соединениям, а <size> - общий размер содержимого этих потоковых файлов.

    • Задачи/время: Количество запусков данного процессора за последние 5 минут и количество времени, затраченного на выполнение этих задач. Время указывается в следующем формате: <час>:<минута>:<секунда>. Обратите внимание, что время может превышать пять минут, поскольку многие задачи могут выполняться параллельно. Например, если процессору запланирована работа с 60 параллельными задачами, и выполнение каждой из этих задач занимает одну секунду, возможно, что все 60 задач будут выполнены за одну секунду. Однако в этом случае мы увидим показатель времени, показывающий, что это заняло 60 секунд, а не 1 секунду. Это время можно рассматривать как "системное время", или, по-другому, это значение равно 60 секундам, потому что именно столько времени потребовалось бы для выполнения действия, если бы использовалась только одна параллельная задача.

Анатомия группы процессов

Группа процессов предоставляет механизм для объединения компонентов в логическую конструкцию, чтобы организовать поток данных таким образом, чтобы он был более понятен с более высокого уровня.

Группа процессов состоит из следующих элементов:

  • Наименование: Это заданное пользователем имя группы процессов. Это имя задается при добавлении группы процессов на холст. Позже название можно изменить, щелкнув правой кнопкой мыши на группе процессов и выбрав пункт меню "Настроить".

  • Индикатор сводки: Когда дочерний компонент группы процессов отправляет сводку, эта сводка также распространяется на родительскую группу процессов компонента. Когда какой-либо компонент содержит активную сводку, появляется этот индикатор, позволяющий пользователю навести курсор мыши на значок, чтобы просмотреть сводку.

  • Активные задачи: Количество задач, которые в данный момент выполняются компонентами в рамках этой группы процессов. Здесь мы видим, что группа процессов в данный момент выполняет две задачи. Если экземпляр Visary ETL кластеризован, это значение представляет количество задач, которые в данный момент выполняются на всех узлах кластера.

  • Статистика: Группы процессов предоставляют статистические данные об объеме данных, которые были обработаны группой процессов за последние 5 минут, а также о количестве данных, которые в настоящее время находятся в очереди в Группе процессов. Следующие элементы содержат раздел "Статистика" группы процессов:

    • В очереди: Количество потоковых файлов, которые в данный момент находятся в очереди в группе процессов. Это поле представлено в виде <count> (<size>), где <count> - количество потоковых файлов, которые в данный момент находятся в очереди в группе процессов, а <size> - общий размер содержимого этих потоковых файлов.

    • Входящие: Количество потоковых файлов, которые были переданы в группу процессов через все ее входные порты за последние 5 минут. Это поле представлено в виде <count> / <size> -> <ports>, где <count> - количество потоковых файлов, которые поступили в группу процессов за последние 5 минут, <size> - общий размер содержимого этих потоковых файлов а <ports> - это количество входных портов.

      • Чтение/Запись: Общий размер содержимого потокового файла, который компоненты внутри группы процессов прочитали с диска и записали на диск. Это предоставляет ценную информацию о производительности ввода-вывода, требуемой данной группе процессов.

      • Исходящие: Количество потоковых файлов, которые были переданы из группы процессов через ее выходные порты за последние 5 минут. Это поле представлено в виде <порты> -> <количество> (<размер>), где <порты> - количество выходных портов, <количество> - количество потоковых файлов, которые вышли из группы процессов за последние 5 минут, и <размер> - это общий размер содержимого этих потоковых файлов.

  • Количество компонентов: предоставляет информацию о том, сколько компонентов каждого типа существует в группе процессов. Ниже приведены сведения о каждом из этих значков и их значениях:

    • Передающие порты: Количество портов группы удаленных процессов, которые в настоящее время настроены для передачи данных в удаленные экземпляры Visary ETL или извлечения данных из удаленных экземпляров Visary ETL

    • Не передающие порты: Количество портов удаленной группы процессов, которые в данный момент подключены к компонентам в этой группе процессов, но в настоящее время их передача отключена.

    • Запущенные компоненты: Количество процессоров, входных и выходных портов, которые в данный момент запущены в этой группе процессов.

    • Остановленные компоненты: Количество процессоров, входных и выходных портов, которые в данный момент не запущены, но являются действительными и включены. Эти компоненты готовы к запуску.

    • Недействительные компоненты: Количество процессоров, входных и выходных портов, которые включены, но в данный момент находятся в недопустимом состоянии. Это может быть связано с неправильно настроенными свойствами или отсутствующими взаимосвязями.

    • Отключенные компоненты: Количество процессоров, входных и выходных портов, которые в данный момент отключены. Эти компоненты могут быть допустимыми, а могут и не быть. Если запущена группа процессов, эти компоненты не вызовут никаких ошибок, но и не будут запущены.

  • Подсчет состояния версии: Элемент Version State Counts предоставляет информацию о том, сколько версионных групп процессов находится в группе процессов.

  • Комментарии: Когда группа процессов добавляется на холст, пользователю предоставляется возможность указать комментарии, чтобы предоставить информацию о группе процессов. Позже комментарии можно изменить, щелкнув правой кнопкой мыши на группе процессов и выбрав пункт меню "Настроить".

Анатомия удаленной группы процессов

При создании потока данных часто возникает необходимость перенести данные из одного экземпляра Visary ETL в другой. В этом случае удаленный экземпляр Visary ETL можно рассматривать как группу процессов. По этой причине в Visary ETL представлена концепция группы удаленных процессов. С точки зрения пользовательского интерфейса, группа удаленных процессов выглядит аналогично группе процессов. Однако вместо отображения информации о внутренней работе и состоянии группы удаленных процессов, такой как размеры очередей, информация, отображаемая о группе удаленных процессов, связана с взаимодействием, которое происходит между этим экземпляром Visary ETL и удаленным экземпляром.

  • Статус передачи: Статус передачи указывает, включена ли в данный момент передача данных между данным экземпляром Visary ETL и удаленным экземпляром или нет. Это будет отображаться как , если какой-либо из входных или выходных портов в данный момент настроен на передачу, или как , если все подкюченные входные и выходные порты, которые в данный момент остановлены.

  • Наименование удаленного экземпляра: Это имя экземпляра Visary ETL, о котором сообщил удаленный экземпляр. При первом создании группы удаленных процессов, до получения этой информации, здесь будут отображаться URL-адреса удаленного экземпляра.

  • URL удаленного экземпляра: Это URL удаленного экземпляра, на который указывает группа удаленных процессов. Этот URL вводится при добавлении группы удаленных процессов на холст и не может быть изменен.

  • Индикатор защищенности: Этот значок указывает на то, защищена ли связь с удаленным экземпляром Visary ETL. Если связь с удаленным экземпляром защищена, на это будет указывать значок . Если связь небезопасна, на это будет указывать значок . Если связь защищена, этот экземпляр Visary ETL не сможет взаимодействовать с удаленным экземпляром до тех пор, пока администратор удаленного экземпляра не предоставит доступ. Всякий раз, когда группа удаленных процессов добавляется на холст, это автоматически инициирует запрос на создание пользователя для этого экземпляра Visary ETL на удаленном экземпляре. Этот экземпляр не сможет взаимодействовать с удаленным экземпляром до тех пор, пока администратор удаленного экземпляра не добавит пользователя в систему и не присвоит ему роль "Visary ETL". В случае, если связь не защищена, группа удаленных процессов может получать данные от кого угодно, и эти данные не шифруются при передаче между экземплярами Visary ETL.

  • Статистика за 5 минут: Для групп удаленных процессов отображаются две статистические данные: "Отправлено" и "Получено". Оба они представлены в формате <count> (<size>), где <count> - это количество потоковых файлов, которые были отправлены или получены за предыдущие пять минут, а <size> - общий размер содержимого этих потоковых файлов.

  • Время последнего обновления: Информация, которая извлекается из удаленного экземпляра и отображается в группе удаленных процессов в пользовательском интерфейсе, периодически обновляется в фоновом режиме. Этот элемент указывает время, когда это обновление происходило в последний раз, или, если информация не обновлялась в течение определенного периода времени, значение изменится, чтобы указать, что поток удаленных процессов не является текущим. Visary ETL можно запустить, чтобы инициировать обновление этой информации, щелкнув правой кнопкой мыши на группе удаленных процессов и выбрав пункт выберите пункт меню "Обновить удаленный".

Взаимодействие с очередью

При необходимости можно просмотреть потоковые файлы, поставленные в очередь в соединении. Список очередей открывается через Список очередей в контекстном меню соединения. В списке будут отображены 100 лучших потоковых файлов в активной очереди в соответствии с настроенным приоритетом. Перечисление может быть выполнено, даже если источник и пункт назначения активно запущены.

Кроме того, подробную информацию о потоковом файле в списке можно просмотреть, нажав на значок в крайнем левом столбце. Здесь доступны сведения о потоковом файле и его атрибутах, а также кнопки для загрузки или просмотра содержимого.

Потоковые файлы, помещенные в очередь в соединении, также могут быть удалены при необходимости. Удаление потоковых файлов инициируется с помощью команды Очистить очередь в контекстном меню соединения. Это действие также может быть выполнено, если исходный и конечный файлы активно запущены.

Если включена функция прогнозирования аналитики, при наведении указателя мыши на очередь также будет отображаться прогнозируемая статистика о том, когда в очереди может возникнуть задержка, либо из-за количества объектов, либо из-за размера содержимого, соответствующего текущим пороговым настройкам. Прогнозы будут доступны только тогда, когда у Visary ETL будет достаточно данных во внутреннем хранилище и если его модель будет достаточно точной, чтобы транслировать прогноз.

Сводка

Хотя холст Visary ETL полезен для понимания того, как организован сконфигурированный поток данных, этот вид не всегда оптимален при попытке определить состояние системы. Чтобы помочь пользователю понять, как функционирует поток данных на более высоком уровне, Visary ETL предоставляет страницу с краткой информацией. Эта страница доступна в Глобальном меню в правом верхнем углу пользовательского интерфейса.

Страница Сводки открывается при выборе пункта Сводка в глобальном меню. Откроется диалоговое окно Сводная таблица.

Это диалоговое окно предоставляет большой объем информации о каждом из компонентов на холсте.

Страница сводки в основном состоит из таблицы, которая предоставляет информацию о каждом из компонентов на холсте. Над этой таблицей находится набор из пяти вкладок, которые можно использовать для просмотра различных типов компонентов. Информация, представленная в таблице, совпадает с информацией, представленной для каждого компонента на холсте. Каждый из столбцов в таблице можно отсортировать, щелкнув по заголовку столбца.

Страница сводки также включает в себя следующие элементы:

  • Индикатор сводки: Как и в других местах пользовательского интерфейса, при наличии этого значка при наведении курсора мыши на значок отображается информация о сгенерированной сводке, включая сообщение, уровень серьезности, время создания сводки и (в кластеризованной среде) узел, сгенерировавший сводку. Как и все столбцы в сводной таблице, этот столбец, в котором отображаются сводки, можно отсортировать, щелкнув по заголовку, чтобы все существующие в данный момент сводки отображались в верхней части списка.

  • Подробности: Щелчок по значку "Подробности" предоставит пользователю подробную информацию о компоненте. Это диалоговое окно аналогично диалоговому окну, которое открывается, когда пользователь щелкает правой кнопкой мыши на компоненте и выбирает пункт меню "Просмотр конфигурации".

  • Перейти к: Нажатие этой кнопки закроет страницу сводки и приведет пользователя непосредственно к компоненту на холсте Visary ETL. Это может привести к изменению группы процессов, в которой пользователь находится в данный момент. Этот значок недоступен, если страница с краткой информацией была открыта в новой вкладке или окне браузера (при нажатии кнопки "Открыть", как описано ниже).

  • История состояния: При нажатии на значок Истории состояния откроется новое диалоговое окно, в котором отображается историческая статистика, отображаемая для этого компонента.

  • Обновить: Кнопка "Обновить" позволяет пользователю обновить отображаемую информацию, не закрывая диалоговое окно и не открывая его снова. Время последнего обновления информации отображается справа от кнопки "Обновить". Информация на странице не обновляется автоматически.

  • Фильтр: Элемент фильтра позволяет пользователям фильтровать содержимое сводной таблицы, вводя все или часть некоторых критериев, таких как тип процессора или его название. Доступные типы фильтров различаются в зависимости от выбранной вкладки. Например, при просмотре вкладки "Обработчик" пользователь может выполнять фильтрацию по имени или типу. При просмотре вкладки "Подключения" пользователь может выполнять фильтрацию по источнику, по имени или по назначению. Фильтр применяется автоматически, когда содержимое значения текстового поля изменяются. Под текстовым полем находится индикатор того, сколько записей в таблице соответствуют фильтру и сколько записей в таблице существует.

  • Открыть в новом окне: При мониторинге потока полезно иметь возможность открывать сводную таблицу в отдельной вкладке или окне браузера. Кнопка "Открыть в новом окне", расположенная рядом с кнопкой "Закрыть", приведет к открытию всего диалогового окна сводки в новой вкладке или окне браузера (в зависимости от конфигурации браузера). Как только страница "выскакивает", диалоговое окно закрывается в исходной вкладке/окне браузера. В новой вкладке/окне кнопка "Открыть в новом окне" и кнопка "Перейти к" больше не будут доступны.

  • Диагностика системы: Окно Диагностики системы предоставляет информацию о том, как работает система с точки зрения использования системных ресурсов. Хотя это предназначено в основном для администраторов, оно представлено в данном представлении, поскольку содержит краткую информацию о системе. В этом диалоговом окне отображается такая информация, как загрузка процессора, степень заполнения дисков и специфичные для Java показатели, такие как объем и использование памяти, а также информация о сборке мусора.

Историческая статистика компонента

В то время как сводная таблица и холст отображают числовую статистику, относящуюся к производительности компонента за последние пять минут, часто бывает полезно также просмотреть историческую статистику. Эту информацию можно получить, щелкнув правой кнопкой мыши на компоненте и выбрав пункт меню "История состояния" или щелкнув по истории состояния на странице сводки (см. "Сводка" для дополнительной информации).

Объем хранимой исторической информации настраивается в свойствах Visary ETL, но по умолчанию используется значение 24 часа.

Когда открывается диалоговое окно "История состояния", в нем отображается график исторической статистики.

В левой части диалогового окна представлена информация о компоненте, для которого предназначена статистика, а также текстовое представление графической статистики. В левой части представлена следующая информация:

  • Идентификатор: Идентификатор компонента, для которого отображается статистика.

  • Идентификатор группы: Идентификатор группы процессов, в которой находится компонент.

  • Наименование: Название компонента, для которого отображается статистика.

  • Записи, относящиеся к конкретному компоненту: Отображается информация для каждого отдельного типа компонента. Например, для процессора отображается тип процессора. Для подключения отображаются имена и идентификаторы источника и назначения.

  • Начало: Самое раннее время, показанное на графике.

  • Конец: Самое позднее время, показанное на графике.

  • Мин/Макс/Сред: Отображаются минимальное, максимальное и среднее (среднеарифметическое или усредненное значение) значения. Эти значения основаны только на выбранном диапазоне времени, если выбран какой-либо диапазон времени. Если этот экземпляр Visary ETL кластеризован, эти значения отображаются как для кластера в целом, так и для каждого отдельного узла. В кластеризованной среде каждый узел отображается другим цветом. Это также служит в качестве условного обозначения графика, показывая цвет каждого узла, который показан на графике. При наведении курсора мыши на кластер или один из узлов в условных обозначениях соответствующий узел на графике также будет выделен жирным шрифтом.

В правой части диалогового окна отображается раскрывающийся список различных типов показателей для отображения на графиках ниже. Верхний график увеличен, чтобы обеспечить более удобное отображение информации. В правом нижнем углу этого графика находится небольшой маркер , который можно перетащить, чтобы изменить размер графика. Пустые области диалогового окна также можно перетаскивать, чтобы переместить все диалоговое окно целиком.

Нижний график намного короче и позволяет выбрать временной диапазон. При выборе временного диапазона на верхнем графике будет отображаться только выбранный временной диапазон, но более подробно. Кроме того, это приведет к пересчету минимальных/максимальных/средних значений с левой стороны. Как только выделение будет создано путем перетаскивания прямоугольника по графику, двойной щелчок по выбранной части приведет к полному расширению выделения в вертикальном направлении (т.е. будут выбраны все значения в этом временном диапазоне). Щелчок по нижнему графику без перетаскивания приведет к удалению выделения.