Мониторинг потока данных
Visary ETL предоставляет большой объем информации о потоке данных, позволяющей отслеживать его работоспособность и статус. В строке состояния отображается информация об общем состоянии системы (см. "Пользовательский интерфейс Visary ETL"). Процессоры, группы процессов и группы удаленных процессов предоставляют подробные сведения о своих операциях. Соединения и группы процессов предоставляют информацию об объеме данных в их очередях. Страница Сводки содержит информацию обо всех компонентах на холсте в табличном формате, а также предоставляет информацию о системной диагностике, которая включает использование диска, загрузку процессора и информацию о куче Java и сборке мусора. В кластеризованной среде эта информация доступна для каждого узла или в виде агрегатов по всему кластеру. Ниже мы рассмотрим каждый из этих объектов мониторинга.
Анатомия процессора
Visary ETL содержит значительный объем информации о каждом процессоре на холсте, среди которых можно выделить основные элементы:
-
Тип процессора: В Visary ETL предусмотрено несколько различных типов процессоров, позволяющих выполнять широкий спектр задач. Каждый тип процессора предназначен для выполнения одной конкретной задачи. Тип процессора (в данном примере PutFile) описывает задачу, которую выполняет этот процессор. В этом случае процессор записывает потоковый файл на диск или "помещает" потоковый файл в файл.
-
Индикатор сводки: Когда процессор регистрирует, что произошло какое-либо событие, он генерирует сводку для уведомления тех, кто отслеживает Visary ETL, через пользовательский интерфейс. DFM может настроить, какие сводки должны отображаться в пользовательском интерфейсе, обновив поле "Уровень сводок" на вкладке "Настройки" диалогового окна конфигурации процессора. Значение по умолчанию -
WARN
, что означает, что в пользовательском интерфейсе будут отображаться только предупреждения и ошибки. Этот значок отобра жается только в том случае, если для данного процессора не существует сводки. Когда он присутствует, при наведении курсора мыши на значок отображается всплывающая подсказка, объясняющая сообщение, предоставленное процессором, а также уровень сводки. Если экземпляр Visary ETL кластеризован, на нем также будет показан узел, отправивший сводку. Срок действия сводок автоматически истекает через пять минут. -
Индикатор состояния: Показывает текущее состояние процессора. Возможны следующие варианты:
Запущен: Процессор в данный момент запущен.
Остановлен: Процессор исправен и включен, но не запущен.
Недействителен: Процессор включен, но в данный момент не работает и не может быть запущен. При наведении курсора на этот значок появится всплывающая подсказка, указывающая, почему процессор не работает.
Отключен: Процессор не запущен и не может быть запущен до тех пор, пока он не будет включен. Этот статус не указывает, работает п роцессор или нет.
-
Наименование процессора: Это имя процессора, определяемое пользователем. По умолчанию имя процессора совпадает с типом процессора.
-
Активные задачи: Количество задач, которые в данный момент выполняет данный процессор. Это количество ограничено параметром "Параллельные задачи" на вкладке "Планирование" диалогового окна конфигурации процессора. Здесь мы видим, что процессор в данный момент выполняет одну задачу. Если экземпляр Visary ETL кластеризован, это значение представляет количество задач, которые в данный момент выполняются на всех узлах кластера.
-
Статистика за 5 минут: Процессор отображает несколько различных статистических данных в табличной форме. Каждая из этих статистических данных отражает объем работы, выполненной за последние пять минут. Если экземпляр Visary ETL кластеризован, эти значения показывают, какой объем работы был выполнен всеми узлами вместе взятыми за последние пять минут. Эти показатели являются:
-
Входящие: объем данных, которые процессор извлек из очередей своих входящих подключений. Это значение представлено в виде <count> (<size>), где <count> - количество потоковых файлов, которые были извлечены из очередей, а <size> - общий размер содержимого этих потоковых файлов.
-
Чтение/запись: Общий размер содержимого потокового файла, который процессор считывает с диска и записывает на диск. Это дает ценную информацию о производительности ввода-вывода, необходимой данному процессору. Некоторые процессоры могут только считывать данные, ничего не записывая, в то время как другие не будут считывать данные, а будут только записывать данные. Другие не будут ни считывать, ни записывать данные, а некоторые процессоры будут и считывать, и записывать данные. Это то, чего мы и ожидали, поскольку этот процессор просто копирует содержимое потокового файла на диск. Однако обратите внимание, что это не совпадает с объемом данных, которые он извлекает из своих входных очередей. Это связано с тем, что некоторые файлы, которые он извлек из входных очередей, уже существуют в выходном каталоге, и процессор настроен на сбой маршрутизации потоковых файлов, когда это происходит. Таким образом, для тех файлов, которые уже существовали в выходном каталоге, данные не были ни прочитаны, ни записаны на диск.
-
Исходящие: объем данных, который Процессор передал своим исходящим соединениям. Сюда не входят потоковые файлы, которые процессор удаляет сам, или потоковые файлы, которые перенаправляются на соединения, которые автоматически завершаются. Как и в приведенном выше показателе "In", это значение представлено в виде <count> (<size>), где <count> - это количество потоковых файлов, которые были переданы исходящим соединениям, а <size> - общий размер содержимого этих потоковых файлов.
-
Задачи/время: Количество запусков данного процессора за последние 5 минут и количество времени, затраченного на выполнение этих задач. Время указывается в следующем формате: <час>:<минута>:<секунда>. Обратите внимание, что время может превышать пять минут, поскольку многие задачи могут выполняться параллельно. Например, если процессору запланирована работа с 60 параллельными задачами, и выполнение каждой из этих задач занимает одну секунду, возможно, что все 60 задач будут выполнены за одну секунду. Однако в этом случае мы увидим показатель времени, показывающий, что это заняло 60 секунд, а не 1 секунду. Это время можно рассматривать как "системное время", или, по-другому, это значение равно 60 секундам, потому что именно столько времени потребовалось бы для выполнения действия, если бы использовалась только одна параллельная задача.
-
Анатомия группы процессов
Группа процессов предоставляет механизм для объединения компонентов в логическую конструкцию, чтобы организовать поток данных таким образом, чтобы он был более понятен с более высокого уровня.
Группа процессов состоит из следующих элементов:
-
Наименование: Это заданное пользователем имя группы процессов. Это имя задается при добавлении группы процессов на холст. Позже название можно изменить, щелкнув правой кнопкой мыши на группе процессов и выбрав пункт меню "Настроить".
-
Индикатор сводки: Когда дочерний компонент группы процессов отправляет сводку, эта сводка также распространяется на родительскую группу процессов компонента. Когда какой-либо компонент содержит активную сводку, появляется этот индикатор, позволяющий пользователю навести курсор мыши на значок, чтобы просмотреть сводку.
-
Активные задачи: Количество задач, которые в данный момент выполняются компонентами в рамках этой группы процессов. Здесь мы видим, что группа процессов в данный момент выполняет две задачи. Если экземпляр Visary ETL кластеризован, это значение представляет количество задач, которые в данный момент выполняются на всех узлах кластера.
-
Статистика: Группы процессов предоставляют статистические данные об объеме данных, которые были обработаны группой процессов за последние 5 минут, а также о количестве данных, которые в настоящее время находятся в очереди в Группе процессов. Следующие элементы содержат раздел "Статистика" группы процессов:
-
В очереди: Количество потоковых файлов, которые в данный момент находятся в очереди в группе процессов. Это поле представлено в виде <count> (<size>), где <count> - количество потоковых файлов, которые в данный момент находятся в очереди в группе процессов, а <size> - общий размер содержимого этих потоковых файлов.
-
Входящие: Количество потоковых файлов, которые были переданы в группу процессов через все ее входные порты за последние 5 минут. Это поле представлено в виде <count> / <size> -> <ports>, где <count> - количество потоковых файлов, которые поступили в группу процессов за последние 5 минут, <size> - общий размер содержимого этих потоковых файлов а <ports> - это количество входных портов.
-
Чтение/Запись: Общий размер содержимого потокового файла, который компоненты внутри группы процессов прочитали с диска и записали на диск. Это предоставляет ценную информацию о производительности ввода-вывода, требуемой данной группе процессов.
-
Исходящие: Количество потоковых файлов, которые были переданы из группы процессов через ее выходные порты за последние 5 минут. Это поле представлено в виде <порты> -> <количество> (<размер>), где <порты> - количество выходных портов, <количество> - количество потоковых файлов, которые вышли из группы процессов за последние 5 минут, и <размер> - это общий размер содержимого этих потоковых файлов.
-
-
-
Количество компонентов: предоставляет информацию о том, сколько компонентов каждого типа существует в группе процессов. Ни же приведены сведения о каждом из этих значков и их значениях:
-
Передающие порты: Количество портов группы удаленных процессов, которые в настоящее время настроены для передачи данных в удаленные экземпляры Visary ETL или извлечения данных из удаленных экземпляров Visary ETL
-
Не передающие порты: Количество портов удаленной группы процессов, которые в данный момент подключены к компонентам в этой группе процессов, но в настоящее время их передача отключена.
-
Запущенные компоненты: Количество процессоров, входных и выходных портов, которые в данный момент запущены в этой группе процессов.
-
Остановленные компоненты: Количество процессоров, входных и выходных портов, которые в данный момент не запущены, но являются действительными и включены. Эти компоненты готовы к запуску.
-
Недействительные компоненты: Количество процессоров, входных и выходных портов, которые включены, но в данный момент находятся в недопустимом состоянии. Это может быть связано с неправильно настроенными свойствами или отсутствующими взаимосвязями.
-
Отключенные компоненты: Количество процессоров, входных и выходных портов, которые в данный момент отключены. Эти компоненты могут быть допустимыми, а могут и не быть. Если запущена группа процессов, эти компоненты не вызовут никаких ошибок, но и не будут запущены.
-
-
Подсчет состояния версии: Элемент Version State Counts предоставляет информацию о том, сколько версионных групп процессов находится в группе процессов.
-
Комментарии: Когда группа процессов добавляется на холст, пользователю предоставляется возможность указать комментарии, чтобы предоставить информацию о группе процессов. Позже комментарии можно изменить, щелкнув правой кнопкой мыши на группе процессов и выбрав пункт меню "Настроить".
Анатомия удаленной группы процессов
При создании потока данных часто возникает необходимость перенести данные из одного экземпляра Visary ETL в другой. В этом случае удаленный экземпляр Visary ETL можно рассматривать как группу процессов. По этой причине в Visary ETL представлена концепция группы удаленных процессов. С точки зрения пользовательского интерфейса, группа удаленных процессов выглядит аналогично группе процессов. Однако вместо отображения информации о внутренней работе и состоянии группы удаленных процессов, такой как размеры очередей, информация, отображаемая о группе удаленных процессов, связана с взаимодействием, которое происходит между этим экземпляром Visary ETL и удаленным экземпляром.
-
Статус передачи: Статус передачи указывает, включена ли в данный момент передача данных между данным экземпляром Visary ETL и удаленным экземпляром или нет. Это будет отображаться как
, если какой-либо из входных или выходных портов в данный момент настроен на передачу, или как
, если все подкюченные входные и выходные порты, которые в данный момент остановлены.
-
Наименование удаленного экземпляра: Это имя экземпляра Visary ETL, о котором сообщил удаленный экземпляр. При первом создании группы удаленных процессов, до получения этой информации, здесь будут отображаться URL-адреса удаленного экземпляра.
-
URL удаленного экземпляра: Это URL удаленного экземпляра, на который указывает группа удаленных процессов. Этот URL вводится при добавлении группы удаленных процессов на холст и не может быть изменен.
-
Индикатор защищенности: Этот значок указывает на то, защищена ли связь с удаленным экземпляром Visary ETL. Если связь с удаленным экземпляром защищена, на это будет указывать значок
. Если связь небезопасна, на это будет указывать значок
. Если связь защищена, этот экземпляр Visary ETL не сможет взаимодействовать с удаленным экземпляром до тех пор, пока администратор удаленного экземпляра не предоставит доступ. Всякий раз, когда группа удаленных процессов добавляется на холст, это автоматически инициирует запрос на создание пользователя для этого экземпляра Visary ETL на удаленном экземпляре. Этот экземпляр не сможет взаимодействовать с удаленным экземпляром до тех пор, пока администратор удаленного экземпляра не добавит пользователя в систему и не присвоит ему роль "Visary ETL". В случае, если связь не защищена, группа удаленных процессов может получать данные от кого угодно, и эти данные не шифруются при передаче между экземплярами Visary ETL.
-
Статистика за 5 минут: Для групп удаленных процессов отображаются две статистические данные: "Отправлено" и "Получено". Оба они представлены в формате <count> (<size>), где <count> - это количество потоковых файлов, которые были отправлены или получены за предыдущие пять минут, а <size> - общий размер содержимого этих потоковых файлов.
-
Время последнего обновления: Информация, которая извлекается из удаленного экземпляра и отображается в группе удаленных процессов в пользовательском интерфейсе, периодически обновляется в фоновом режиме. Этот элемент указывает время, когда это обновление происходило в последний раз, или, если информация не обновлялась в течение определенного периода времени, значение изменится, чтобы указать, что поток удаленных процессов не является текущим. Visary ETL можно запустить, чтобы инициировать обновление этой информации, щелкнув правой кнопкой мыши на группе удаленных процессов и выбрав пункт выберите пункт меню "Обновить удаленный".
Взаимодействие с очередью
При необходимости можно просмотреть потоковые файлы, поставленные в очередь в соединении. Список очередей открывается через Список очередей
в контекстном меню соединения. В списке будут отображены 100 лучших потоковых файлов в активной очереди в соответствии с настроенным приоритетом. Перечисление может быть выполнено, даже если источник и пункт назначения активно запущены.
Кроме того, подробную информацию о потоковом файле в списке можно просмотреть, нажав на значок в крайнем левом столбце. Здесь доступны сведения о потоковом файле и его атрибутах, а также кнопки для загрузки или просмотра содержимого.
Потоковые файлы, помещенные в очередь в соединении, также могут быть удалены при необходимости. Удаление потоковых файлов инициируется с помощью команды Очистить очередь
в контекстном меню соединения. Это действие также может быть выполнено, если исходный и конечный файлы активно запущены.
Если включена функция прогнозирования аналитики, при наведении указателя мыши на очередь также будет отображаться прогнозируемая статистика о том, когда в очереди может возникнуть задержка, либо из-за количества объектов, либо из-за размера содержимого, соответствующего текущим пороговым настройкам. Прогнозы будут доступны только тогда, когда у Visary ETL будет достаточно данных во внутреннем хранилище и если его модель будет достаточно точной, чтобы транслировать прогноз.
Сводка
Хотя холст Visary ETL полезен для понимания того, как организован сконфигурированный поток данных, этот вид не всегда оптимален при попытке определить состояние системы. Чтобы помочь пользователю понять, как функционирует поток данных на более высоком уровне, Visary ETL предоставляет страницу с краткой информацией. Эта страница доступна в Глобальном меню в правом верхнем углу пользовательского интерфейса.
Страница Сводки открывается при выборе пункта Сводка в глобальном меню. Откроется диалоговое окно Сводная таблица.
Это диалоговое окно предоставляет большой объем информации о каждом из компонентов на холсте.
Страница сводки в основном состоит из таблицы, которая предоставляет информацию о каждом из компонентов на холсте. Над этой таблицей находится набор из пяти вкладок, которые можно использовать для просмотра различных типов компонентов. Информация, представленная в таблице, совпадает с информацией, представленной для каждого компонента на холсте. Каждый из столбцов в таблице можно отсортировать, щелкнув по заголовку столбца.
Страница сводки также включает в себя следующие элементы:
-
Индикатор сводки: Как и в других местах пользовательского интерфейса, при наличии этого значка при наведении курсора мыши на значок отображается информация о сгенерированной сводке, включая сообщение, уровень серьезности, время создания сводки и (в кластеризованной среде) узел, сгенерировавший сводку. Как и все столбцы в сводной таблице, этот столбец, в котором отображаются сводки, можно отсортировать, щелкнув по заголовку, чтобы все существующие в данный момент сводки отображались в верхней части списка.
-