Метод и методы на основе нейронных сетей для обучения и классификации рабочих нагрузок на основе корпоративной инфраструктуры

Метод и методы на основе нейронных сетей для обучения и классификации рабочих нагрузок на основе корпоративной инфраструктуры



Нейронная сеть

Абстрактный

Серверная инфраструктура Dell обычно поддерживает широкий спектр приложений в центре обработки данных заказчика. С появлением облака некоторые из этих приложений перемещаются в облачную инфраструктуру, и нам важно знать, какие рабочие нагрузки перемещаются в облако, а какие остаются в центре обработки данных. Команды по продажам в Dell имеют скудное представление о том, как клиенты используют нашу серверную инфраструктуру, и полагаются на то, что клиенты обращаются к нам за помощью, чтобы начать разговоры об обновлении/обновлении серверов. Будущие инновации в продуктах для серверов и инфраструктуры во многом зависят от прозрачности текущего использования в центрах обработки данных клиентов. В этом сценарии способность надежно классифицировать рабочие нагрузки на основе приложений, захваченных в журналах сервера или тексте в произвольном формате из внутренних систем Dell CRM, является ключом к этим усилиям и, следовательно, необходимости в усовершенствованном алгоритме классификации рабочих нагрузок на основе NLP.

Обзор

Знание рабочих нагрузок корпоративной инфраструктуры — критическая необходимость для Dell, чтобы добиться успеха на рынке. Существующие методы классификации рабочих нагрузок оказались недостаточными, когда дело дошло до поиска, выходящего за рамки простого поиска по ключевым словам. Важно, чтобы наши команды по управлению продуктами, продажам и инженерам располагали нужной информацией с высоким уровнем точности о рабочих нагрузках в клиентских средах для планирования будущих планов проектирования, разработки, управления и продаж продуктов. Для бизнес-лидеров также важно сосредоточиться на правильных областях инвестиций и спланировать правильные стратегические траектории роста Dell.

Попытка использовать неструктурированные серверные журналы помимо показателей производительности системы отсутствовала в литературе, которую мы просмотрели, и поняли, что такая возможность принесет Dell огромную пользу.

Цель исследования/задача

Классификация рабочих нагрузок корпоративной инфраструктуры сама по себе не нова. Внутри и за пределами Dell прилагаются большие усилия для классификации рабочих нагрузок с помощью различных методов, таких как поиск по ключевым словам, на основе показателей производительности и т. д. Однако проблема всегда заключалась в охвате большого набора инфраструктурных устройств и сокращении количество пробелов, оставленных прошлыми алгоритмами из-за отсутствия данных. Эти недостатки часто приводят к ситуации, когда решения принимаются на основе данных низкого качества и недостаточного представления реальной истории на рынке.

С неструктурированными серверными журналами, фиксирующими информацию о приложениях и влиянии приложений на производительность сервера, стала возможной разработка более надежного алгоритма. Цель состоит в том, чтобы использовать как неструктурированные, так и структурированные данные, поступающие из серверных журналов/систем CRM, для улучшения классификации рабочих нагрузок инфраструктуры.

Процедура/методология

Мы предлагаем решение этих проблем путем развертывания метода NLP (обработка естественного языка) на основе нейронной сети, который может определить тип рабочей нагрузки, выполняемой на сервере. Модель нейронной сети обучается на внутренних данных CRM и Википедии/любом другом подобном внешнем источнике знаний. Он может прогнозировать тип рабочей нагрузки либо на основе а) текстового описания в произвольном формате в CRM, либо б) имени приложения из журналов продукта.. Для этого используется концепция «сигнатур рабочей нагрузки».

READ  Некоторые телефоны Xiaomi имеют серьезные недостатки в безопасности

Наш подход допускает два типа входных данных: а) текст описания возможности в CRM или б) название приложения из журналов продуктов. Затем он передает входные данные в модель нейронной сети, чтобы предсказать тип рабочей нагрузки, выполняемой на сервере. Он делает это, используя нейронное сетевое представление сигнатуры рабочей нагрузки набор слов, которые можно добавлять или вычитать в векторном пространстве для представления рабочей нагрузки). Преимущество сигнатур рабочей нагрузки заключается в том, что они очень интуитивно понятны и могут быть легко использованы для повышения точности вывода в будущем.

Процедура/методология
На рис. 1 представлен общий обзор различных компонентов предлагаемого инструмента.

Вот шаги, связанные с созданием инструмента                                                                         

  1. Создайте модель нейронной сети, используя неструктурированные источники данных – Применить doc2vec во внешние источники данных (источники данных Market Research, Википедия и другие источники знаний), а также внутренние источники данных (CRM и другие данные из точек взаимодействия с клиентами). Модель Doc2vec — это модель искусственной нейронной сети, которая генерирует представление документов в векторном пространстве (документ — это не что иное, как набор ключевых слов). Мы используем конкретную версию Модель doc2vec (распределенный пакет слов или dbow), которая генерирует представление документов и слов в векторном пространстве. В такой модели doc2vec документы, которые используются в одном и том же контексте, близки в векторном пространстве, и мы также можем найти ближайшее слово к документу в векторном пространстве. Рис. 2 иллюстрирует эти функции на примере

  • Подготовка данных CRM для запуска модели doc2vec
    • Объединение нескольких столбцов из CRM, включая возможность_имя, возможность_текст, Имя приложения, наименование товара и т. д. В некоторых случаях столбец workload_type заполняется (вручную). Нам нужно включить его также при обучении модели нейронной сети.
    • При объединении сохраняйте пробел между каждым полем
    • Преобразование объединенных данных в единый регистр (нижний)
    • Передайте его модели нейронной сети. Каждая составная запись рассматривается как один документ
  • Подготовка Википедии и любых других внешних данных для запуска модели doc2vec
    • Удалить теги XML из данных Википедии
    • Удалите URL-адреса и стоп-слова (неважные ключевые слова, такие как a, an, is, the и т. д.).
    • Разделите данные на строки на основе точки (.)
    • Подайте линии в модель нейронной сети
doc2vec
Рис. 2 иллюстрирует свойства модели doc2vec.

2. Определите сигнатуры рабочей нагрузки: Сигнатура рабочей нагрузки — это представление нейронной сети набора ключевых слов, определяющих конкретный вид рабочей нагрузки. Представление нейронной сети может быть создано путем добавления или вычитания векторного представления отдельных слов.

READ  Чат-бота в мессенджере использовали для кражи паролей Facebook

Каков пример подписи рабочей нагрузки из повседневной жизни?

Когда мы добавляем представление нейронной сети слова «американец» к представлению слова «поп», мы получаем вектор, который очень близок к векторному представлению известной певицы «Леди Гага».”!

вектор

Сходным образом,

Клиентскую виртуализацию можно определить, добавив следующие слова в векторное пространство «клиент» + «виртуализация» + «программное приложение» (векторное представление «клиентской виртуализации» очень близко к сумме векторных представлений (клиент, виртуализация, программное приложение). ) так далее

Как создаются сигнатуры рабочей нагрузки?

  1. Найдите слова, наиболее близкие к рабочей нагрузке, используя модель NN (например, ближайшим словом к «анализу данных» может быть «SAS» или ближайшим словом для «сотрудничества и общения» может быть «Sharepoint»)
  2. Используйте бизнес-знания (эксперт), чтобы предложить ключевые слова

        Преимущество подписи

Если мы хотим определить отрицательное слово, все, что нам нужно сделать, это вычесть это слово из подписи.

Например, чтобы найти японскую поп-исполнительницу, такую ​​как Леди Гага, мы можем выполнить следующую векторную математику.

вектор («Леди Гага») + вектор («Японка») — вектор («Американка») = («Аюми Хамасаки»)

Точно так же предположим, что в рабочей нагрузке программного обеспечения для совместной работы я не хочу включать скайп, тогда я могу определить подпись рабочей нагрузки следующим образом.
подпись(программное обеспечение для совместной работы) = вектор(“Совместная работа”) + вектор(“общаться”) – вектор(“скайп”)

3. Определите входные данные, которые нужно пометить, с помощью алгоритма машинного обучения: возникают следующие два случая.

1. Ввод – текст в свободном формате CRM

а. Пусть j будет количеством общих типов рабочей нагрузки

б. Преобразуйте каждую сигнатуру рабочей нагрузки в векторную сумму или вычитание составляющих ее слов. Назовите это wl[j]

в. Для каждого типа рабочей нагрузки j рассчитайте сходство между wl[j] и векторное представление crm_text (это вычисляется путем вывода ближайшего вектора к тексту). Назовите это сходством[j]

д. Математически сходство[j] = 1 – space.distance.cosine(wl[j]model.infer_vector(crm_text.split(),steps=x,alpha=y))

е. x и y можно изучать итеративно, чтобы получить максимальную точность

ф. Найдите сходство[j] что имеет наибольшую ценность.

грамм. Назначьте значение j-й рабочей нагрузки (рассчитанное в f) в качестве прогнозируемой рабочей нагрузки.

2. Ввод — это название приложения из логов продукта.

а. Пусть j будет количеством общих типов рабочей нагрузки

б. Преобразуйте каждую сигнатуру рабочей нагрузки в векторную сумму или вычитание составляющих ее слов. Назовите это wl[j]

в. Для каждого типа рабочей нагрузки j рассчитайте сходство между wl[j] и векторное представление приложения (это вычисляется путем вывода ближайшего вектора к имени приложения). Назовите это сходством[j]

д. Математически сходство[j] = 1 – space.distance.cosine(wl[j]model.infer_vector(app.split(),steps=x,alpha=y))

е. x и y могут быть изучены итеративно, чтобы получить максимальную точность

ф. Найдите сходство[j] что имеет наибольшую ценность.

грамм. Назначьте значение j-й рабочей нагрузки (рассчитанное в f) в качестве прогнозируемой рабочей нагрузки.

4. Переопределить сигнатуры рабочей нагрузки

READ  Оптимизация локальных целевых страниц для поиска: 8 лучших практик

Очень полезной особенностью метода подписи рабочей нагрузки является то, что точность вывода можно легко повысить, внеся простые изменения в слова подписи.

Например. в будущем, если бизнес не захочет рассматривать «SQL» как вид рабочей нагрузки «Управление данными», мы можем просто вычесть векторное представление «SQL» из определения сигнатуры «управления данными».

Используемое программное обеспечение/инструменты

Мы использовали следующие модули в Python для разработки решения

Генерал – Для создания модели doc2vec

Красивый суп – Для извлечения данных из Википедии и анализа XML-данных.

Результаты/выводы

Метод был разработан и протестирован на 3 отдельных источниках данных — текст решения CRM, журналы сервера и журналы Support Tool. Мы достигли точности > 80 % благодаря периодическому уточнению сигнатур рабочей нагрузки, что со временем привело к дальнейшему улучшению показателей. Мы смогли использовать выходные данные в отношении показателей производительности системы, таких как загрузка ЦП, потребление хранилища/памяти, пропускная способность операций ввода-вывода и т. д., чтобы выработать рекомендации для конкретных потребностей клиентов в рабочих нагрузках, напрямую влияющих на отделы продаж. Результаты были получены через нашу внутреннюю систему поддержки продаж, которая была преобразована в разработку предложений для клиентов на основе рабочей нагрузки.

Резюме/Вывод

Эта методология открыла способ взаимодействия с клиентами, стимулируя продажу инфраструктуры на основе рабочих нагрузок, что очень близко настраивает нас на потребности клиентов. Источники данных постоянно обновляются как новыми данными, так и уточненными входными данными из центров обработки данных, улучшая алгоритм в долгосрочной перспективе. Это также проложило путь к новому подходу к использованию других источников данных, таких как данные о заказах, для классификации рабочих нагрузок с помощью этого алгоритма, выступающего в качестве уровня проверки с оперативными данными из центров обработки данных клиентов.

использованная литература

  1. Документы и журналы по исследованию рынка, описывающие рабочие нагрузки корпоративной инфраструктуры и ключевые определения того, что составляет конкретные классы рабочих нагрузок.
  2. Распределенные представления предложений и документов: Quoc Le, Tomas Mikolov; Материалы 31-й Международной конференции по машинному обучению, PMLR 32(2):1188-1196, 2014 г.
  3. Doc2Vec в gensim: https://radimrehurek.com/gensim/models/doc2vec.html
  4. Встраивание документов с помощью векторов абзацев: Эндрю М. Дай, Кристофер Олах, Куок В. Ле, Семинар по глубокому обучению NIPS (2015 г.)

Сообщение «Метод и методы обучения и классификации рабочих нагрузок на базе корпоративной инфраструктуры на основе нейронных сетей» впервые появилось на .



Source link