Является ли Apache Iceberg будущим рабочей нагрузки облачных данных?

Является ли Apache Iceberg будущим рабочей нагрузки облачных данных?



облако

Почему Apache Iceberg будет управлять облачными данными и оптимален для рабочих нагрузок облачных данных?

Облачные данные позволили специалистам по обработке данных собирать огромные объемы больших данных и хранить их по разумной цене, открывая двери для новых вариантов использования аналитики, использующих озера данных, сетку данных и другие современные архитектуры. Но для очень больших объемов наборов данных универсальное облачное хранилище также сопряжено с проблемами и ограничениями. В этом сценарии возникает важность использования Apache Iceberg.

Облачным данным стало сложно получать доступ к большим данным, управлять ими и использовать их. Именно здесь применение табличных форматов к данным становится чрезвычайно полезным. Определение используемого формата таблицы является важным решением, поскольку оно может включать или ограничивать доступные функции. За последние два года мы наблюдаем значительную поддержку Apache Iceberg, формата таблиц, изначально разработанного Netflix. Iceberg был создан с нуля для решения некоторых проблем в Apache Hive при работе с очень большими наборами данных, включая проблемы, связанные с масштабированием, удобством использования и производительностью. Как записал в то время инженер Netflix, форматы таблиц для очень больших наборов данных должны работать так же достоверно и предсказуемо, как SQL, «без каких-либо неприятных сюрпризов».

Имея несколько доступных опций, мы считаем, что Apache Iceberg превосходит другие доступные форматы открытых таблиц. Вот пять причин почему.

Apache Iceberg делает полный разрыв с прошлым. Iceberg был создан с нуля для устранения недостатков Apache Hive, что означает, что он избегает некоторых нежелательных качеств, которые сдерживали озера наборов данных в прошлом. Хорошим примером является то, как можно обрабатывать изменения схемы, например переименование столбца.

Apache Iceberg не зависит от механизма обработки и формата файла. Благодаря отделению механизма обработки от формата таблицы Iceberg обеспечивает большую гибкость и выбор. Вместо того, чтобы применять один механизм обработки, инженеры могут выбрать лучший инструмент для работы.

READ  Может ли бывший президент Тайваня помочь избежать войны с Китаем? • Interpult Studio. Создание и построение seo ссылок

Iceberg — хорошо управляемый проект с открытым исходным кодом. Apache Iceberg делает управление проектом общедоступным, поэтому вы знаете, кто управляет проектом. Другие форматы таблиц не раскрывают, кто имеет право принимать решения. Табличный формат является элементарным выбором в архитектуре данных, поэтому выбор действительно открытого и совместного проекта может значительно снизить риск случайной блокировки.

Сотрудничество в Iceberg порождает новые идеи и помощь. Есть многочисленные признаки того, что совместное сообщество вокруг Apache Iceberg помогает пользователям и настраивает проект на долгосрочный успех. Iceberg включает в себя функции, которые оплачиваются в других форматах таблиц. В отличие от некоторых других настольных проектов, в Iceberg с самого начала встроены функции, ориентированные на производительность, что полезно для пользователей во многих отношениях. В сообществе Apache Iceberg есть несколько отличных ресурсов, где можно узнать больше о проекте и принять участие в работе над открытым исходным кодом.

Сообщение Является ли Apache Iceberg будущим рабочей нагрузки облачных данных? впервые появился в Analytics Insight.



Source link