Перспективы данных на 2022 год, часть вторая: реальность байтирует сетку данных

Сетки данных уже привлекают внимание поставщиков, что приводит к возобновлению интереса к фабрикам данных.

Наш взгляд на сетку данных получила такой отклик в прошлом году, что мы поняли, что эта тема заслуживает отдельного взгляда в 2022 году.

Согласно Google Trends, «сетка данных» была одной из тем, сломал интернет в 2021 году — даже в большей степени, чем «домик у озера данных». Однако эта тема затрагивает болевой вопрос: мы выбрасываем все виды данных в озерах данных или других хранилищах, затем мы теряем их из виду или неадекватно используем и управляем их.

Большие данные

Как узнать, причастны ли вы к утечке данных (и что делать дальше)
Борьба с предвзятостью в сфере ИИ начинается с данных
Честный прогноз? Как 180 метеорологов предоставляют «достаточно хорошие» данные о погоде
Лечение рака зависит от головокружительных объемов данных. Вот как это сортируется в облаке

Теперь, после пары лет инкубации, мы ожидаем, что сетки данных привлекут первое серьезное внимание.

Сетка данных — это идея, которая, в зависимости от того, с кем вы разговариваете, возникла

Марк Бейер в Гартнере или Жамак Дехгани в Мыслитворкс. Для справки, они оба использовали один и тот же термин, и оба они касаются разъединения, которое возникает, когда вы накапливать огромные объемы данных, а затем пытаться выяснить, кто ими владеет и как к ним следует получить доступ и управляется. Но это все у них есть общее.

Концепция Gartner больше связана с построением структуры метаданных на основе принципов, сходных с физическими ячеистыми сетями. Черпая вдохновение из Закон МеткалфаПо мере того, как количество «узлов» метаданных в сетке данных увеличивается, тем более полно сформированными становятся метаданные (это может быть какая-то форма самообучения ИИ). Поскольку исследования Gartner остались за рамками платного доступа, неудивительно, что концепция, разработанная в Thoughtworks, взяла верх в разговоре. Он основан на самоорганизующихся доменах, основанных на подходах жизненного цикла к рассматривать данные как продукты, взяв на себя ответственность за все, от конвейеров данных до управления и безопасности. При этом команды думают о своих данных более широко, помимо простого построения конвейеров или организации наборов данных.

Сетки данных решают ряд обоснованных проблем, связанных с ограничениями нисходящего управления или владения данными. Но в настоящее время, как концепция, сетки данных еще не полностью конкретизированы, особенно когда речь идет о самообслуживании или федеративном управлении. Общепринятая идея сеток данных заключается в том, что домены с соответствующим опытом в предметной области должны владеть данными и управлять ими от колыбели до могилы. Это восходящий подход к управлению и управлению данными, который теоретически должен улучшить подотчетность. Обратной стороной является то, что при неправильном управлении сетки данных могут усиливать или размножать хранилища данных, что приводит к расточительству, дублированию и непоследовательному управлению и управлению.

Также: Сетка данных: Стоит ли попробовать это дома?

Мы не считаем, что сетка данных достаточно определена для работы в рамках всего предприятия, но мы считаем, что сетки данных могут оказаться эффективными при реализации в более скромном масштабе. В частности, когда они реализуются в командах, которые уже имеют общий контекст, который может привести к на основе истории сотрудничества и/или наличия общих, смежных или перекрывающихся тем экспертиза. На предприятии мы могли бы предвидеть появление групп ячеек данных вокруг конкретных дисциплин, таких как обслуживание клиентов, управление цепочками поставок, разработка продуктов и т. д.

До сих пор объем опубликованных работ по сеткам данных был в целом положительным, и мы ожидаем, что поставщики в области данных «моют» свои продукты в 2022 году. Мы говорим о базах данных, бизнес-аналитике, управлении, ELT/преобразовании данных, каталогизации данных, объединении запросов и управлении жизненным циклом информации. Поставщики будут публиковать маркетинговые сообщения, чтобы показать, как их предложения могут поддержать команды, создающие сетки данных. Да, даже будет виртуальная конференция произойдет раньше, чем вы думаете.

Но имейте в виду, что сетка данных — это процессный и архитектурный подход, который делегирует ответственность за конкретные наборы данных «областям», имеющим необходимый опыт в предметной области. Сетка данных — это не технология. Будем надеяться, что продавцы не станут бросаться в атаку и позиционировать свои предложения как сетка данныхпродукты.

Рекомендуемые

Windows 10 слишком популярна сама по себе?
5 способов найти лучшее место для начала карьеры
Вот как генеративный ИИ изменит гиг-экономику к лучшему
3 причины, почему я предпочитаю этот Android за 300 долларов Google Pixel 6a

Наше ощущение надвигающейся негативной реакции проистекает из многочисленных личных сообщений, которые мы получилиo наша публикация в LinkedIn которые представляют собой тизер того, что было опубликовано здесь. Суть этих сообщений заключалась в том, что сетки данных могут усугубить проблемы с хранилищем данных, которые уже существуют на большинстве предприятий. Мы считаем, что это очень обоснованное беспокойство.

Даже если сетки данных как концепция были полностью продуманы и надежны, признаком того, что к этой идее относятся серьезно, является степень общественного внимания. Таким образом, тот факт, что возникает обратная реакция, на самом деле является отражением того, в какой степени сетки данных попали в реальную болезненную точку.

Но есть и еще один кикер: сетки данных часто противопоставляются фабрикам данных.. Фабрики данных предназначены для облегчения доступа к данным в логических и физических хранилищах, поэтому мы считаем, что противопоставление сеток данных фабрикам данных является ложной дихотомией.

Удерживайте эту мысль.

Проблема заключается в том, что определение структуры данных довольно туманно. Попробуйте это от NetApp: «Фабрика данных по своей сути представляет собой интегрированную архитектуру данных, которая является адаптивной, гибкой и безопасной. Во многих отношениях фабрика данных — это новый стратегический подход к работе вашего корпоративного хранилища, который раскрывает лучшие возможности облака, ядра и периферии». Для наших целей мы просто заявим, что фабрика данных начинается с общей объединительной платы метаданных, поэтому, когда разные команды описывают свои продукты данных, все они говорят с одной ноты.

Вот еще один прогноз, подчеркивающий, что сетки данных и фабрики данных на самом деле обладают синергией: мы ожидаем, что общие метаданные В этом году объединительные платы станут «спящей» проблемой, поскольку это ответ на необходимость осмысления всех данных, особенно по мере их накопления в облако.

Возможно, вам не понадобится сетка данных, чтобы начать создавать фабрику данных. Но если вы подумываете о запуске инициативы по созданию сетки данных, даже не думайте о том, чтобы начать работу без какой-либо структуры данных.

Это вторая часть нашего прогноза данных на 2022 год. Нажмите здесь, чтобы увидеть первую часть, где мы представляем наш взгляд на конвергенцию потоковой передачи в реальном времени, машинное обучение и управление данными.

ЗДНЕТ Рекомендует

5 лучших VPN-сервисов (и советы, как выбрать тот, который подойдет именно вам)

Лучшие генераторы искусств искусственного интеллекта: DALL-E 2 и другие забавные альтернативы, которые стоит попробовать

Лучшие телефоны Android, которые вы можете купить (включая неожиданный выбор)

Лучшие комбинации роботов-пылесосов и швабр (и стоят ли они своих денег)

5 лучших VPN-сервисов (и советы, как выбрать тот, который подойдет именно вам)
Лучшие генераторы искусств искусственного интеллекта: DALL-E 2 и другие забавные альтернативы, которые стоит попробовать
Лучшие телефоны Android, которые вы можете купить (включая неожиданный выбор)
Лучшие комбинации роботов-пылесосов и швабр (и стоят ли они своих денег)