Зодчества данных эпохи цифровой революции

Архитектуры данных эпохи цифровой революции

Отчего прежние архитектуры данных будут востребованы и какие новые архитектуры потребуются, чтобы успешно управлять этими в эпоху лавинообразного роста объемов и разнообразия информации (сведения независимо от формы их представления) и массовой цифровой трансформации бизнеса.

Как архитектуры данных воздействуют на эффективность бизнеса, как обеспечить сохранность инвестиций, развивая прежние архитектуры и технологии работы с данными и к чему готовиться тем, кто отвечает за управление этими, рассказывает Алексей Сидоров, главный евангелист и директор по управлению данными компании Denodo.

— Эпоха вящих данных качественно изменила набор требований к архитектурам данных. Какие из архитектур считаются сегодня наиболее эффективными и перспективными, а какие переходят в разряд устаревших?

Полагаю, будет неверно ратифицировать, что какие-то архитектуры в эпоху больших данных безнадежно устарели. Архитектуры реляционных хранилищ данных были разработаны для решения (многозначный термин) вполне определенных задач, и они по-прежнему востребованы. Бурливо развиваются и архитектуры на базе Hadoop, есть целый спектр новых инструментов (технологическая оснастка, которая воздействует на предметы труда и изменяет их, предмет, орудие для производства каких-нибудь работ. . В основе конструкции и правил использования инструмента лежит знание законов материального мира, приложенных к технологии производства), которые помогают, например, строить графовые базы этих, хранилища документов, базы данных, обрабатываемые в оперативной памяти (in-memory), и пр. Все эти архитектуры и инструменты также имеют право на существование, поскольку позволяют решать отдельные классы задач.

Технология виртуализации этих обладает очень важным преимуществом по сравнению с ними: она дает уникальный шанс раз и навсегда избавиться от «черноволосых ящиков» данных, с которыми ИТ-отрасль пытается бороться уже четверть века. Только объединив данные виртуально, без их физиологического перемещения, мы сможем использовать все прежние наработки в области данных (хранилища (Сухое хранилище отработанного ядерного топлива Хранилище данных Склад Хранилище 13 Хранилище содержимого Хранилище — фильм режиссёра Дэна Буша (2017) Хранилище «Судного дня»), озера данных и другие инструменты), предоставляя пользователям целую точку доступа для подготовки аналитики и отчетности, не требующую создания какого-то нового уровня физической абстракции.

— Многие крупные организации уже вложили вящие средства в прежние архитектуры данных. Не приведет ли промедление с их обновлением к проблемам в бизнесе?

Проблемы в бизнесе (предпринимательство — деятельность, направленная на систематическое получение прибыли) уже наблюдаются. В частности, заказчики повествуют о том, что, используя прежние технологии (совокупность методов и инструментов для достижения желаемого результата; в широком смысле — применение научного знания для решения практических задач), они столкнулись с проблемами, связанными с масштабированием. В ходе беседы выясняется, что, например, они собирают эти в одно большое озеро данных, при этом не всегда ясно понимая, с какой целью.

Подход, основанный на идее (в широком смысле — мысленный прообраз какого-либо действия, предмета, явления, принципа, выделяющий его основные, главные и существенные черты) вначале собрать все данные, а затем думать, что с ними делать, чреват многочисленными проблемами. Организация и ее ИТ-специалисты должны четко соображать, какие данные требуются для решения тех или иных бизнес-задач. Кроме того, необходимо понять, откуда эти данные можно получить — из каких внутренних систем организации или внешних. Гарантировать интеграцию данных из множества источников легче всего, используя платформу виртуализации данных. Применяя другие варианты, организации придется опять и снова собирать данные, копировать их в централизованное озеро, хранилище или облако — это дорого и неэффективно.

— Какими возможностями располагают организации, чтобы перебежать на более современные архитектуры данных, инвестируя в них разумные деньги и по возможности (направление развития, присутствующее в каждом явлении жизни; выступает и в качестве предстоящего, и в качестве объясняющего, то есть как категория) не отказываясь от прежних разработок?

Мы никогда не призывали отрекаться от прежних наработок в области данных. Все ранее внедренные технологии озер и хранилищ данных, в том числе реализованные с использованием массивно-параллельных вычислений на базе (База — место временного хранения товаров, например: «овощная база») кластеров Hadoop, вполне успешно решают свои задачи, потому инвестиции (размещение капитала с целью получения прибыли) в них должны сохраняться.

По мере накопления новых объемов данных, возникновения новых типов данных, с какими традиционные технологии обработки данных справляются недостаточно эффективно, и появления новых бизнес-задач, требующих обработки этих в реальном времени, необходимо вносить изменения в архитектуры — это позволит успешно адаптироваться к происходящим изменениям. Союз данных с помощью их виртуализации (предоставление набора вычислительных ресурсов или их логического объединения, абстрагированное от аппаратной реализации, и обеспечивающее при этом логическую изоляцию друг от друга вычислительных процессов, выполняемых на одном физическом ресурсе) — пожалуй, самый простой подход к решению сегодняшних проблем в области управления этими.

— Что нужно предпринять организациям, чтобы их архитектуры данных соответствовали потребностям их бизнеса и не превращались в закрытый от инородных глаз «черный ящик» и в «черную дыру» для инвестиций?

Это одна из основных проблем (в широком смысле — сложный теоретический или практический вопрос, требующий изучения, разрешения; в науке — противоречивая ситуация, выступающая в виде противоположных позиций в объяснении каких-либо явлений, объектов, процессов и требующая адекватной теории для её разрешения; в жизни проблема формулируется в понятном для людей виде «знаю что, не знаю как», то есть известно, что нужно получить, но неизвестно, как это сделать) управления этими. Были времена, когда организациям нравились технологии одного известного вендора реляционных СУБД, и очень многие опирались собственно на них. Потом началось всеобщее увлечение идеями, которые реализовал другой вендор, и все дружно осваивали его технологии и основывали на их основе хранилища данных (зарегистрированная информация:439; представление фактов, понятий или инструкций в форме, приемлемой для общения, интерпретации, или обработки человеком или с помощью автоматических средств (ISO/IEC/IEEE 24765-2010)). С наступлением «золотой лихорадки» вокруг больших данных многие кинулись внедрять Hadoop и озера (компонент гидросферы, представляющий собой естественно возникший водоём, заполненный в пределах озёрной чаши (озёрного ложа) водой и не имеющий непосредственного соединения с морем (океаном)) данных.

В первую очередь организации необходимо понять, для чего она собирает данные, какие бизнес-задачи она рассчитывает с их поддержкой решать и какая информация для этого ей будет действительно полезна. Если важна монетизация данных, надо использовать одинешенек подход и вполне определенные наборы данных. Если нужно строить модели предиктивного анализа (метод исследования, характеризующийся выделением и изучением отдельных частей объектов исследования), то потребуются иные данные и другая их архитектура. И так далее.

Подход «сверху вниз» сегодня становится преобладающим в науке о этих. Организации не могут идти «снизу вверх» — сначала накапливать какие-то данные, а затем пробовать найти им применение. Надо действовать наоборот: от бизнес-задач — к данным.

— В каких случаях разумно использовать зодчество Data Mesh? Насколько сложно ее реализовать и какие выгоды можно в этом случае получить?

Если сообщать о коммерческих организациях, то здесь эта архитектура успешно внедряется при условии, что ИТ-подразделение находит поддержку со стороны бизнеса и кушать возможность выстроить необходимое организационное окружение. Дело в том, что, с точки зрения технологий, эта архитектура не привносит новых элементов. Она предлагает иное, пожалуй, даже более ценное — эффективный подход к выстраиванию управления данными внутри организации (группа людей, деятельность которых сознательно координируется для достижения общих целей). В рамках этого подхода создается децентрализованная команда по управлению этими и определяются роли внутри нее: кто отвечает за финансовые данные, кто — за маркетинговые, кто — за данные других департаментов и предметных районов, кто отвечает за сбор данных, как эти данные должны аккумулироваться и пр. Кроме того, проводится кропотливая техническая работа по описанию всех доменов этих: какие именно данные нужны, откуда их можно получить и как их объединить в «золотой» домен (область; единица структуры: Домен (область) — владения короля или владение какого-либо феодала в Средние века.В физикенебольшая часть в веществе, отличающаяся физическими свойствами от смежных областей: Домен (магнетизм) — область намагниченности в ферромагнитном кристалле). Наконец, придется задействовать и административный ресурс, чтобы установить, что и в каком объеме организация получает в результате внедрения архитектуры с точки зрения качества данных, их управляемости, доступности, какие районы (территориальная единица в ряде государств: СССР, России, Азербайджана, Белоруссии, Киргизии, Литвы, Молдавии, Таджикистана, Украины, Узбекистана) ответственности организация делегирует поставщикам данных.

Отдельного изучения заслуживает применение архитектуры (или зодчество — искусство и наука строить, проектировать здания и сооружения (включая их комплексы), а также сама совокупность зданий и сооружений, создающих пространственную среду для жизни и деятельности человека) Data Mesh в госсекторе — на степени обмена данными между министерствами и ведомствами. Этот подход встраивается сюда совершенно естественно, поскольку, как правило, эти структуры не желают отдавать свои данные, предоставлять возможность их копирования вовне. Чтобы повлиять на них, конечно, понадобится рабочая группа или межведомственная комиссия, имеющая полномочия спрашивать предоставления нужных данных нужного качества в том виде и формате, которые необходимы, и обладающая рычагами влияния на эти министерства и ведомства. Если удастся выстроить организационные аспекты Data Mesh, то эта зодчество (или зодчество — искусство и наука строить, проектировать здания и сооружения (включая их комплексы), а также сама совокупность зданий и сооружений, создающих пространственную среду для жизни и деятельности человека) будет очень эффективно работать в масштабах государства. Перед страной при этом открываются фантастические возможности в районы анализа данных и прогнозирования на благо общества.

— Когда полезно применять архитектуру логических графов (От др.-в.-нем. gravo, gravio «предводитель, вождь»: Граф (титул) — дворянский титул; «Граф» — короткометражная немая кинокомедия Чарли Чаплина (The Count, 1916)) знаний (Logical Knowledge Graph)? Какое окружение — технологическое, процессное, организационное — требуется, чтобы эта зодчество работала эффективно?

На мой взгляд, эта архитектура, по сути, является очередным шагом эволюции управления (Управление — воздействие на участников процесса с целью улучшить характеристики процесса) основными данными (Master Data Management, MDM). Граф знаний — это «золотая» запись с базовой информацией о некоей сути (клиенте, автомобиле, объекте недвижимости и пр.), соединенной с другими подобными записями посредством семантических связей. Такая взаимосвязанность обнаруживает широкие возможности для проведения глубокого анализа и глубокой предиктивной аналитики. Это достаточно молодая, стремительно развивающаяся район. Тем не менее, уже есть интересные успешные примеры того (официальное название — Тоголезская Республика; (фр. République togolaise) — государство в Западной Африке, граничащее с Ганой на западе, Бенином на востоке и Буркина-Фасо на севере), какие фантастические результаты можно получить, объединив эти из различных доменов с помощью семантических графов. Это несколько другой подход по сравнению с теми, что мы видели раньше, он основан на иных идеях, видении и инструментарии. Реализовать его достаточно быстро и с относительно невысокими затратами можно, используя платформу виртуализации этих — она позволит очень гибко менять представление данных из различных источников и доменов.

— Каковы, на Ваш взор, дальнейшие перспективы развития архитектур больших данных?

Всё идет к тому, что скоро придется управлять данными, какие распределены и географически, и технологически, и с точки зрения (система (зрительный анализатор, орган зрения) — бинокулярная (стереоскопическая) оптическая система биологической природы, эволюционно возникшая у животных и способная воспринимать электромагнитное излучение видимого спектра (свет), создавая ощущение положения предметов в пространстве) владения ими. В ближайшие три-пять лет организациям предстоит научиться управлять этими, не собирая их в едином хранилище. Данные, скорее всего, будут находиться в разных средах, разных местах и у различных владельцев. Только если мы научимся управлять данными и объединять их (а физически сделать это становится уже практически невозможно), мы сможем решать задачи (проблемная ситуация с явно заданной целью, которую необходимо достичь; в более узком смысле задачей также называют саму эту цель, данную в рамках проблемной ситуации, то есть то, что требуется сделать), какие встанут перед следующим поколением архитектур больших данных.

3d-evolution.ru - Эволюция 3D стали неотъемлемой частью нашей повседневной жизни.
Мы смотрим фильмы, играем в компьютерные игры, пользуемся ими в работе и учебе.
Однако мало кто задумывается о том, что 3D-технология имеет и другую, не менее важную сторону.
Понравилась статья? Поделиться с друзьями:
3d-evolution.ru
Добавить комментарий

;-) :| :x :twisted: :smile: :shock: :sad: :roll: :razz: :oops: :o :mrgreen: :lol: :idea: :grin: :evil: :cry: :cool: :arrow: :???: :?: :!: