Материалы по тегу: big data

10.06.2024 [22:02], Владимир Мироненко

Не хочешь конкурировать — купи: Databricks приобрела Tabular за $1+ млрд, чтобы унифицировать озёра данных

Американский стартап в сфере аналитики больших данных и машинного обучения Databricks объявил о приобретении компании по управлению данными Tabular. Точная сумма сделки не раскрывается, но глава Databricks Али Годси (Ali Ghodsi) сообщил в интервью CNBC, что стоимость покупки превышает $1 млрд. Соучредители Tabular присоединятся к Databricks, где будут работать над объединением клиентских баз и сообществ Tabular и Databricks.

Компания Tabular была основана ими в 2021 году. Она предлагает продукты для управления данными, созданные на основе Apache Iceberg — проекта, которым создатели Tabular занимались в Netflix и позже передали в дар фонду Apache Software Foundation. Iceberg — открытый формат для таблиц сверхбольших данных. Databricks предлагает объектно-ориентированное озеро данных Lakehouse на базе собственного открытого формата Delta Lake.

 Источник изображения: Tabular

Источник изображения: Tabular

С момента создания Delta Lake в проекте приняли участие более 500 разработчиков. Более 10 тысю компаний по всему миру используют Delta Lake для обработки в среднем более 4 Эбайт данных каждый день. Это быстрорастущий бизнес, но Iceberg-решения не менее популярны и конкурируют с решениями Databricks, отметил ресурс Blocks & Files. При этом о полной совместимости между Iceberg и Delta Lake речи не было.

Но в 2023 году компания также представила UniForm-таблицы, позволяющие работать с Delta Lake, Iceberg и Hudi. А после поглощения Databricks будет тесно сотрудничать с сообществами Delta Lake и Iceberg для разработки совместимых форматов озёр данных. В краткосрочной перспективе это будет реализовано в рамках Delta Lake UniForm, а в долгосрочной перспективе будет создан единый, открытый и общий стандарт.

Постоянный URL: http://servernews.kz/1106232
19.09.2023 [00:13], Владимир Мироненко

NeuroBlade интегрирует SQL-ускорители SPU с Velox

Стартап NeuroBlade, специализирующийся на разработке решений для ускорения анализа данных, объявил о сотрудничестве с сообществом Velox компании Meta Platforms с целью интеграции ускорителя SQL Processing Unit (SPU) в новый унифицированный фреймворк для работы с данными.

Как отметили в NeuroBlade, полная интеграция SPU NeuroBlade в Velox обеспечивает ускорение обработки данных более чем в 10 раз, помимо трёхкратного повышения производительности, уже достигнутого Velox за счет оптимизации ПО. Цель проекта заключается в том, чтобы дать компаниям возможность эффективно обрабатывать огромные наборы данных, говорится в пресс-релизе.

 Источник изображения: NeuroBlade

Источник изображения: NeuroBlade

Элад Сити (Elad Sity), гендиректор и соучредитель NeuroBlade, подчеркнул важность совместных усилий, которые «знаменуют эпоху, когда организации смогут умело управлять растущими объёмами данных, повышать производительность аналитики и получать значительные конкурентные преимущества».

Velox представляет собой унифицированный open source движок, который объединяет различные программные оптимизации в области обработки запросов в единую высокопроизводительную библиотеку, а в будущем и в самостоятельный фреймворк. Velox уже совместим с Presto и Apache Spark. Интеграция SPU NeuroBlade в Velox достигается за счёт новых API Velox, которые позволят произвольно переносить выполнение части запросов на ускоритель.

Как отмечается в пресс-релизе, CPU с трудом справляются с аналитическими запросами, скорость которых превышает 2–3 Гбайт/с, из-за ограничений в обработке данных и сложности запросов. SPU NeuroBlade позволяет решить эту проблему, поскольку предлагает специализированный процессор, который обеспечивает аппаратную обработку сложных запросов и работу с памятью и хранилищем, что позволяет разгрузить CPU и добиться постоянной пропускной способности при обработке больших данных и снизить задержки.

Постоянный URL: http://servernews.kz/1093204
16.09.2023 [21:34], Сергей Карасёв

Стартап Databricks привлёк ещё $500 млн, что повысило капитализацию компании до $43 млрд

Стартап Databricks, разработчик платформы машинного обучения, анализа и обработки данных, сообщил о проведении раунда финансирования Series I: на развитие привлечено дополнительно $500 млн. Таким образом, на сегодняшний день общий объём инвестиций в эту компанию превысил $4 млрд.

Databricks предоставляет озеро данных, которое предприятия могут использовать для хранения, организации и анализа больших объемов информации. Стартап также помогает заказчикам в развёртывании собственных приложений на базе генеративного ИИ. Компания основана в 2013 году создателями Apache Spark.

 Источник изображения: Gabby Jones / Bloomberg

Источник изображения: Gabby Jones / Bloomberg

Отмечается, что Databricks быстро наращивает выручку: по итогам II четверти текущего финансового года, которая была закрыта 31 июля, показатель преодолел знаковый рубеж в $1,5 млрд — это более чем на 50 % превосходит прошлогодний результат. В глобальном масштабе решения Databricks применяют свыше 10 тыс. организаций, включая более половину компаний из списка Fortune 500.

Раунд финансирования Series I проведён под руководством T. Rowe Price Associates. В программе также приняли участие Andreessen Horowitz, Baillie Gifford, ClearBridge Investments, Counterpoint Global (Morgan Stanley), Fidelity Management & Research Company, Franklin Templeton, GIC, Octahedron Capital, Tiger Global, Capital One Ventures, Ontario Teachers' Pension Plan и NVIDIA.

Прошлый раунд финансирования Databricks был завершён в 2021 году: тогда стартап получил $1,6 млрд, а его рыночная стоимость достигла $38 млрд. Теперь же капитализация оценивается в $43 млрд при стоимости акций на уровне $73,5.

Постоянный URL: http://servernews.kz/1093138
24.03.2023 [23:08], Андрей Крупин

R-Style Softlab представила импортозамещённую платформу для работы с данными

Входящая в группу «Россельхозбанка» компания R-Style Softlab сообщила о выпуске на российский рынок нового продукта R-Style Intelligent System (RSIS), предназначенного для работы с данными и организации долгосрочного их хранения средствами СУБД ArenaDataDB, GreenPlum, PostgreSQL.

RSIS позволяет собирать и аккумулировать данные из различных источников, обрабатывать их и визуализировать полученные результаты, что способствует принятию эффективных управленческих решений. В основу платформы положена датацентричная реализация с применением методологии Data Vault («Свод данных»). По заверениям разработчика, такой подход обеспечивает высокую скорость загрузки и обработки данных.

 Источник изображения: our-team / freepik.com

Источник изображения: our-team / freepik.com

В числе прочих особенностей R-Style Intelligent System называются совместимость программного комплекса с отечественными решениями класса Business Intelligence (BI), поддержка потоковой и пакетной загрузки данных, в том числе механизмов взаимодействия с пакетом Apache Hadoop, возможность интеграции с партнёрскими решениями на базе искусственного интеллекта. Для обеспечения актуальности и качества данных возможно применение методологии Data Governance.

«Мы придерживаемся комплексного подхода к автоматизации работы с данными. Наш продукт совместим с отечественными BI-инструментами. Благодаря применению готовых решений партнёров, система может дополняться функциями для управления потоками данных, обеспечения мобильности, построения моделей данных, применения AI-технологий и т. д. По требованию заказчика мы можем также предоставить оборудование и системное ПО», — отмечает компания-разработчик платформы RSIS.

Постоянный URL: http://servernews.kz/1084004
20.03.2023 [15:22], Андрей Крупин

«Яндекс» открыл исходный код платформы для работы с большими данными YTsaurus

Команда разработчиков «Яндекса» опубликовала исходный код масштабируемой платформы распределённого хранения и обработки больших данных YTsaurus.

YTsaurus разрабатывается компанией с 2010 года и является одним из ключевых элементов внутренней IT-инфраструктуры «Яндекса». В основу платформы положен набор связных подсистем: MapReduce, движок SQL-запросов, планировщик, KV-хранилище данных для OLTP. YTsaurus поддерживает работу с десятками тысяч серверов, обработку эксабайтов данных на разных носителях, а также интеграцию с ClickHouse и Apache Spark. Благодаря широкой функциональности платформа может быть использована для широкого круга задач — от аналитики и построения хранилищ данных до обучения сложных ИИ-моделей с миллиардами параметров.

 Сценарии использования YTsaurus

Сценарии использования YTsaurus

«Платформа YTsaurus отлично зарекомендовала себя в «Яндексе». Теперь мы сделали её доступной и за его пределами. Наибольшую пользу YTsaurus может принести крупным компаниям, которые обрабатывают гигантские объёмы данных на тысячах серверов в условиях постоянно возрастающей нагрузки. Мы уверены, что публикация кода выведет платформу на новый виток развития, как это уже было с другими нашими продуктами», — отмечает «Яндекс».

Исходный код и документация YTsaurus доступны на площадке GitHub. Код распространяется под лицензией Apache 2.0. Использовать платформу или доработать её под себя может любой желающий.

Постоянный URL: http://servernews.kz/1083690
20.02.2023 [22:31], Андрей Крупин

«Диасофт» расширила возможности системы управления данными Digital Q.DataFlows

Компания «Диасофт» сообщила о расширении функциональных возможностей технологической платформы Digital Q.DataFlows, предназначенной для управления данными в корпоративной среде.

Программный комплекс Digital Q.DataFlows состоит их трёх компонентов Data Catalog, Data Streamer и Data Quality, обеспечивающих решение разнообразных задач аналитической обработки информации. Платформа формирует полное представление о том, какими данными располагает организация, и как они взаимосвязаны, позволяет создавать и выполнять процессы преобразования и транспортировки данных между IT-системами, а также обеспечивает мониторинг метрик качества данных, их актуализацию и встраивание инструментов контроля в процессы обработки данных. Поддерживается взаимодействие с различными источниками и массивами данных.

 Источник изображения: diasoft.ru

Источник изображения: diasoft.ru

Ключевым нововведением Digital Q.DataFlows стал инструмент Data Lineage для отслеживания происхождения данных и их потоков — маршрутов, по которым информация перемещается между внешними сущностями, процессами и хранилищами данных. С его помощью аналитики и специалисты по Big Data могут определять источники и местонахождение данных, взаимосвязи между ними и их потоками, отслеживать изменения, которые происходят в процессе трансформации данных, выявлять ошибки и причины их возникновения, а также определять ответственных за работу с той или иной информацией.

Решение Digital Q.DataFlows создано на базе микросервисной архитектуры и встраивается в IT-ландшафт любой организации.

Постоянный URL: http://servernews.kz/1082266
18.10.2022 [16:45], Сергей Карасёв

Selectel и ITSumma запускают Платформу обработки данных

Selectel, ведущий провайдер IT-инфраструктуры, объявил о запуске Платформы обработки данных, которая работает на его мощностях и предназначена для обработки больших объемов данных. Платформа построена на базе продукта ITS Data Processing Platform (ITS DPP) от компании ITSumma, партнёра Selectel, и использует в работе набор современных open-source решений для обработки, хранения и анализа данных (Apache Hadoop, Spark, Airflow, Superset, Kafka, а также Greenplum и ClickHouse).

Платформа обработки данных позволит клиентам Selectel перейти на инфраструктуру провайдера и сфокусироваться на решении аналитических задач, больше не задумываясь о производительности и поддержке собственного IT-оборудования. Решение обеспечивает возможность сбора данных из различных источников, обработки потоков данных для дальнейшего анализа, а также хранения структурированной и неструктурированной информации на базе озера данных или корпоративного хранилища данных. Оно может быть задействовано как для создания платформы данных с нуля, так и для миграции клиентских данных на вычислительные мощности Selectel.

 Источник изображения: Selectel

Источник изображения: Selectel

Платформу легко развернуть на выделенных серверах фиксированных или произвольных конфигураций. Доступ к ней предоставляется по подписке. Кроме того, в рамках пакета услуг Selectel занимается обслуживанием и поддержкой платформы на инфраструктурном уровне, а ITSumma обеспечивает DataOps- и/или MLOps-сопровождение.

«При запуске нового решения мы ориентировались на рост заинтересованности компаний в анализе и обработке данных, а также учитывали дефицит квалифицированных специалистов в области data engineering на рынке труда, — говорит Александр Тугов, директор по развитию услуг Selectel — Новый продукт позволит нашим клиентам извлекать пользу из своих данных и не тратить ресурсы на настройку инфраструктуры или поиск дополнительных кадров для администрирования собственной платформы. Всеми вопросами по мониторингу, обслуживанию и поддержке займутся эксперты Selectel и ITSumma».

«Мы фиксируем рост потребности в отечественных решениях для обработки и анализа данных на фоне ухода с российского рынка зарубежных поставщиков. ITS DPP способна в значительной степени импортозаместить зарубежные продукты. А объединив усилия с Selectel, мы можем предложить российскому бизнесу продукт по-настоящему уникальный, ведь он не только снимает с предприятий необходимость покупать и содержать собственный серверный парк для инфраструктуры обработки данных, но и даёт гарантию доступности сервиса в 99,9 % согласно SLA. Всё это в конечном итоге приводит к тому, что в текущих условиях бизнес может полностью сосредоточиться на продукте и его развитии, не затрачивая временные и прочие ресурсы на рутинные задачи, связанные с созданием и поддержкой собственной дата-инфраструктуры», — подчёркивает Антон Баранов директор по развитию бизнеса ITSumma.

Постоянный URL: http://servernews.kz/1075927
05.10.2022 [21:57], Татьяна Золотова

«Ростелеком» и Axenix разработают решения для управления корпоративными данными

Axenix (ранее Accenture) и «Ростелеком» намерены разрабатывать решения в области аналитики и управления большими данными. Запуск первых совместных ИТ-проектов запланирован на конец 2022 года.

Все ИТ-продукты для бизнеса будут разрабатываться на отечественной программной базе и собственном data-продукте «Ростелекома» — «Платформе управления данными». Технологии компании для работы с Big Data включают набор решений для потоковой и пакетной обработки данных, прикладные аналитические продукты и сервисы для бизнеса, системы для хранения и аналитики данных. Также в линейку входит ПО для управления данными RT Data Governance.

Axenix специализируется на внедрении комплексных аналитических решений, построении озер и хранилищ данных. Глобальная компания Accenture заявила об уходе из нашей страны в начале марта 2022 года. После этого, в апреле, российская практика Accenture была передана в собственность руководству локального подразделения.

В сентябре 2022 года Axenix представила первый собственный продукт In.Plan. В октябре создала Центр экспертизы по развитию платформы In.Plan, присоединив команду, ранее работавшую над проектами по управлению цепями поставок в SAP.

Постоянный URL: http://servernews.kz/1075334
29.09.2022 [19:28], Татьяна Золотова

Большие данные придут в российскую энергетику — это поможет с учетом и прогнозированием

Ассоциация «Цифровая энергетика» (АЦЭ) и Ассоциация больших данных совместно доработают стратегию развития рынка больших данных в сфере электроэнергетики и промышленности. Об этом организации договорились в рамках пятилетнего соглашения о сотрудничестве.

Ассоциации будут продвигать и развивать технологии больших данных (БД) в таких областях, как коммерческий учет электроэнергии и прогнозирование ее потребления, включая новых крупных потребителей (например, станции зарядки электромобилей). Также в области управления персоналом отраслевых предприятий, в частности за контролем использования средств индивидуальной защиты.

Как отметил исполнительный директор АЦЭ, заместитель генерального директора по стратегии АО «Русатом Инфраструктурные решения» (РИР) Антон Зубков, участники рынка электроэнергетики сейчас сталкиваются с рядом вызовов – от высокой стоимости инфраструктуры БД и отсутствия базовой автоматизации до импортозамещения и связанных с ним требований информационной безопасности.

АЦЭ представила стратегию развития рынка Big Data на пять лет в конце 2019 года. К 2022 году ассоциация планировала объединить все активности в рамках стратегии в три программы: повышение доступности данных; развитие рынка Big Data (R&D); масштабирование рынка больших данных. Также в проекте было предусмотрено создание песочниц, к которым будет доступ у регуляторов и у крупного бизнеса.

Членами Ассоциации больших данных являются компании «Вконтакте», «Яндекс», «Газпромбанк», «Сбер», «Тинькофф», «Мегафон», «Ростелеком», «Билайн», Onefactor, QIWI, Аналитический центр при правительстве РФ, МТС, ВТБ, Фонд «Сколково», «Россельхозбанк».

Постоянный URL: http://servernews.kz/1075028
13.09.2022 [17:17], Сергей Карасёв

Исследование Arenadata и VK Cloud показало, что решения Big Data используют более 60 % российских компаний

Облачная платформа VK Cloud и компания Arenadata обнародовали результаты исследования, в ходе которого изучался российский рынок решений для работы с большими данными (Big Data).

В опросе приняли участие 150 IT-руководителей компаний из различных отраслей: FMCG (товары повседневного спроса), розничной торговли и электронной коммерции, банковских и страховых организаций, машиностроения, топливно-энергетического комплекса, медицинской и фармацевтической сферы.

Выяснилось, что 62 % российских компаний (из числа респондентов) используют системы для работы с большими данными, при этом 28 % из них начали внедрять такие решения в течение последних двух лет.

 Источник изображений: VK Cloud

Источник изображений: VK Cloud

Ещё 38 % опрошенных сообщили, что их компании пока не используют продукты Big Data в силу различных причин: нехватка специалистов с нужным уровнем компетенций (22 %), разрозненность ИТ-инфраструктуры (12 %), проблема каталогизации информации (21 %), несформированная культура работы с данными и др. При этом 67 % компаний решают проблему дефицита кадров привлечением внешней экспертизы.

Почти две трети компаний (65 %) сохранят бюджет на дата-проекты на прежнем уровне, несмотря на экономические вызовы и другие сложности. Каждый четвёртый бизнес увеличит затраты на это направление в 2022 году, преимущественно это актуально для предприятий финсектора, розничной торговли, FMCG и топливно-энергетического комплекса.

Отмечается, что для работы с большими данными 46 % компаний используют облачные решения, ещё 29 % планируют начать работать с ними в ближайшее время. Одно из наиболее востребованных направлений облачных сервисов — инструменты для бизнес-аналитики, которые применяют 47 % компаний-респондентов. По оценкам Ассоциации больших данных, к 2024 году российский рынок Big Data вырастет до 300 млрд руб. с примерно 30 млрд руб. в 2022 году.

«Российский рынок решений в области больших данных уже достаточно зрелый. Сформированный технологический стек и накопленная экспертиза снижают порог входа для компаний в работу с ИТ-решениями. В условиях новых вызовов компании продолжат активно использовать облачные сервисы для работы с массивами данных, чтобы обеспечить гибкое масштабирование инфраструктуры, быстрее тестировать гипотезы и выводить цифровые продукты на рынок. Это, в свою очередь, поможет формировать новые ценности для бизнеса», — говорится в исследовании.

Постоянный URL: http://servernews.kz/1074101

Входит в перечень общественных объединений и религиозных организаций, в отношении которых судом принято вступившее в законную силу решение о ликвидации или запрете деятельности по основаниям, предусмотренным Федеральным законом от 25.07.2002 № 114-ФЗ «О противодействии экстремистской деятельности»;

Система Orphus