Материалы по тегу: big data

03.02.2025 [15:06], Сергей Карасёв

Разработчик гипермасштабируемых аналитических хранилищ Ocient выбрал чипы AMD EPYC Genoa

Компания Ocient, специализирующаяся на разработке гипермасштабируемых аналитических хранилищ данных, объявила о заключении соглашения о сотрудничестве с AMD с целью повышения производительности, снижения затрат и максимизации эффективности ресурсоёмких вычислений и рабочих нагрузок ИИ.

Ocient была основана в 2016 году. Компания предлагает платформу на основе реляционной базы данных с массовым параллелизмом, которая способна анализировать огромные объёмы информации (триллионы строк) за секунды или минуты.

Хранилище Ocient Hyperscale Data Warehouse (OHDW) использует архитектуру Compute Adjacent Storage Architecture (CASA) для устранения узких мест в сетевой инфраструктуре и обеспечения максимально быстрого доступа к данным. Функция Zero Copy Reliability отвечает за высокую надёжность хранения информации без репликации с помощью кодирования с контролем чётности.

 Источник изображения: Ocient

Источник изображения: Ocient

Генеральный директор Ocient Крис Гладвин (Chris Gladwin) отмечает, что задачи ИИ и аналитики больших данных создают огромную вычислительную нагрузку на ЦОД по всему миру. Это означает, что повышение эффективности оборудования и программного обеспечения имеет решающее значение для снижения расходов, уменьшения энергопотребления и улучшения производительности. В этой связи Ocient сделала выбор в пользу процессоров AMD EPYC 9654 поколения Genoa с 96 вычислительными ядрами, которые придут на смену 28-ядерным чипам Intel Xeon Gold 6348 семейства Ice Lake-SP.

Говорится, что благодаря более высокой плотности ядер изделия AMD обеспечат трёхкратный рост производительности для ресурсоёмких вычислительных задач. При этом снизятся эксплуатационные расходы, что обусловлено повышением быстродействия и энергоэффективности. Плюс к этому достигается гибкость масштабирования.

Постоянный URL: http://servernews.kz/1117641
10.06.2024 [22:02], Владимир Мироненко

Не хочешь конкурировать — купи: Databricks приобрела Tabular за $1+ млрд, чтобы унифицировать озёра данных

Американский стартап в сфере аналитики больших данных и машинного обучения Databricks объявил о приобретении компании по управлению данными Tabular. Точная сумма сделки не раскрывается, но глава Databricks Али Годси (Ali Ghodsi) сообщил в интервью CNBC, что стоимость покупки превышает $1 млрд. Соучредители Tabular присоединятся к Databricks, где будут работать над объединением клиентских баз и сообществ Tabular и Databricks.

Компания Tabular была основана ими в 2021 году. Она предлагает продукты для управления данными, созданные на основе Apache Iceberg — проекта, которым создатели Tabular занимались в Netflix и позже передали в дар фонду Apache Software Foundation. Iceberg — открытый формат для таблиц сверхбольших данных. Databricks предлагает объектно-ориентированное озеро данных Lakehouse на базе собственного открытого формата Delta Lake.

 Источник изображения: Tabular

Источник изображения: Tabular

С момента создания Delta Lake в проекте приняли участие более 500 разработчиков. Более 10 тысю компаний по всему миру используют Delta Lake для обработки в среднем более 4 Эбайт данных каждый день. Это быстрорастущий бизнес, но Iceberg-решения не менее популярны и конкурируют с решениями Databricks, отметил ресурс Blocks & Files. При этом о полной совместимости между Iceberg и Delta Lake речи не было.

Но в 2023 году компания также представила UniForm-таблицы, позволяющие работать с Delta Lake, Iceberg и Hudi. А после поглощения Databricks будет тесно сотрудничать с сообществами Delta Lake и Iceberg для разработки совместимых форматов озёр данных. В краткосрочной перспективе это будет реализовано в рамках Delta Lake UniForm, а в долгосрочной перспективе будет создан единый, открытый и общий стандарт.

Постоянный URL: http://servernews.kz/1106232
19.09.2023 [00:13], Владимир Мироненко

NeuroBlade интегрирует SQL-ускорители SPU с Velox

Стартап NeuroBlade, специализирующийся на разработке решений для ускорения анализа данных, объявил о сотрудничестве с сообществом Velox компании Meta Platforms с целью интеграции ускорителя SQL Processing Unit (SPU) в новый унифицированный фреймворк для работы с данными.

Как отметили в NeuroBlade, полная интеграция SPU NeuroBlade в Velox обеспечивает ускорение обработки данных более чем в 10 раз, помимо трёхкратного повышения производительности, уже достигнутого Velox за счет оптимизации ПО. Цель проекта заключается в том, чтобы дать компаниям возможность эффективно обрабатывать огромные наборы данных, говорится в пресс-релизе.

 Источник изображения: NeuroBlade

Источник изображения: NeuroBlade

Элад Сити (Elad Sity), гендиректор и соучредитель NeuroBlade, подчеркнул важность совместных усилий, которые «знаменуют эпоху, когда организации смогут умело управлять растущими объёмами данных, повышать производительность аналитики и получать значительные конкурентные преимущества».

Velox представляет собой унифицированный open source движок, который объединяет различные программные оптимизации в области обработки запросов в единую высокопроизводительную библиотеку, а в будущем и в самостоятельный фреймворк. Velox уже совместим с Presto и Apache Spark. Интеграция SPU NeuroBlade в Velox достигается за счёт новых API Velox, которые позволят произвольно переносить выполнение части запросов на ускоритель.

Как отмечается в пресс-релизе, CPU с трудом справляются с аналитическими запросами, скорость которых превышает 2–3 Гбайт/с, из-за ограничений в обработке данных и сложности запросов. SPU NeuroBlade позволяет решить эту проблему, поскольку предлагает специализированный процессор, который обеспечивает аппаратную обработку сложных запросов и работу с памятью и хранилищем, что позволяет разгрузить CPU и добиться постоянной пропускной способности при обработке больших данных и снизить задержки.

Постоянный URL: http://servernews.kz/1093204
16.09.2023 [21:34], Сергей Карасёв

Стартап Databricks привлёк ещё $500 млн, что повысило капитализацию компании до $43 млрд

Стартап Databricks, разработчик платформы машинного обучения, анализа и обработки данных, сообщил о проведении раунда финансирования Series I: на развитие привлечено дополнительно $500 млн. Таким образом, на сегодняшний день общий объём инвестиций в эту компанию превысил $4 млрд.

Databricks предоставляет озеро данных, которое предприятия могут использовать для хранения, организации и анализа больших объемов информации. Стартап также помогает заказчикам в развёртывании собственных приложений на базе генеративного ИИ. Компания основана в 2013 году создателями Apache Spark.

 Источник изображения: Gabby Jones / Bloomberg

Источник изображения: Gabby Jones / Bloomberg

Отмечается, что Databricks быстро наращивает выручку: по итогам II четверти текущего финансового года, которая была закрыта 31 июля, показатель преодолел знаковый рубеж в $1,5 млрд — это более чем на 50 % превосходит прошлогодний результат. В глобальном масштабе решения Databricks применяют свыше 10 тыс. организаций, включая более половину компаний из списка Fortune 500.

Раунд финансирования Series I проведён под руководством T. Rowe Price Associates. В программе также приняли участие Andreessen Horowitz, Baillie Gifford, ClearBridge Investments, Counterpoint Global (Morgan Stanley), Fidelity Management & Research Company, Franklin Templeton, GIC, Octahedron Capital, Tiger Global, Capital One Ventures, Ontario Teachers' Pension Plan и NVIDIA.

Прошлый раунд финансирования Databricks был завершён в 2021 году: тогда стартап получил $1,6 млрд, а его рыночная стоимость достигла $38 млрд. Теперь же капитализация оценивается в $43 млрд при стоимости акций на уровне $73,5.

Постоянный URL: http://servernews.kz/1093138
24.03.2023 [23:08], Андрей Крупин

R-Style Softlab представила импортозамещённую платформу для работы с данными

Входящая в группу «Россельхозбанка» компания R-Style Softlab сообщила о выпуске на российский рынок нового продукта R-Style Intelligent System (RSIS), предназначенного для работы с данными и организации долгосрочного их хранения средствами СУБД ArenaDataDB, GreenPlum, PostgreSQL.

RSIS позволяет собирать и аккумулировать данные из различных источников, обрабатывать их и визуализировать полученные результаты, что способствует принятию эффективных управленческих решений. В основу платформы положена датацентричная реализация с применением методологии Data Vault («Свод данных»). По заверениям разработчика, такой подход обеспечивает высокую скорость загрузки и обработки данных.

 Источник изображения: our-team / freepik.com

Источник изображения: our-team / freepik.com

В числе прочих особенностей R-Style Intelligent System называются совместимость программного комплекса с отечественными решениями класса Business Intelligence (BI), поддержка потоковой и пакетной загрузки данных, в том числе механизмов взаимодействия с пакетом Apache Hadoop, возможность интеграции с партнёрскими решениями на базе искусственного интеллекта. Для обеспечения актуальности и качества данных возможно применение методологии Data Governance.

«Мы придерживаемся комплексного подхода к автоматизации работы с данными. Наш продукт совместим с отечественными BI-инструментами. Благодаря применению готовых решений партнёров, система может дополняться функциями для управления потоками данных, обеспечения мобильности, построения моделей данных, применения AI-технологий и т. д. По требованию заказчика мы можем также предоставить оборудование и системное ПО», — отмечает компания-разработчик платформы RSIS.

Постоянный URL: http://servernews.kz/1084004
20.03.2023 [15:22], Андрей Крупин

«Яндекс» открыл исходный код платформы для работы с большими данными YTsaurus

Команда разработчиков «Яндекса» опубликовала исходный код масштабируемой платформы распределённого хранения и обработки больших данных YTsaurus.

YTsaurus разрабатывается компанией с 2010 года и является одним из ключевых элементов внутренней IT-инфраструктуры «Яндекса». В основу платформы положен набор связных подсистем: MapReduce, движок SQL-запросов, планировщик, KV-хранилище данных для OLTP. YTsaurus поддерживает работу с десятками тысяч серверов, обработку эксабайтов данных на разных носителях, а также интеграцию с ClickHouse и Apache Spark. Благодаря широкой функциональности платформа может быть использована для широкого круга задач — от аналитики и построения хранилищ данных до обучения сложных ИИ-моделей с миллиардами параметров.

 Сценарии использования YTsaurus

Сценарии использования YTsaurus

«Платформа YTsaurus отлично зарекомендовала себя в «Яндексе». Теперь мы сделали её доступной и за его пределами. Наибольшую пользу YTsaurus может принести крупным компаниям, которые обрабатывают гигантские объёмы данных на тысячах серверов в условиях постоянно возрастающей нагрузки. Мы уверены, что публикация кода выведет платформу на новый виток развития, как это уже было с другими нашими продуктами», — отмечает «Яндекс».

Исходный код и документация YTsaurus доступны на площадке GitHub. Код распространяется под лицензией Apache 2.0. Использовать платформу или доработать её под себя может любой желающий.

Постоянный URL: http://servernews.kz/1083690
20.02.2023 [22:31], Андрей Крупин

«Диасофт» расширила возможности системы управления данными Digital Q.DataFlows

Компания «Диасофт» сообщила о расширении функциональных возможностей технологической платформы Digital Q.DataFlows, предназначенной для управления данными в корпоративной среде.

Программный комплекс Digital Q.DataFlows состоит их трёх компонентов Data Catalog, Data Streamer и Data Quality, обеспечивающих решение разнообразных задач аналитической обработки информации. Платформа формирует полное представление о том, какими данными располагает организация, и как они взаимосвязаны, позволяет создавать и выполнять процессы преобразования и транспортировки данных между IT-системами, а также обеспечивает мониторинг метрик качества данных, их актуализацию и встраивание инструментов контроля в процессы обработки данных. Поддерживается взаимодействие с различными источниками и массивами данных.

 Источник изображения: diasoft.ru

Источник изображения: diasoft.ru

Ключевым нововведением Digital Q.DataFlows стал инструмент Data Lineage для отслеживания происхождения данных и их потоков — маршрутов, по которым информация перемещается между внешними сущностями, процессами и хранилищами данных. С его помощью аналитики и специалисты по Big Data могут определять источники и местонахождение данных, взаимосвязи между ними и их потоками, отслеживать изменения, которые происходят в процессе трансформации данных, выявлять ошибки и причины их возникновения, а также определять ответственных за работу с той или иной информацией.

Решение Digital Q.DataFlows создано на базе микросервисной архитектуры и встраивается в IT-ландшафт любой организации.

Постоянный URL: http://servernews.kz/1082266

Входит в перечень общественных объединений и религиозных организаций, в отношении которых судом принято вступившее в законную силу решение о ликвидации или запрете деятельности по основаниям, предусмотренным Федеральным законом от 25.07.2002 № 114-ФЗ «О противодействии экстремистской деятельности»;

Система Orphus