Home Notícias Data lakehouse Onehouse ganha US$ 35 milhões para capitalizar a revolução GenAI

Data lakehouse Onehouse ganha US$ 35 milhões para capitalizar a revolução GenAI

30
0

Você mal consegue passar uma hora hoje em dia sem ler sobre IA generativa. Enquanto ainda estamos na fase embrionária do que alguns dublaram sendo a “máquina a vapor” da quarta revolução industrial, não há dúvidas de que a “GenAI” está a preparar-se para transformar praticamente todos os setores – desde finanças e cuidados de saúde até ao direito e muito mais.

Aplicativos interessantes voltados para o usuário podem atrair a maior parte do alarde, mas as empresas que impulsionam essa revolução são atualmente as que mais se beneficiam. Ainda este mês, a fabricante de chips Nvidia tornou-se brevemente a empresa mais valiosa do mundo, um rolo compressor de US$ 3,3 trilhões impulsionado substancialmente pela demanda por poder de computação de IA.

Mas, além das GPUs (unidades de processamento gráfico), as empresas também precisam de infraestrutura para gerenciar o fluxo de dados – para armazenar, processar, treinar, analisar e, em última análise, desbloquear todo o potencial da IA.

Uma empresa que busca capitalizar isso é Uma casauma startup californiana de três anos fundada por Vinoth Chandarque criou o código aberto Apache Hudi projeto enquanto atuava como arquiteto de dados na Uber. Hudi traz os benefícios de armazéns de dados para lagos de dadoscriando o que ficou conhecido como “data lakehouse”, permitindo suporte para ações como indexação e execução de consultas em tempo real em grandes conjuntos de dados, sejam eles estruturados, não estruturados ou semiestruturados.

Por exemplo, uma empresa de comércio eletrônico que coleta continuamente dados de clientes, abrangendo pedidos, feedback e interações digitais relacionadas, precisará de um sistema para ingerir todos esses dados e garantir que sejam mantidos atualizados, o que pode ajudá-la a recomendar produtos com base nas necessidades do usuário. atividade. O Hudi permite que dados sejam ingeridos de diversas fontes com latência mínima, com suporte para exclusão, atualização e inserção (“upsert”), o que é vital para esses casos de uso de dados em tempo real.

Onehouse se baseia nisso com um data lakehouse totalmente gerenciado que ajuda as empresas a implantar o Hudi. Ou, como diz Chandar, “impulsiona a ingestão e a padronização de dados em formatos de dados abertos” que podem ser usados ​​com quase todas as principais ferramentas nos ecossistemas de ciência de dados, IA e aprendizado de máquina.

“Onehouse abstrai a construção de infraestrutura de dados de baixo nível, ajudando as empresas de IA a se concentrarem em seus modelos”, disse Chandar ao TechCrunch.

Hoje, a Onehouse anunciou que arrecadou US$ 35 milhões em uma rodada de financiamento da Série B ao lançar dois novos produtos no mercado para melhorar o desempenho do Hudi e reduzir os custos de armazenamento e processamento em nuvem.

Na casa do lago (dados)

Anúncio Onehouse em outdoor de Londres.
Créditos da imagem: Uma casa

Chandar criou o Hudi como um projeto interno da Uber em 2016, e desde a empresa de carona doou o projeto para a Fundação Apache em 2019, Hudi foi adotado pelo gosta da AmazonDisney e Wal-Mart.

Chandar deixou a Uber em 2019 e, após uma breve passagem pela Confluent, fundou a Onehouse. A startup surgiu do sigilo em 2022 com US$ 8 milhões em financiamento inicial, e logo depois com uma rodada da Série A de US$ 25 milhões. Ambas as rodadas foram co-lideradas pela Greylock Partners e Addition.

Essas empresas de capital de risco uniram forças novamente para a sequência da Série B, embora desta vez a Craft Ventures de David Sacks esteja liderando a rodada.

“O data lakehouse está rapidamente se tornando a arquitetura padrão para organizações que desejam centralizar seus dados para potencializar novos serviços como análise em tempo real, ML preditivo e GenAI”, disse o parceiro da Craft Ventures, Michael Robinson, em um comunicado.

Para contextualizar, data warehouses e data lakes são semelhantes na forma como servem como um repositório central para reunir dados. Mas eles fazem isso de maneiras diferentes: um data warehouse é ideal para processar e consultar dados históricos e estruturados, enquanto data lakes surgiram como uma alternativa mais flexível para armazenar grandes quantidades de dados brutos em seu formato original, com suporte para vários tipos de dados e consultas de alto desempenho.

Isso torna os data lakes ideais para cargas de trabalho de IA e aprendizado de máquina, pois é mais barato armazenar dados brutos pré-transformados e, ao mesmo tempo, oferece suporte para consultas mais complexas porque os dados podem ser armazenados em sua forma original.

No entanto, a contrapartida é todo um novo conjunto de complexidades de gestão de dados, que corre o risco de piorar a qualidade dos dados, dada a vasta gama de tipos e formatos de dados. Em parte, isso é o que Hudi pretende resolver, trazendo alguns recursos importantes de data warehouses para data lakes, como Transações ACID para apoiar a integridade e confiabilidade dos dados, bem como melhorar o gerenciamento de metadados para conjuntos de dados mais diversos.

Configurando pipelines de dados no Onehouse
Configurando pipelines de dados no Onehouse.
Créditos da imagem: Uma casa

Por ser um projeto de código aberto, qualquer empresa pode implantar o Hudi. Uma rápida olhada nos logotipos no site da Onehouse revela alguns usuários impressionantes: AWS, Google, Tencent, Disney, Walmart, Bytedance, Uber e Huawei, para citar alguns. Mas o fato de essas grandes empresas aproveitarem o Hudi internamente é indicativo do esforço e dos recursos necessários para construí-lo como parte de uma configuração de data lakehouse local.

“Embora o Hudi forneça funcionalidades avançadas para ingerir, gerenciar e transformar dados, as empresas ainda precisam integrar cerca de meia dúzia de ferramentas de código aberto para atingir seus objetivos de um data lakehouse com qualidade de produção”, disse Chandar.

É por isso que a Onehouse oferece uma plataforma nativa da nuvem totalmente gerenciada que ingere, transforma e otimiza os dados em uma fração do tempo.

“Os usuários podem colocar um data lakehouse aberto em funcionamento em menos de uma hora, com ampla interoperabilidade com todos os principais serviços, armazéns e mecanismos de data lake nativos da nuvem”, disse Chandar.

A empresa foi tímida ao nomear seus clientes comerciais, além do casal listado na estudos de casocomo o unicórnio indiano Apna.

“Como uma empresa jovem, não compartilhamos publicamente toda a lista de clientes comerciais da Onehouse neste momento”, disse Chandar.

Com novos US$ 35 milhões no banco, a Onehouse agora está expandindo sua plataforma com uma ferramenta gratuita chamada Onehouse LakeView, que fornece observabilidade da funcionalidade do lakehouse para obter insights sobre estatísticas de tabelas, tendências, tamanhos de arquivos, histórico de linha do tempo e muito mais. Isso se baseia nas métricas de observabilidade existentes fornecidas pelo projeto principal do Hudi, fornecendo contexto extra sobre as cargas de trabalho.

“Sem o LakeView, os usuários precisam gastar muito tempo interpretando métricas e entendendo profundamente toda a pilha para causar problemas de desempenho ou ineficiências na configuração do pipeline”, disse Chandar. “O LakeView automatiza isso e fornece alertas por e-mail sobre tendências boas ou ruins, sinalizando necessidades de gerenciamento de dados para melhorar o desempenho da consulta.”

Além disso, a Onehouse também está lançando um novo produto chamado Table Optimizer, um serviço de nuvem gerenciado que otimiza tabelas existentes para agilizar a ingestão e transformação de dados.

‘Aberto e interoperável’

Não há como ignorar a miríade de outros grandes nomes do setor. Empresas como Databricks e Snowflake estão cada vez mais abraçando o paradigma da casa do lago: No início deste mês, Databricks supostamente distribuídos US$ 1 bilhão para adquirir uma empresa chamada Tabular, com o objetivo de criar um padrão comum para casas no lago.

A Onehouse certamente entrou em um espaço quente, mas espera que seu foco em um sistema “aberto e interoperável” que torne mais fácil evitar o aprisionamento do fornecedor a ajude a resistir ao teste do tempo. É essencialmente promissor a capacidade de tornar uma única cópia de dados universalmente acessível de praticamente qualquer lugar, incluindo Databricks, Snowflake, Cloudera e serviços nativos AWS, sem ter que construir silos de dados separados em cada um.

Tal como acontece com a Nvidia no domínio da GPU, não há como ignorar as oportunidades que aguardam qualquer empresa no espaço de gerenciamento de dados. Os dados são a base do desenvolvimento da IA, e não ter dados suficientes de boa qualidade é um dos principais motivos por que muitos projetos de IA falham. Mas mesmo quando os dados estão presentes em grandes volumes, as empresas ainda precisam da infraestrutura para ingeri-los, transformá-los e padronizá-los para torná-los úteis. Isso é um bom presságio para Onehouse e sua turma.

“Do lado do gerenciamento e processamento de dados, acredito que dados de qualidade fornecidos por uma base sólida de infraestrutura de dados desempenharão um papel crucial na integração desses projetos de IA em casos de uso de produção no mundo real – para evitar a entrada de lixo/lixo- resolver problemas de dados”, disse Chandar. “Estamos começando a ver essa demanda entre os usuários de data lakehouse, à medida que eles lutam para dimensionar o processamento de dados e as necessidades de consulta para construir esses aplicativos de IA mais recentes em dados em escala empresarial.”

Fuente

LEAVE A REPLY

Please enter your comment!
Please enter your name here