VAST DataBase

データベースの常識を覆す

VAST Dataの基本原理からの発想を継承した革新的なデータベース:VAST DataBase これはデータベース? それともデータウェアハウス? あるいはデータレイク? VAST DataBaseはすべてに該当します。 このページにその秘密が隠されています。

VAST DataBaseは、データベースのトランザクション性能、エクサバイト規模のデータウェアハウスのクエリ性能、そしてデータレイクの低コスト性を兼ね備えた、従来の常識を打ち破るデータ基盤です。

クエリを実行するのはコストがかかり、そのため人々はデータクエリを試すことを躊躇してしまいます。これは悪い組み合わせです——ここに素晴らしいデータがあるのに、閲覧するコストが高すぎるため、実際には触れることができないのです。

サイバーセキュリティ企業 エンジニア
Read Success Story

トランザクションとクエリのトレードオフを解消

VASTシステムは、低コストの永続メモリで構成された大容量の書き込みバッファを活用することで、すべてのACIDトランザクションを即時に格納できます。

テーブルが一定量に達すると、それらは低コストなハイパースケールフラッシュへと移行され、列指向形式で保存されるため、クエリも瞬時に実行可能です。

クエリは長期保存領域と書き込みバッファの両方を対象とし、バッファ上のデータは行指向であっても、基盤となる永続メモリ構造により極めて高速に読み取ることが可能です。

フラッシュに最適化された列指向データ形式

Parquetは現在最も一般的なデータサイエンス向けファイル形式かもしれませんが、Parquetを使用するシステムは列ストアのインフラを非効率に利用しています。VAST DataBaseのチャンクサイズは32KBで、一般的なParquetのロウグループよりも16,000倍も小さいのです。オールフラッシュのデータレイクという発想を採用することで、驚異的なクエリ絞り込み精度を実現し、クエリエンジンが走査するレコード数を大幅に削減しました。また、この32KBのVAST DataBaseの列形式ペイロードは、非常に簡単に更新することができます。GDPR対応から保持ポリシーの適用まで、従来のデータベースで必要だった面倒なバキューム処理なしに即座にテーブルを更新できます。すべてが、とにかく速いのです。

Platform: DataBase: Comparison 1
Platform: DataBase: Comparison 2
パフォーマンス比較

VAST DataBaseは、「干し草の山から針を見つける」に最適です

NYCタクシーデータセットにおいて、100ドル以上の通行料がかかったライドを検索してみましょう。両テストとも同じ行数で、S3ではTrinoが2,800万行を処理して8.11秒かかったのに対し、VAST DataBaseではTrinoがたった2行を処理するだけで2.27秒でした。

VAST Data image
ユースケース

あらゆるデータに最適化された設計

コンテンツレコメンデーション

アーカイブまでリアルタイムでクエリを実行できるため、VAST DataBaseはコンテンツプロバイダー、ECサイト、SNSがユーザーの関心プロファイルを照会し、リアルタイムに新たな機械学習モデルを学習することを可能にします。

不正決済分析

VAST DataBaseは、データベースのトランザクション性能とデータレイクのスケーラブルなクエリ性能を融合させることで、従来のトレードオフを打破し、不正検知をリアルタイムで実現します。これにより、決済プロバイダーは即座に不正の兆候を分析・検出できるようになります。

ターゲティング広告

VAST DataBaseは、主要な広告主や広告ネットワークにより、ユーザー行動のマッピングと相関分析を通じたターゲティング技術の高度化に活用されています。VASTの効率化アルゴリズムは、アーカイブコストでオールフラッシュデータレイクを実現し、広告ネットワークの収益最適化に理想的な環境を提供します。

国家安全保障

VAST DataBaseは、アーカイブ領域に至るまでのきめ細かなクエリを実現します。膨大なデータから「干し草の山から針」を探す政府機関にとって、今やエクサバイト規模でリアルタイムに「針」を見つけられる理想的なプラットフォームです。

数千のCPUにわたって、一貫性のあるデータベースサービスをリニアにスケール可能

VASTが新たに開発したDisaggregated and Shared-Everything(DASE)アーキテクチャは、従来の分散システムのスケーリング限界を打破するために設計されました。

DASEクラスタでは、データベースロジックを実行するマシンはステートレスであり、低遅延な汎用データセンターファブリック上で接続されたフラッシュストレージから分離されています。各CPUが他のCPUと調整することなく名前空間に書き込める新たな共有型データ構造が発明されました。

DASEアーキテクチャの並列性により、1秒間に数百万件のトランザクション処理と、エクサバイト級のフラッシュデータに対するほぼ無限のクエリ性能が実現可能となります。

DataBase Architecture

データベース圧縮の革命的アプローチ

ParquetやORCのようなオープンフォーマットでは、ファイルサイズのバランス調整が難しいのが現実です。大きなファイルはメタストアへの負荷を軽減し、圧縮率も向上しますが、クエリエンジンに余計なレコードやデータを処理させる結果となります。

VAST DataBaseは、列単位のチャンクをグローバルに圧縮する「類似性ベースのデータ削減(Similarity-Based Data Reduction)」を採用。これにより、データレイクにおけるファイルサイズ調整の負担を解消します。すべての列チャンクはグローバル圧縮クラスタに追加され、単一ファイル方式(例:Snappy)を超える圧縮率を実現します。

Similarityは、事前に圧縮されたデータや暗号化済みデータに対しても削減を見出せるほど強力です。これ以上の削減技術は存在しないと断言できます。

Similarityの詳細はこちらをご覧ください。
インポーターおよびクエリインターフェース

VAST DataBaseはオープンなデータサイエンス標準を採用

VAST DataBaseは、画像・動画・LIDAR・ゲノムなどの自然データ型に対応したエクサバイト規模のネームスペースと、ディープラーニングパイプラインの中で生成されるオブジェクトに関するメタデータを格納するテーブル型データベースを独自に融合させています。

The VAST DataBase Embraces Open Data Science Standards

構造化データと非構造化データを統合する初のプラットフォーム

現代のAIアプリケーションが非構造データに構造を与えるように、VAST Data Platformは構造・非構造問わずすべてのデータアプリケーションに対応する設計となっています。

VASTのマルチプロトコルDataStoreは2019年に登場し、オールフラッシュの性能とアーカイブの経済性を両立する世界初のファイル・オブジェクトストレージシステムとして発表されました。このシステムは、あらゆるビュー(NFS、SMB、S3)からデータを提供できるマルチプロトコルデータ管理システムです。

VAST DataBaseによって、非構造化データは単なるデータカタログを超え、AIの学習や推論システムにおけるセマンティックレイヤーの基盤となるトランザクションおよび分析機能を獲得します。

The First Synthesized Structured & Unstructured Data Platform
機能一覧

トランザクションシステムと高度な分析のトレードオフを打破

スケーラブルな設計

エクサバイト規模のシステムにおいてパフォーマンスと柔軟性を最大化

シームレスなDataBase統合

VAST DataBaseはVASTファイルシステムにネイティブに組み込まれており、妥協のないリニアなスケーリングを実現します。

スケーラブルなACIDトランザクション

VAST DataBaseは、無制限のACIDトランザクションおよびテーブル内・テーブル間のアトミック更新に対応しています。

分離型アーキテクチャ

VAST DataBaseの処理を担うCPUは、システムの状態を保持するマシンとは独立しており、柔軟なトポロジでクラスタのスケールが可能

グローバルデータ削減

VASTのSimilarityベースのデータ削減は、グローバルな重複排除と高精度な圧縮を組み合わせ、ネームスペース全体で効率を向上します。

膨大なパフォーマンスとスケール

VASTクラスタは、エクサバイト級のデータ容量、数百万件のトランザクション、毎秒テラバイト級のクエリ処理に対応可能です。

手間のかからないテーブル管理

コンパクションやバキューム処理、パーティション管理は不要。VAST DataBaseは常に高速で、テーブルのクリーンアップを自動で行います。

スケーラブルな設計

エクサバイト規模のシステムにおいてパフォーマンスと柔軟性を最大化

シームレスなDataBase統合

VAST DataBaseはVASTファイルシステムにネイティブに組み込まれており、妥協のないリニアなスケーリングを実現します。

スケーラブルなACIDトランザクション

VAST DataBaseは、無制限のACIDトランザクションおよびテーブル内・テーブル間のアトミック更新に対応しています。

分離型アーキテクチャ

VAST DataBaseの処理を担うCPUは、システムの状態を保持するマシンとは独立しており、柔軟なトポロジでクラスタのスケールが可能

グローバルデータ削減

VASTのSimilarityベースのデータ削減は、グローバルな重複排除と高精度な圧縮を組み合わせ、ネームスペース全体で効率を向上します。

膨大なパフォーマンスとスケール

VASTクラスタは、エクサバイト級のデータ容量、数百万件のトランザクション、毎秒テラバイト級のクエリ処理に対応可能です。

手間のかからないテーブル管理

コンパクションやバキューム処理、パーティション管理は不要。VAST DataBaseは常に高速で、テーブルのクリーンアップを自動で行います。

セキュアな運用

堅牢なレプリケーション、アクセス監査、スナップショット管理などにより、運用の継続性と制御性を確保します。

ディザスタリカバリ

VAST DataBaseはn:1および1:nの非同期レプリケーショントポロジをサポートし、15秒のリカバリポイントでフェイルオーバーをほぼリアルタイムで実現します。

監査とアクセス

VAST DataBaseは、「誰が」「何を」「どうやって」クラスタやオブジェクトにアクセスしたかを直接クエリ可能。クラウドネイティブな監査・アクセス制御が可能

グローバルスナップショット

VASTクラスタは「write-in-free-space」方式を採用し、スナップショットを簡単に作成可能。1つのテーブルでも複数でも、一貫したスナップショットが容易に取得でき、時系列管理の複雑さを排除します。

セキュアな運用

堅牢なレプリケーション、アクセス監査、スナップショット管理などにより、運用の継続性と制御性を確保します。

ディザスタリカバリ

VAST DataBaseはn:1および1:nの非同期レプリケーショントポロジをサポートし、15秒のリカバリポイントでフェイルオーバーをほぼリアルタイムで実現します。

監査とアクセス

VAST DataBaseは、「誰が」「何を」「どうやって」クラスタやオブジェクトにアクセスしたかを直接クエリ可能。クラウドネイティブな監査・アクセス制御が可能

グローバルスナップショット

VASTクラスタは「write-in-free-space」方式を採用し、スナップショットを簡単に作成可能。1つのテーブルでも複数でも、一貫したスナップショットが容易に取得でき、時系列管理の複雑さを排除します。

管理効率

複雑なワークロード向けに効率化されたデータ管理。

カラム型クエリ

VAST DataBaseは、データが古くなるにつれて行データをカラム型オブジェクトに変換し、フラッシュ最適化された深いクエリに適した形式に変換

低コストフラッシュ向けに最適化

VASTクラスタは、QLC/PLCフラッシュ特有の特性に最適化された新しいデータ構造を導入し、オールフラッシュ・データレイクのコストを大幅に削減

複雑なデータ型をサポート

UINT 8/16/32/64、INT 8/16/32/64、BOOL、FLOAT 32/64、DATE32、TIMESTAMP、TIME 32/64、STRING、DECIMAL128、BINARY、BINARY32KB、ARRAY、MAP、COUNT、ベクター(ネストおよび多階層ネストも含む)に対応

統合ファイルシステム

VASTは、並列POSIXファイルネームスペースとS3ネームスペースに統合できる唯一のデータベースであり、コンテンツをコンテキストレイヤーと融合させることが可能です。

データインポーター

VAST DataBaseは、VASTのRESTful API、S3バケット(Parquetの自動ETL)、Trino、Spark、GUIからのParquet直接アップロードによってロード可能

管理効率

複雑なワークロード向けに効率化されたデータ管理。

カラム型クエリ

VAST DataBaseは、データが古くなるにつれて行データをカラム型オブジェクトに変換し、フラッシュ最適化された深いクエリに適した形式に変換

低コストフラッシュ向けに最適化

VASTクラスタは、QLC/PLCフラッシュ特有の特性に最適化された新しいデータ構造を導入し、オールフラッシュ・データレイクのコストを大幅に削減

複雑なデータ型をサポート

UINT 8/16/32/64、INT 8/16/32/64、BOOL、FLOAT 32/64、DATE32、TIMESTAMP、TIME 32/64、STRING、DECIMAL128、BINARY、BINARY32KB、ARRAY、MAP、COUNT、ベクター(ネストおよび多階層ネストも含む)に対応

統合ファイルシステム

VASTは、並列POSIXファイルネームスペースとS3ネームスペースに統合できる唯一のデータベースであり、コンテンツをコンテキストレイヤーと融合させることが可能です。

データインポーター

VAST DataBaseは、VASTのRESTful API、S3バケット(Parquetの自動ETL)、Trino、Spark、GUIからのParquet直接アップロードによってロード可能

コンサンプションモデル

ソフトウェアとして販売、アプライアンスとして提供・サポート。

Gemini – ストレージビジネスのディスアグリゲーションモデル。Geminiでは、顧客がマネージドソフトウェアを購入し、ハードウェアをメーカーから原価で直接購入可能。これにより、かつてない規模でのスケールアウト展開を実現しながら、ソフトウェアストレージソリューションのコスト削減と商業的柔軟性を提供

オンプレミスにおいて、VASTアプライアンスは性能と容量の最適なバランスを実現するよう設計。信頼性・拡張性・効率性を備えた装置を大手エンタープライズ技術ベンダーと共同で設計。VASTのスケーラブルなクラスタアーキテクチャにより、異なる世代のフラッシュおよびストレージコンピュート基盤を柔軟に組み合わせ可能

サポート対象プラットフォームの詳細を見る。

LightSpeed
Ceres
Supermicro
HPE
Cisco
Sanminaとの提携により誕生したLightSpeedは、スケーラブルなAI時代に適した2UのHA(高可用性)フラッシュエンクロージャです。スケールアウトNASの柔軟性と並列ファイルシステムの高速性を兼ね備え、スケールにおけるシンプルさを実現します。
スペックを確認する
Sanminaとの提携により誕生したLightSpeedは、スケーラブルなAI時代に適した2UのHA(高可用性)フラッシュエンクロージャです。スケールアウトNASの柔軟性と並列ファイルシステムの高速性を兼ね備え、スケールにおけるシンプルさを実現します。
スペックを確認する