VASTシステムは、低コストの永続メモリで構成された大容量の書き込みバッファを活用することで、すべてのACIDトランザクションを即時に格納できます。
テーブルが一定量に達すると、それらは低コストなハイパースケールフラッシュへと移行され、列指向形式で保存されるため、クエリも瞬時に実行可能です。
クエリは長期保存領域と書き込みバッファの両方を対象とし、バッファ上のデータは行指向であっても、基盤となる永続メモリ構造により極めて高速に読み取ることが可能です。
VAST Dataの基本原理からの発想を継承した革新的なデータベース:VAST DataBase これはデータベース? それともデータウェアハウス? あるいはデータレイク? VAST DataBaseはすべてに該当します。 このページにその秘密が隠されています。
VAST DataBaseは、データベースのトランザクション性能、エクサバイト規模のデータウェアハウスのクエリ性能、そしてデータレイクの低コスト性を兼ね備えた、従来の常識を打ち破るデータ基盤です。
クエリを実行するのはコストがかかり、そのため人々はデータクエリを試すことを躊躇してしまいます。これは悪い組み合わせです——ここに素晴らしいデータがあるのに、閲覧するコストが高すぎるため、実際には触れることができないのです。
VASTシステムは、低コストの永続メモリで構成された大容量の書き込みバッファを活用することで、すべてのACIDトランザクションを即時に格納できます。
テーブルが一定量に達すると、それらは低コストなハイパースケールフラッシュへと移行され、列指向形式で保存されるため、クエリも瞬時に実行可能です。
クエリは長期保存領域と書き込みバッファの両方を対象とし、バッファ上のデータは行指向であっても、基盤となる永続メモリ構造により極めて高速に読み取ることが可能です。
Parquetは現在最も一般的なデータサイエンス向けファイル形式かもしれませんが、Parquetを使用するシステムは列ストアのインフラを非効率に利用しています。VAST DataBaseのチャンクサイズは32KBで、一般的なParquetのロウグループよりも16,000倍も小さいのです。オールフラッシュのデータレイクという発想を採用することで、驚異的なクエリ絞り込み精度を実現し、クエリエンジンが走査するレコード数を大幅に削減しました。また、この32KBのVAST DataBaseの列形式ペイロードは、非常に簡単に更新することができます。GDPR対応から保持ポリシーの適用まで、従来のデータベースで必要だった面倒なバキューム処理なしに即座にテーブルを更新できます。すべてが、とにかく速いのです。
NYCタクシーデータセットにおいて、100ドル以上の通行料がかかったライドを検索してみましょう。両テストとも同じ行数で、S3ではTrinoが2,800万行を処理して8.11秒かかったのに対し、VAST DataBaseではTrinoがたった2行を処理するだけで2.27秒でした。
アーカイブまでリアルタイムでクエリを実行できるため、VAST DataBaseはコンテンツプロバイダー、ECサイト、SNSがユーザーの関心プロファイルを照会し、リアルタイムに新たな機械学習モデルを学習することを可能にします。
VAST DataBaseは、データベースのトランザクション性能とデータレイクのスケーラブルなクエリ性能を融合させることで、従来のトレードオフを打破し、不正検知をリアルタイムで実現します。これにより、決済プロバイダーは即座に不正の兆候を分析・検出できるようになります。
VAST DataBaseは、主要な広告主や広告ネットワークにより、ユーザー行動のマッピングと相関分析を通じたターゲティング技術の高度化に活用されています。VASTの効率化アルゴリズムは、アーカイブコストでオールフラッシュデータレイクを実現し、広告ネットワークの収益最適化に理想的な環境を提供します。
VAST DataBaseは、アーカイブ領域に至るまでのきめ細かなクエリを実現します。膨大なデータから「干し草の山から針」を探す政府機関にとって、今やエクサバイト規模でリアルタイムに「針」を見つけられる理想的なプラットフォームです。
VASTが新たに開発したDisaggregated and Shared-Everything(DASE)アーキテクチャは、従来の分散システムのスケーリング限界を打破するために設計されました。
DASEクラスタでは、データベースロジックを実行するマシンはステートレスであり、低遅延な汎用データセンターファブリック上で接続されたフラッシュストレージから分離されています。各CPUが他のCPUと調整することなく名前空間に書き込める新たな共有型データ構造が発明されました。
DASEアーキテクチャの並列性により、1秒間に数百万件のトランザクション処理と、エクサバイト級のフラッシュデータに対するほぼ無限のクエリ性能が実現可能となります。
ParquetやORCのようなオープンフォーマットでは、ファイルサイズのバランス調整が難しいのが現実です。大きなファイルはメタストアへの負荷を軽減し、圧縮率も向上しますが、クエリエンジンに余計なレコードやデータを処理させる結果となります。
VAST DataBaseは、列単位のチャンクをグローバルに圧縮する「類似性ベースのデータ削減(Similarity-Based Data Reduction)」を採用。これにより、データレイクにおけるファイルサイズ調整の負担を解消します。すべての列チャンクはグローバル圧縮クラスタに追加され、単一ファイル方式(例:Snappy)を超える圧縮率を実現します。
Similarityは、事前に圧縮されたデータや暗号化済みデータに対しても削減を見出せるほど強力です。これ以上の削減技術は存在しないと断言できます。
VAST DataBaseは、画像・動画・LIDAR・ゲノムなどの自然データ型に対応したエクサバイト規模のネームスペースと、ディープラーニングパイプラインの中で生成されるオブジェクトに関するメタデータを格納するテーブル型データベースを独自に融合させています。
現代のAIアプリケーションが非構造データに構造を与えるように、VAST Data Platformは構造・非構造問わずすべてのデータアプリケーションに対応する設計となっています。
VASTのマルチプロトコルDataStoreは2019年に登場し、オールフラッシュの性能とアーカイブの経済性を両立する世界初のファイル・オブジェクトストレージシステムとして発表されました。このシステムは、あらゆるビュー(NFS、SMB、S3)からデータを提供できるマルチプロトコルデータ管理システムです。
VAST DataBaseによって、非構造化データは単なるデータカタログを超え、AIの学習や推論システムにおけるセマンティックレイヤーの基盤となるトランザクションおよび分析機能を獲得します。
トランザクションシステムと高度な分析のトレードオフを打破
エクサバイト規模のシステムにおいてパフォーマンスと柔軟性を最大化
VAST DataBaseはVASTファイルシステムにネイティブに組み込まれており、妥協のないリニアなスケーリングを実現します。
VAST DataBaseは、無制限のACIDトランザクションおよびテーブル内・テーブル間のアトミック更新に対応しています。
VAST DataBaseの処理を担うCPUは、システムの状態を保持するマシンとは独立しており、柔軟なトポロジでクラスタのスケールが可能
VASTのSimilarityベースのデータ削減は、グローバルな重複排除と高精度な圧縮を組み合わせ、ネームスペース全体で効率を向上します。
VASTクラスタは、エクサバイト級のデータ容量、数百万件のトランザクション、毎秒テラバイト級のクエリ処理に対応可能です。
コンパクションやバキューム処理、パーティション管理は不要。VAST DataBaseは常に高速で、テーブルのクリーンアップを自動で行います。
堅牢なレプリケーション、アクセス監査、スナップショット管理などにより、運用の継続性と制御性を確保します。
VAST DataBaseはn:1および1:nの非同期レプリケーショントポロジをサポートし、15秒のリカバリポイントでフェイルオーバーをほぼリアルタイムで実現します。
VAST DataBaseは、「誰が」「何を」「どうやって」クラスタやオブジェクトにアクセスしたかを直接クエリ可能。クラウドネイティブな監査・アクセス制御が可能
VASTクラスタは「write-in-free-space」方式を採用し、スナップショットを簡単に作成可能。1つのテーブルでも複数でも、一貫したスナップショットが容易に取得でき、時系列管理の複雑さを排除します。
複雑なワークロード向けに効率化されたデータ管理。
VAST DataBaseは、データが古くなるにつれて行データをカラム型オブジェクトに変換し、フラッシュ最適化された深いクエリに適した形式に変換
VASTクラスタは、QLC/PLCフラッシュ特有の特性に最適化された新しいデータ構造を導入し、オールフラッシュ・データレイクのコストを大幅に削減
UINT 8/16/32/64、INT 8/16/32/64、BOOL、FLOAT 32/64、DATE32、TIMESTAMP、TIME 32/64、STRING、DECIMAL128、BINARY、BINARY32KB、ARRAY、MAP、COUNT、ベクター(ネストおよび多階層ネストも含む)に対応
VASTは、並列POSIXファイルネームスペースとS3ネームスペースに統合できる唯一のデータベースであり、コンテンツをコンテキストレイヤーと融合させることが可能です。
VAST DataBaseは、VASTのRESTful API、S3バケット(Parquetの自動ETL)、Trino、Spark、GUIからのParquet直接アップロードによってロード可能
VAST DataBaseがいかにして非構造化データに構造を与え、トランザクションシステムと深層分析のトレードオフを打破するかを解説
VAST DataBaseがAI最適化パフォーマンスでデータパイプラインをどう変革し、スピード・効率・スケーラビリティのベンチマークを超えるかを紹介
VASTの革新的なDASEアーキテクチャが、データプラットフォームの従来概念をいかに覆し、アーカイブ並みのコストでオールフラッシュ性能を実現するかを解説。データセンターの簡素化とモダンアプリケーションの加速を支援