VAST DataEngine

データに命を吹き込む

VAST DataEngineは、自然界から得られるデータを継続的に処理・学習できるマシンによって、データに命を吹き込みます。

もはやバッチ処理は不要です。

もはやデータ処理のサイロは不要です。

ただ、連続的かつ再帰的なコンピューティングだけ。

データプラットフォームの進化が必要

何十年もの間、データストアはアプリケーションを認識せず、アプリケーションもデータイベントを認識しませんでした。アプリとデータの分断は、断片的なデータパイプラインと、ストリームと分析を分けるバッチ処理文化を生み出しました。

VAST Data Platformは、データ処理とイベント通知をネイティブに統合することで、データストリーミングとグローバルな洞察とのトレードオフを打破します。

新しいデータタイプ(関数やトリガー)をサポートすることで、VAST Data PlatformはJavaScriptがWebサイトにインタラクティブ性を与えたのと同じように、データを動的に進化させます。

VAST DataEngineでは、データやその変化がアクションをトリガーし、そのアクションがデータに作用し、システムが永遠に再帰的に処理を続けます。このエンジンは永続的なAIトレーニングと推論の基盤であり、未来のAI主導の発見の土台となることが期待されます。

データプラットフォームは進化する必要がある

ソフトウェアによるプログラマブルなコンピューティングエンジン

DataEngineは、顧客がCPU・GPU・DPUなど任意のハードウェア上にデプロイできるコンテナ化された計算環境です。VAST Data Platformにロジックを直接組み込むことで、データアクティビティによってリアルタイムに処理イベントをスケジューリングできます。

ソフトウェア内のプログラマブル計算エンジン

DataEngine プログラマブル環境

VASTのDataEngineは、開発者が自身のコードを持ち込めるPythonベースのプログラミング環境を提供します。加えて、すぐに使える複数の組み込み関数も用意されています。

含まれる機能は以下の通りです:

  • データインデックス作成

  • ファイルヘッダーのインデックス化

  • PII(個人識別情報)の検出

  • ランサムウェアの検出

  • テーブル・トピック・ファイル間のストリーミング

  • データ拡張処理

DataEngine 概要
新たなデータ認識型の再帰的コンピューティングエンジン

次世代のイベントストリーミングインフラストラクチャ

VAST DataEngineは、VAST DataBaseにイベントをネイティブに書き込むための新しいデータストリーミングインターフェースを備えています。

初めて、すべてのデータをリアルタイムでストリーミングしながら、VASTのエクサバイト級トランザクション&分析データベースで分析できるようになりました。

次世代イベントストリーミングインフラストラクチャ

リアルタイムイベントルーター

VAST Event Routerは、非構造データと構造化データのイベント管理を統合し、イベントコンシューマにアクションを起こすためのシンプルなツールを提供します。

リアルタイムイベントルーター

VAST Data Platform:非構造データから構造とインサイトを創出可能な設計

トリガーと関数をVAST Data Platformのステートとして保存することで、コードはグローバルなコードバージョン管理・配信・セキュリティポリシーに対応する動的なグローバルデータストアにより管理されます。

VASTデータプラットフォームは、構造化されていないデータから構造と洞察を生み出すように設計されています。

シンプルなPython SDK

VAST DataEngineは、Pythonでプログラム可能なサーバーレスプラットフォームであり、ステートフルな関数をエクサバイト級のデータストアに統合します。

ストリーミング処理とデータ処理を、エクサバイト級のデータストアとデータベースに統合することで、最小限のコードで包括的な関数呼び出しを実現します。

A Simple Python SDK
新しいAIデータセット

VAST DataSet

ディープラーニングにおけるデータエンジニアリングは困難です。データエンジニアは大規模なデータセットをトレーニングのためにアーカイブストレージに書き込む必要があり、これが硬直的なデータ管理にまつわる多くの問題を引き起こします。

  • モデル学習にデータの多様性が必要な場合、新たなデータセットがストレージに書き込まれ、重複したトレーニングデータにより冗長なデータが生じることがよくあります。

  • 従来のデータセットは学習コードと一体化していないため、データとコードが別々に進化する中でモデルの再現性が失われがちです。

DataEngine により、VAST は「VAST DataSet」という新しい概念を導入しました。この新しいアプローチでは、データをコピーせずに VAST DataBase を用いてサンプルデータのマテリアライズドビューを作成できます。DataSet はエクサバイト規模までスケール可能で、各DataSetにはインデックス化されたサンプルと、トレーニングに使用されたコードが含まれているため、即時にモデルを再現できます。

VAST DataSetのご紹介
グローバルなコンピュートオーケストレーション

グローバル実行環境

VAST DataEngine はコンテナフレームワーク上に構築されており、VAST DataSpace全体でサービスをグローバルに実行可能です。

グローバル実行環境
特長

リアルタイムインサイト、継続的なAI学習、そしてよりスマートなグローバルワークフロー

データ運用の最適化

グローバル環境でのデータ駆動型ワークフローを自動化し、運用を刷新。VAST DataEngine により、データ取り込みからアクションまでがシームレスに管理されます。

イベントトリガー

VAST DataEngine はイベントトリガーを活用でき、事前定義された方法でデータに対してアクションを実行可能です。

組み込み関数のコレクション

VAST ユーザーが作成・提供する関数を DataEngine がオーケストレーションし、さらなるデータ価値を提供します。

Kafka互換ブローカー

Kafka API に対応しており、各トピックを DataStore 内のテーブルとして保存し、各メッセージをそのテーブルの行として扱います。

グローバル実行エンジン

データの位置を認識し、関数実行を直近にアクセスされたデータの近くで実行することで性能を最適化します。

シンプルなPython SDK

VAST DataEngine は Python によってプログラム可能なサーバーレスプラットフォームで、ステートフルな関数をエクサバイト規模のデータストアに統合します。

新しいデータ管理アプローチ

VAST DataSet は、データをコピーせずにサンプルデータのマテリアライズドビューを作成するために VAST DataBase を活用します。

データ運用の最適化

グローバル環境でのデータ駆動型ワークフローを自動化し、運用を刷新。VAST DataEngine により、データ取り込みからアクションまでがシームレスに管理されます。

イベントトリガー

VAST DataEngine はイベントトリガーを活用でき、事前定義された方法でデータに対してアクションを実行可能です。

組み込み関数のコレクション

VAST ユーザーが作成・提供する関数を DataEngine がオーケストレーションし、さらなるデータ価値を提供します。

Kafka互換ブローカー

Kafka API に対応しており、各トピックを DataStore 内のテーブルとして保存し、各メッセージをそのテーブルの行として扱います。

グローバル実行エンジン

データの位置を認識し、関数実行を直近にアクセスされたデータの近くで実行することで性能を最適化します。

シンプルなPython SDK

VAST DataEngine は Python によってプログラム可能なサーバーレスプラットフォームで、ステートフルな関数をエクサバイト規模のデータストアに統合します。

新しいデータ管理アプローチ

VAST DataSet は、データをコピーせずにサンプルデータのマテリアライズドビューを作成するために VAST DataBase を活用します。