はじめに
Magic ETL DataFlowがSnowflakeで実行されるたびにすべてのデータを処理すると、コストがかさむ場合があります。サブセット処理では、フローの最初にデータ選択オプションが、フローの最後に追加の更新方法が用意されています。そのため、より小さなデータのサブセットを選択してデータを変換できます。 この記事では、使用可能な各オプションについて説明します。完全な置換を実行したい場合でも、 心配ありません。このオプションはいつでも使用できます。大規模なDataSetを処理する際は、追加、パーティション、Upsertなど、ほかの更新方法を試すことができ、より柔軟性が向上しています。これらの方法については、 後述のセクション を参照してください。
必要な許可
DomoでSnowflake上のMagic ETLのサブセット処理を使用するには、次の許可を有効にしておく必要があります。- Adrenaline DataFlowを編集 — システム権限またはカスタマイズされた権限を通じて、この許可を持っている必要があります。カスタマイズされた権限に許可を追加する方法については、 こちら を参照してください。
- 次の いずれか :
- (管理者レベル) クラウドアカウントを管理 — この許可は所有者にインスタンス全体のコントロールへのアクセス権を付与するため、管理者レベルと見なされます。 または
- 統合共有が有効になっている場合は、統合アカウントへの [DataFlowを編集] の許可 および [書き込みができます]の許可 。 統合を共有する方法については、 こちら を参照してください。
Snowflake上のMagic ETLのサブセット処理にアクセスする
Snowflake-Domo統合 の設定が完了している場合は、Magic ETL内から変換を実行するSnowflakeクラウドを選択できます。
データ選択オプションで受信データをフィルタリングする
データが変換フローに入る前に、Magic ETLで入力DataSetタイルを設定する際に使用できるデータ選択オプションを使用して、入力DataSetをフィルタリングすることができます。 データ選択オプションを選択するには、次の手順を実行します。-
Magic ETLを開き、 [コンピューティング] ドロップダウンからDataFlowを実行するSnowflake統合を選択します。
Snowflake-Domo統合を確立する必要がある場合は、 こちら で方法を確認してください。

- 入力DataSetタイルをキャンバスにドラッグし、DataSetを選択します。
-
キャンバスの下にある設定パネルで [データの選択] ドロップダウンを使用し、以下に説明するフィルタリングオプションのいずれかを選択します。

- すべて — これはデフォルトのオプションです。このオプションでは、DataSetのすべての行が読み込まれます。
- 新規 — このオプションでは、DataFlowが最後に正常に実行されて以降にDataSetに追加されたバッチ(再作成されたパーティションを含む)のみが読み込まれます。
-
バッチでフィルタ— — このオプションでは、 [データをインポートするタイミング] ドロップダウンと [日付は次にあります:] ドロップダウンを使用して、読み込むバッチを作成日にもとづいて指定できます。

-
カスタマイズされた数式を使用 — [バッチでフィルター] を選択した後に、カスタマイズされた数式を使用してバッチを特定できます。これを行うには、設定パネルで [バッチでフィルター] セクションを展開し、 [データをインポートするタイミング] ドロップダウンを使用して [カスタマイズされた数式] を選択します。
数式フィールドに数式を入力します。矢印アイコンを使用してスクリプトエディターを開きます。
batch. idや、バッチが記録された日付、最後に正常に実行されたDataFlowにもとづいて設定されたカーソルを参照できます。

-
カスタマイズされた数式を使用 — [バッチでフィルター] を選択した後に、カスタマイズされた数式を使用してバッチを特定できます。これを行うには、設定パネルで [バッチでフィルター] セクションを展開し、 [データをインポートするタイミング] ドロップダウンを使用して [カスタマイズされた数式] を選択します。
出力タイルでの更新方法
Snowflake上のMagic ETL DataFlowでは置換のほかにも、追加、パーティション、Upsertの3種類の更新方法を利用できます。この記事では各方法について詳しく説明しませんが、 こちら で詳細を確認できます。 設定するには、以下の手順を実行します。-
Magic ETLを開き、 [コンピューティング] ドロップダウンからDataFlowを実行するSnowflake統合を選択します。

- 目的の変換を実現するためのDataFlowを作成します。 Magic ETL DataFlowを作成する方法については、 こちら を参照してください。
-
出力DataSetタイルをキャンバスに追加する際に、設定パネルを使用して、使用する更新方法を選択します。

-
(条件付き)更新方法に応じて、以下に説明するように出力DataSetタイルを設定します。
-
追加 — 列を選択する必要はありません。[追加]は、DataFlowの実行のたびに新しいバッチを出力DataSetに追加します。

- パーティション — パーティションに使用するラベルを含む列名を選択します。このオプションは、名前のついたパーティションを出力DataSetに追加し、同じ名前の既存のパーティションを置き換えます。パーティショニングの詳細については、 こちら を参照してください。
-
追加 — 列を選択する必要はありません。[追加]は、DataFlowの実行のたびに新しいバッチを出力DataSetに追加します。

-
Upsert — DataSet内で固有の行を表す列または列の組み合わせを選択します。このオプションは、出力行を追加または置換し、選択した識別子で重複を排除します。Upsertの詳細については、 こちら を参照してください。
