はじめに
「再帰的」または「スナップショット」DataFlowは、それ自身を入力として使用するDataFlowです。
DataFlow(SQLとMagic ETLの両方)は、コネクターのようにネイティブにデータを追加できません。ただし、データを追加するDataFlowを作成する必要がある場合は、それを一度実行し、その出力を次の実行のための入力の一部として使用することで可能になります。このようにすると、DataFlowが実行されるたびに、その前のデータが追加され、新しいデータもそれ自身に追加されます。
重要: Magic ETLの動作が大幅に変更されました。ミッションクリティカルなMagic ETL DataFlowを変換する際は、事前に「 Magic ETLの動作変更と機能のアップデート 」をお読みください。 これをお読みいただくと、DataFlowで想定外の動作が生じた場合に備えることができます。
動画 - 再帰的DataFlowとは?
重要: 再帰的DataFlowの編集に誤りがあると、これまでのデータがすべて失われることがあります。編集中にこれを回避するには、履歴DataSetのコピーである追加のDataSetを作成してください。コピーしたDataSetはそのまま保持されます。これまでのDataSetに何らかの問題が発生した場合に、編集前にコピーしたDataSetをバックアップとして使用できます。
Magic ETLで再帰的DataFlowを作成するには:
-
Magic ETL DataFlowを作成し、実行します。
-
DataFlowを実行したら、出力DataSetを入力DataSetとして読み込みます。
出力タイルには出力DataSetの名前の後に「1」が表示されます。
DataFlowに2つのDataSet(更新元のDataSetと履歴DataSet)がなければなりません。
次に、制約として使用する列を見つけます。これは、いつ履歴DataSetの中のデータを新しいデータに置換するかを決定する際に役に立ちます。制約列は通常、ID列または日付列、またはほかの一意の識別子です。この例では、「日付」列を制約として使用します。
-
[列を選択] を使用して、制約列のみを選択します。
-
[重複を削除] を使用して、制約の一意のリストを返します。
-
Outer Joinを使って新しいデータを履歴DataSetに結合します。Joinの左側にある履歴DataSetを選択した場合、下に示すように Left Outer Joinを使用します。Joinの右側にある履歴DataSetを選択した場合は、 Right Outer Joinを使用します(データが失われる可能性があるので、 Inner Join は選択しません)。日付列の名前が同じであれば、ステップ3で警告が表示されます。Left Outer Joinを行っている場合は、自動で右のテーブルを修正できます。Right Outer Joinを行っている場合は、自動で左のテーブルを修正できます。これにより競合する列が変更セクションに追加されます。保持したい場合は列の名前を変更し、そうでなければすべてを削除します。この場合、次のステップで[NULL値でなければ削除]に名前を変更します。
-
新しい日付列がNULL値でないDataSetから任意の行をフィルターします。
これは、新しい更新DataSetの中に存在しない、履歴DataSetからの行のみを返します。フィルタールールを追加するか、下の例のようにスクリプトルールを追加します。
フィルタールールを追加:
スクリプトルールを追加:
-
[列を選択] を使用して、余分な日付列を削除します。
-
[追加] を使用して、履歴DataSetと新しい更新DataSetをJoinします。すべてのステップが正しく実行されている場合、DataSetは両方とも「変更なし」を表示します。
結合する列間でデータタイプが一致しない場合、データの処理方法を必ず選択してください。このオプションの詳細については、「 Magic ETLの動作変更と機能のアップデート 」の「行を追加(Union)」セクションを参照してください。
-
[追加] タイルを出力に接続します。完了すると、ETLは以下のようになります。
トラブルシューティング/よくある質問
DataFlowの構築時に見られる一般的な問題とエラーについては、「 DataFlowの使用時にユーザーが最も経験する5つの問題 」を参照してください。
日本語