Data Aggregation
概要
前のチャプター(Analyze CSV File (opens in a new tab) )でCity of New Yorkが公開しているAir Quality (opens in a new tab)のデータセットをアップロードし、簡単な分析を行う例を説明しました。
ここでは、その結果物として生成されたPythonセルをテーブルに変換して集計を行う例を示します。
事前準備
事前準備としてAnalyze CSV File (opens in a new tab) で作成したPythonセルを選択して、
- 「+」マーク(Add cell)のボタンからTableを押下して、Pythonの実行結果をテーブルに変換します。
- 「Create Table」のモーダルが表示されるので、ここでは以下のようにテーブルスラグとコメントを入力して「Create」ボタンを押下します。
- ここまででPythonセルの分析結果の実データをテーブルとして保存することができました。
- このテーブルでデータ集計をするため、テーブルのセルを選択した状態で「+」マーク(Add cell)のボタンからSQLを押下してSQLセルを作成します。
データ集計の例
前項の事前準備で作成されたSQLセルを選択した状態で「>_ Open Editor」のボタンを押下すると、以下のような編集画面が表示されます。例としてここではSQLを利用したデータ集計を行います。
アプローチ
「manhattan_air_quality」テーブルにはPythonセルで分析した通り、一年ごとの二酸化窒素(NO2)濃度の平均値が格納されています。これを使用して、さらに具体的なデータ集計を行ってみます。
このセクションでは、年ごとのNO2濃度の変動を評価し、そのトレンドをさらに深く理解するためのクエリを構築します。
SQLセルでのクエリ記述
集計のための基本的な前処理がすでに終わっているので、以下のクエリを編集画面にペーストしてNO2濃度の年次変化(前年比)を計算します。これにより、マンハッタン地域でのNO2の濃度の遷移を集計することができます。
このSQLクエリは、**LAG
**関数を使用して前年のNO2濃度を取得し、現年との差分を計算しています。結果として、年ごとのNO2濃度の増減を確認できます。
クエリの実行
クエリを編集画面にペーストしたら画面右上の「Run」ボタンを押下して実行します。実行結果は編集画面の下部に表形式で表示され、これで各年のNO2濃度、前年の濃度、および年次変化を列挙することができました。
終わりに
ここまでで、Morphプラットフォームを使用したデータの集計と分析方法を紹介しました。さらにMorphを活用することで、データを分析し、視覚化し、共有し、最終的にはこれらのデータから洞察を抽出し、ビジネスや研究に応用することができます。