データプレパレーションツールでデータ活用の前処理を改善しよう

  • このエントリーをはてなブックマークに追加

デジタルマーケティングにおいて、データを活用した分析やその結果を元にした施策は必須の作業になってきました。セルフ型BIツールやAIツールも様々なものが世に登場し、データ活用しやすい状況が整いつつあります。しかし、データを存分に活用するには、下準備が非常に重要です。

この記事では、データ活用の前処理を効率化するデータプレパレーションを解説。活用のポイントに加え、ツールの一例としてデータドック社が提供するデータプレパレーションツール『データプレップ』を紹介します。

データプレパレーション(データの加工・整形)を行う方法

持っているデータをそのままでは使いにくいというケースは多々あります。では、今まではそうした課題をどのように解決していたのでしょうか?

エクセルでVLOOKUPなどを用いたデータプレパレーション方法

ビジネスユーザで比較的容易にできるのがエクセルを使う方法です。
しかし、変換しないといけないカラムが多ければ、定義ファイルを大量に作る必要がでてきますし、データ量が多いとエクセルの限界やPCスペックの限界にあたりスムーズな作業が難しくなります。また、マクロで処理することである程度の自動化が可能ですが、そのマクロを組んだメンバーの異動や退職によって、処理フローがブラックボックス化するという問題が発生します。そのような場合は、処理フローを少し変えたいだけでも1から作り直しが必要になります。

データ処理や統計に強い開発言語(SQLやPythonなど)を使うデータプレパレーション方法

エンジニアであれば、SQLやPythonなどのプログラミング言語を使ってデータ処理する方法もあります。統計やデータ処理シーンで使われるプログラミング言語を書けるエンジニアにとっては簡単かもしれませんが、ビジネスユーザでこうした言語を使いこなせる人はほとんどいないという課題があり、ビジネス現場ではなかなか定着させにくい方法です。

ETLツールを活用したデータプレパレーション方法

基幹システムと他システムとの連携開発などを行う際に使われたのがETLです(ETLは「Extract(抽出)」「Transform (変換、加工)」「Load (書き出し)」の略)。ETLツールにはコーディング(プログラム言語を使って記述すること)が必要なものと、ノンコーディング(プログラミング不要)で使えるものがあり、ノンコーディングのほうが簡単ではあります。コーディングが必要な場合、やはりプログラミング言語の記述ができることが必須です。また、多くのノンコーディング型ETLツールではデータの加工手順をフローチャートのようにGUIベースで記述する必要があります。フローチャートを記述するには、どのデータにどのような内容がどのように入っているかを事前に把握する必要があり、加工するすべてのデータの中身に精通している必要があります。

データプレパレーションが大変な理由とは?

データを加工・整形してBIやAIに投入するためのデータを作成するデータプレパレーションですが、場合によっては非常に面倒な作業が発生します。その理由をいくつか例示します。ご自身がお持ちのデータにもこんな課題がないでしょうか?

カラム名が統一されていない

データが2つあり、それをマージしたいとします。片方には「年齢」というカラムがあり、別のデータでは同じ内容が入っているにカラム名が「歳」になっているケースです。このような場合、どちらにも年齢のデータが入っているが、カラム名が違うので、カラム名をキーにして紐付けすることができません。

カラム内の値の記載ルールが違う

前述と同様、年齢のフィールドを例に説明します。一方のデータに25歳、32歳、47歳など、実際の年齢が入っていて、もう一方のデータは20代、30代、40代と年代で記載されている場合は、そのままでは統合できません。

複数に分かれている一続きの値

住所を記載しているカラムによくある例ですが、あるデータでは「東京都千代田区神田神保町1-105」のように1カラムにすべて記載、別のデータでは「東京都」「千代田区」「神田神保町」という具合に、都道府県・市区町村などでカラムが分割されている場合も、統合するのにはひと手間が必要です。

データがまとまっていない

ECサイトの注文データの場合、顧客ID(=注文者)はひとつでも、その顧客が複数回買い物をしたり、いくつもの商品を購入したりしていると、注文レコードはすべて分割されているケースがあります。顧客IDごとで最終購入日を抜き出したり、注文回数を数値化したり、合計購入金額をひとまとめにしたりと、RFM分析の元になるデータを作るのは非常に骨の折れる作業となります。

データプレパレーションはデータ活用の80%を占めるという事実

社内の様々なデータをビジュアルで可視化し、現状を把握したり、課題抽出に使われるツールがBI(Business Intelligence)、データを見て将来を予測し、確率を導き出したりするAI(Artificial Intelligence)・マシンラーニング。どちらも有効活用することで、ビジネスにおける生産性向上と意思決定スピードUPにつながるといわれています。
こうした状況下でセルフ型BI、AIツールが次々に登場し、活用も広がりを見せています。こうしたツールは、使い方さえ覚えてしまえば、一般のビジネスユーザでも比較的容易に活用することができます。
しかし、BIやAIを活用するためには、ツールに投入するデータをきれいに加工・整形する必要があります。その作業が『データプレパレーション』です。ある調査によるとデータサイエンティストの80%業務はデータ準備(データプレパレーション)であると言われており、場合によっては非常に面倒な作業になることがあり、その理由は前章に記載した通りです。

第1章で紹介した三つの方法のうち、「データ処理や統計に強い開発言語(SQLやPythonなど)を使うデータプレパレーション方法」と「ETLツールを活用したデータプレパレーション方法」はどちらもエンジニアのためのデータプレパレーション手法と言えます。しかし、昨今盛り上がっているBIやAIを活用するのは主にビジネスユーザ部門です。経営企画やマーケティング部門、営業部門が自社に蓄積されたデータを活用して、戦略立案や課題抽出、意思決定の補助を行うために活用しているケースがほとんどです。しかし、こうしたビジネス部門にはSQLやPythonなどの開発言語を理解できたりETLツールに精通できたりするエンジニア寄りの人材はほとんどいないのが現実でしょう。こうした状況でBIやAIを活用するためには、常にビジネス部門から情報システム部門へデータ抽出を依頼し、システム部門が分析用データの元を作成するというやりとりが発生します。より迅速にビジネスのPDCAを回すためには、即座に必要なデータを取り出し、活用できる環境を作らなくてはいけません。

そのために必要になるのがビジネス現場で使えるデータプレパレーションツールなのです。

『データプレップ』データドックのデータプレパレーションツールとは

株式会社データドックでは、2020年3月にSaaS型のデータプレパレーションツール『データプレップ』をリリースしました。

以下の観点で、観点でサービス開発を行っています。
・ビジネスユーザ操作が簡単でビジネスユーザでも活用できる」
・加工・変換をしたら元データがどう変わるのか、確認しながら作業ができる」
・加工手順が可視化され、処理内容をきちんと把握できる」
・過去に作成した加工ルールを再利用し、同じ形式のデータを再度活用する際の効率が激的に改善する」
・ユーザカウント毎にデータへのアクセス権や編集権などのルール設定が細かく柔軟」
・SaaS型のため月額利用料で使用できるため、大きな初期投資が不要」

主な機能を、画面を見ながら紹介します。

データをインポートする

「ライブラリ」画面でデータインポートを行います。
※CSV、XLS、JSON、XMLなど複数のファイル形式に対応。
※他システムと連携させるためのAPIコネクターやドライバーも提供しています。

カラム内に入っているデータを確認する

各カラムが文字列形式なのか、数値形式なのか、時間形式なのかはカラム名のところに「A-Z」「123」などと記載されており、非常にわかりやすく表示されています。また、各カラム内に同じ値がどのくらい入っているかなども簡単に確認できますし、数値形式のデータが入っているカラムの最大値と最小値なども把握できます。さらに、データ加工を行う際によくはまるカラム内の値の中にスペースが入っているというエラーがありますが、それもワンクリックで確認できます。

カラムごとのデータの加工(1)スペースの削除

エラーのもとになる不要な空白(全角/半角スペース)を削除します。値の最初や最後についている場合は、前後の空白を削除、文字列内にスペースがあれば置換機能を使って不要なスペースを削除できます。

 カラムごとのデータの加工(2)データの分割

ひとつのカラムに複数の値が入っている場合、そのままだと活用しにくいですよね。アンケートの複数回答などがそれにあたりますが、識別子が特定できる形(「、」「_」など)で複数の情報が入っている場合は、その識別子をキーにして簡単にデータ分割可能です。

 カラムごとのデータの加工(3)日本語表記揺れの改修

日本ならではの問題かもしれませんが、社名がテキスト形式で入っているカラムでは、株式会社、(株)、㈱、記載なしなど法人格の表記揺れや、漢字とひらがな標記の混在などの表記揺れが発生していることが少なくありません。マスターデータとして正規表現ファイルなどがあればそれを参照させて表記を統一することももちろん可能ですが、データプレップには日本語で表記された値をクラスタリングする機能があります。この機能を使うことで概ねの社名表記揺れは回収できますので、SFA、MA、CRMなどとのデータ連携時に有効です。

データのルックアップ(横に結合)

元データに対して、データをルックアップ(横に追加・付与)するには、通常2つのデータにそれぞれ入っている同一のカラム名をキーにします。データプレップではもちろんそのやり方もできますが、カラム名が一致しなくても、キーになるカラムをシステムがデータの中身を見ながら探してくれる機能があります。さらに、1カラム対2カラム、Nカラム:Nカラムなど複数のカラムをつなげてみることでキーになる軸を探し出すことも可能です。結合させる際にも、全データを残す、元データは全部残し、つないだデータは結合させられるものだけ残すなど、1クリックでデータ結合ルールも選択できます。

 データの追加(縦に結合)

同じ形式(カラム名・並び順)のデータであれば、簡単に縦に結合することが可能です。しかし、上記の作業(データ加工・ルックアップ)を先に行った場合、縦に結合しようとしても、元データに対して行った処理が新しく追加するデータには適用されず、空白カラムや加工処理前のデータが結合されてしまいます。他のプレパレーション方法では追加しようとするデータに対しても同じ処理を行った後でなければ結合処理を行えませんが、本ツールではいったん無視して結合します。

プレパレーションの処理順番を入れ替える

「ステップ」コマンドを開くと、今まで行った処理がすべて表示されます。データプレップではその処理手順を編集機能で入れ替えることができます。縦に結合したデータを最初に実施したように順番を入れ替えることで、データ加工やルックアップした処理が後から追加したデータにも適用させます。

 

まとめ

データプレップは様々なデータ加工・変換処理をGUIベースで行える便利なツールです。さらに、その処理をしたら値がどう変化するかを画面で確認しながらデータ加工行えます。実データの変換前・返還後を確認し乍ら作業を進められるプレパレーションツールは非常に数少ないです。

こうしたデータプレパレーション専用ツールを使うことで、データ活用をさらに進め、ビジネススピードアップに貢献したいと考えています。

 

  • このエントリーをはてなブックマークに追加