先週のブログでは、現在ベータ版で5月13日にリリース予定のNavicat 17 (英語版)のリリースをお知らせしました。前回見たとおり、バージョン 17では多くの魅力的な新機能が導入されています。その最大の機能の1つがデータプロファイリングツールです。ボタンをクリックするだけで、データを視覚的に包括的に表示できます。今日のブログでは、このツールを使って、無料の PostgreSQLの "dvdrental"サンプルデータベース のrentalテーブルに関する簡単な統計情報を取得します。
データプロファイリングツールの起動
冒頭で述べたように、データプロファイリングツールを使用するためには、ボタンをクリックするだけです。このツールは、任意のテーブル、ビュー、またはクエリ結果のツールバーにあります(以下で赤で強調表示されています):

そこから、全てのレコードをプロファイリングするか(デフォルト)、または、フィルターを追加して特定の条件に一致する行のみをプロファイリングするかを選択できます:

レコードのフィルタリング
レコード数が多いデータセットの場合、データのサブセットに焦点を絞ると便利なことがよくあります。そこで、“フィルターを追加”オプションが役立ちます。このオプションを使用すると、使い慣れた“フィルターとソート“機能を使用してフィルター(およびソート) を追加できます。レンタル日が2006年前半のrentalテーブルのレコードのみをプロファイルするとします。必要なのは、rental_date列に、2006年1月1日00:00:00AMから2006年6月30日11:59:59PMまでの値を持つ行を選択するフィルターを追加することだけです。組み込みの日付と時刻の選択機能により、日付と時刻の選択は簡単です。

“フィルターとソート“ツールにはないデータプロファイラーの機能の1つは、レコードを特定の数(例えば1,000個)に制限する機能です:

プロファイリング結果の表示
条件を編集した後で“プロファイリングを開始”または“データ設定を適用”ボタンをクリックすると、選択したフィルタリング条件に一致する行に対してプロファイラーが実行されます。
列ヘッダーをクリックすると、そのフィールドの統計が表示されます。これらは、列名の下とグリッドの下の2か所に表示されます。
表示される統計には、Nullと非Nullの割合、および異なる一意の値の数が含まれます。値の分布チャートもあります。全ての値を表示するためには、列幅を広げるか、画面下部の“カラムの統計情報”の“値の分布”チャートの下部にあるスクロールバーを使用します:

レイアウトの変更
データの表示方法を変更するオプションがいくつかあります。例えば、分布をカウントまたは値で表示できます:

また、コンパクトレイアウトまたは詳細レイアウトを選択することもできます(詳細がデフォルトです)。コンパクトレイアウトのrentalテーブルヘッダーは次のとおりです:

より具体的に
分布チャートの各バーは、基になるテーブル、ビュー、またはクエリ内の実際のレコードを表します。カーソルをその上に移動すると、詳細を確認できます。ポップアップボックスには、値と、データセット内での出現回数、および、全てのレコード全体における割合が表示されます:

さらに、バーをクリックすると、そのレコードがスポットライトされ、グリッド内のその行に焦点が当てられ、その値に関連する統計が表示されます:

バーをもう一度クリックすると、スポットライトは消えます。
また、上の画像では、“カラムの統計情報”セクションで利用可能な統計情報の全範囲を見ることができます。繰り返された値の数、最小値と最大値など、追加の数値が含まれています。
まとめ
今日のブログでは、Navicat 17の新しいデータプロファイリングツールを使って、無料の "dvdrental"サンプルデータベース のrentalテーブルで簡単な統計情報を取得することで、このツールに慣れることができました。
5月13日以降に、Navicat Premium製品ページ にアクセスして、バージョン17の詳細を是非確認してください。