データ可視化のためのプラットフォームの基礎: jupyterlab

データの可視化は、データを様々な角度から確認し、データ自体を理解する目的で行われることが多い印象です。探索的データ分析(EDA)と呼ばれることもあります。このような背景から、データ可視化にあたっては、あらかじめ仕様を設定してソースコードを書いていくソフトウェア開発と比較して、柔軟なプラットフォームが求められます。このようなプラットフォームとして、Jupyterlabがよく使われていると思います。

ここでは、jupyterlabの環境構築の一例とjupyterlabの使い方の基礎をまとめます。

jupyterlab

jupyterlabは、pythonの他、Rやjuliaなど各種のプログラミング言語のインタラクティブな実行環境です。ソースコードと実行結果、また、ドキュメント(Markdownをサポート)を一つのnotebookという単位でまとめることが特徴です。

データ分析では、仮説に基づいてデータを色々な角度から確認することが多いですが(探索的データ分析)、その際にjupyterlabのインタラクティブな実行環境が役に立ちます。また、notebook単位で実験結果をまとめるなどすることで、実験の管理や関係者への情報共有に有効です。

jupyterlabについての詳細は、公式ドキュメントを参照してください。

https://jupyterlab.readthedocs.io/en/stable/

jupyterlabの導入

様々な形態

jupyterlabの実行形式として有名なものに下記のものがあります。

提供形態概要環境構築難易度
Jupyterlab各自の環境に実行環境を構築する。もっともメジャーでカスタマイズの自由もあるが、python環境の構築と管理など多少難易度が高い。
公式ドキュメントで環境構築手順が紹介されている。
jupyterlab-desktopjupyterlabのデスクトップアプリ。公式のGithubリポジトリでインストールイメージが提供されており、基本的には通常のアプリと同じ手順(インストールイメージのダブルクリック)でインストールが可能。○(インストーラのダブルクリック)
Google colab正確にはjupyterlabではないが、Googleが提供するWebサービス。jupyterlabとインターフェースが共通で、同じnotebookが実行可能。
環境構築の手間がなく、notebookの共有なども容易なので、初学者はまずこちらを利用するのが良い。(Google colabの利用で基本的な使い方としては十分と思われる。)
https://colab.research.google.com/?hl=ja
◎(環境構築不要)

インストール: jupyterlab

ここではjupyterlabをローカルに導入する手順について簡単に紹介します。詳細はインストール手順は公式ドキュメントに記載されているのでそちらを参照してください。

前提

python実行環境が構築されていることを前提とします。

ここでは、pipを利用したインストール手順のみを紹介します。Anacondaなどを使った導入手順は公式ドキュメントに記載されているので、そちらを参照ください。(基本的にはあまり変わりません)

インストール

下記の通りpipコマンドでインストールできます。

> pip install jupyterlab

他にも、Dockerが使える場合には、jupyterlabが提供するjupyter/datascience-notebookを利用するとインストールの手間がなく導入できます。

起動

ローカルな環境で利用する場合には、下記のコマンドでサーバが起動します。

> jupyter lab

正常に立ち上がると、自動でWebブラウザが開き、Jupyterlabのスタート画面が表示されます。

Webブラウザが自動で立ち上がらない場合には、下記のようなURLで接続できます(接続先のアドレス、ポート番号を変更した場合は変更した値を指定)。

http://localhost:8888

利用の環境によっては、Jupyterlabの接続ポートを指定したい場合などがあると思います。その時には、起動オプションで --port パラメータを設定します。

> jupyter lab --port 58888

上記のように起動することで、接続先ポートは58888になります。

jupyterlab基本操作

画面構成

左サイドバーには、現在いるフォルダのファイル構成が表示されています。フォルダをダブルクリックするとさらに下の階層に遷移出来ます。

中央にはランチャー(Launcher)が表示されています。notebookの作成などはランチャーから行います。

notebookの作成

ランチャーが表示されている状態で、「Notebook」>「Python3」をクリックするとPythonのnotebookが作成されます(下記)。

notebookは「セル」という単位を基本にしており、このセルにコードやドキュメントを記入していきます。実行はセル単位で行うので、ひとまとまりの処理を一つのセルに書いていくのが良いと思います。

コード実行

コードの実行は、上部メニューの「▷」ボタンを押すか、Ctrlキーを押しながらEnterキーを押すことで、セルに記載のコードが実行されます。

実行結果として、print文など標準出力への出力はセルの下部に表示されます。また、matplotlibなどでのplotもセルの下部に表示されます。

notebookはコードだけでなく、ドキュメントも記述可能です。上図のように、セル単位でMarkdownタイプのセルにすることで、ドキュメントを記述することが出来ます。

出力(共有)

notebookは、ipynbというファイル形式(拡張子)です。実態はテキストファイルです。

このファイル自体を他者と共有することも可能ですが、レポートとして利用したい場合などでは、HTML形式に変換してダウンロードすることも可能です。

まとめ

参考

「データ可視化のためのプラットフォームの基礎: jupyterlab」への1件の返信

コメントは受け付けていません。