Jupyter Notebook 是一個互動式的開發環境,可以讓使用者在瀏覽器中建立和共享文件,其中包含程式碼、方程式、視覺化圖表和解釋性文字。它可以用於資料清理和轉換、數值模擬、統計建模、資料視覺化、機器學習等多種資料科學領域的任務。
在本篇文章中,我們將詳細介紹 Jupyter Notebook 的使用說明,包括如何安裝和配置 Jupyter Notebook、如何建立和執行 Notebook、如何分享 Notebook 以及如何使用 Notebook 進行資料分析等。
安裝和配置 Jupyter Notebook#
在開始使用 Jupyter Notebook 之前,需要先安裝它。Jupyter Notebook 可以通過 conda 或 pip 安裝,具體步驟如下:
- 打開終端(Windows 使用者可以打開 Anaconda Prompt)。
- 輸入以下命令:
conda install jupyter
或pip install jupyter
。 - 等待安裝完成。
安裝完成後,可以通過以下命令啟動 Jupyter Notebook:
jupyter notebook
如果一切正常,會自動打開一個瀏覽器視窗,並顯示 Jupyter Notebook 的主頁面。如果沒有自動打開瀏覽器視窗,可以手動在瀏覽器中輸入http://localhost:8888/tree
來打開主頁面。
在使用 Jupyter Notebook 之前,還需要配置一些參數。可以通過以下命令打開配置文件:
jupyter notebook --generate-config
然後,在配置文件中添加以下內容:
c.NotebookApp.ip = '0.0.0.0'
c.NotebookApp.open_browser = False
c.NotebookApp.port = 8888
這些參數的作用分別是:
c.NotebookApp.ip = '0.0.0.0'
:允許從任何 IP 地址訪問 Notebook。c.NotebookApp.open_browser = False
:啟動 Notebook 時不自動打開瀏覽器視窗。c.NotebookApp.port = 8888
:指定 Notebook 的端口號為 8888。
建立和執行 Notebook#
在 Jupyter Notebook 的主頁面中,可以看到當前目錄下的所有文件和文件夾。要建立一個新的 Notebook,可以點擊右上角的 “New” 按鈕,然後選擇 “Python 3”(如果安裝了其他語言的內核,則可以選擇其他語言)。
建立 Notebook 後,可以在其中輸入程式碼、方程式、文字等內容。要執行程式碼,可以點擊工具欄中的 “Run” 按鈕或按下 “Shift+Enter” 鍵。執行結果會顯示在程式碼塊下方。
在 Notebook 中還可以使用 Markdown 語法編寫文字,並插入圖片、超鏈接等內容。要切換到 Markdown 模式,可以在程式碼塊左側的下拉菜單中選擇 “Markdown”。
分享 Notebook#
Jupyter Notebook 支持多種方式分享 Notebook,包括:
- 匯出為 HTML、PDF 等格式。
- 上傳到 GitHub 或其他程式碼托管平台。
- 使用 nbviewer 在線查看。
要匯出 Notebook 為 HTML 或 PDF 格式,可以在選單欄中選擇 “File”->“Download as”->“HTML/PDF”。
要上傳 Notebook 到 GitHub 或其他程式碼托管平台,可以將 Notebook 儲存為.ipynb 格式,並將其上傳到相應倉庫中。
要使用 nbviewer 在線查看 Notebook,可以將 Notebook 的 URL 複製到 nbviewer 的主頁中,並點擊 “Go” 按鈕。
使用 Notebook 進行資料分析#
Jupyter Notebook 是一個強大的工具,可以用於各種資料分析任務。以下是一些常用的資料分析庫和工具:
- NumPy:用於數值計算和陣列操作。
- Pandas:用於資料清理、轉換和分析。
- Matplotlib:用於資料視覺化。
- Scikit-learn:用於機器學習。
要使用這些庫和工具,需要先安裝它們。可以通過以下命令使用 conda 或 pip 安裝:
conda install numpy pandas matplotlib scikit-learn
或
pip install numpy pandas matplotlib scikit-learn
安裝完成後,在 Notebook 中匯入這些庫即可開始資料分析任務。
例如,以下程式碼演示了如何使用 Pandas 讀取 CSV 文件並進行簡單的資料分析:
import pandas as pd
# 讀取CSV文件
df = pd.read_csv('data.csv')
# 顯示前5行資料
print(df.head())
# 顯示資料統計資訊
print(df.describe())
這段程式碼首先匯入了 Pandas 庫,並使用pd.read_csv()
函式讀取名為data.csv
的 CSV 文件。然後,使用df.head()
函式顯示前 5 行資料,並使用df.describe()
函式顯示資料統計資訊。
總結#
Jupyter Notebook 是一個非常強大的工具,可以用於各種資料科學任務。本文介紹了 Jupyter Notebook 的安裝和配置、建立和執行 Notebook、分享 Notebook 以及使用 Notebook 進行資料分析等方面的內容。希望本文能對您有所幫助。
PS#
第一次接觸 Jupyter Notebook 的時候,就想把公司的 ETL 腳本改成 Jupyter Notebook 的。一直也沒弄。:(