Workbench eksplorasi data di Dataplex (Explore) memungkinkan Anda mengkueri data yang diatur sepenuhnya secara interaktif dengan akses sekali klik ke skrip Spark SQL dan notebook Jupyter. Explore memungkinkan Anda berkolaborasi lintas tim dengan fitur publikasi, berbagi, dan penelusuran bawaan aset coding.
Pelajari penyediaan, penskalaan, dan pengelolaan infrastruktur serverless yang diperlukan untuk menjalankan skrip dan notebook Spark SQL Anda menggunakan kredensial pengguna. Anda dapat mengoperasionalkan pekerjaan dengan penjadwalan serverless dari workbench.
Dokumen ini menjelaskan cara menggunakan fitur Jelajah di Dataplex.
Biaya
Dataplex menawarkan Explore di tingkat pemrosesan premium.
Terminologi
Dokumen ini menggunakan istilah berikut:
Lingkungan
Lingkungan menyediakan resource komputasi serverless agar kueri dan notebook Spark SQL Anda dapat dijalankan di dalam lake. Administrator Dataplex membuat dan mengelola lingkungan.
Administrator dapat mengizinkan satu atau beberapa pengguna untuk menjalankan kueri dan notebook di lingkungan yang dikonfigurasi dengan memberi mereka peran Developer atau izin IAM terkait.
Sesi
Saat pengguna yang diberi otorisasi memilih lingkungan untuk menjalankan kueri dan notebook mereka, Dataplex akan menggunakan konfigurasi lingkungan yang ditentukan untuk membuat sesi aktif spesifik pengguna. Bergantung pada konfigurasi lingkungan, jika sesi tidak digunakan, sesi akan otomatis dihentikan.
Perlu waktu beberapa menit untuk memulai sesi baru per pengguna. Setelah sesi dimulai, kueri dan notebook berikutnya akan dijalankan untuk pengguna yang sama. Sesi aktif selama maksimum 10 jam.
Untuk lingkungan, Dataplex hanya membuat satu sesi per pengguna, yang digunakan bersama oleh skrip SQL Spark dan notebook Jupyter.
Dataplex menggunakan kredensial pengguna dalam sesi untuk menjalankan operasi, seperti membuat kueri data dari Cloud Storage dan BigQuery.
Node
Node menentukan kapasitas komputasi dalam konfigurasi lingkungan. Satu node dipetakan ke 4 Data Compute Unit (DCU), yang setara dengan 4 vCPU dan RAM 16 GB.
Lingkungan default
Anda dapat membuat satu lingkungan default per lake dengan ID default
.
Lingkungan default harus menggunakan konfigurasi default. Konfigurasi default
terdiri dari hal berikut:
- Kapasitas komputasi satu node
- Ukuran disk utama 100 GB
- Penonaktifan sesi otomatis (waktu penonaktifan otomatis) disetel ke waktu tidak ada aktivitas selama 10 menit
- Parameter
sessionSpec.enableFastStartup
yang ditetapkan secara default ketrue
. Jika parameter ini ditetapkan ketrue
, Dataplex akan menyediakan sesi untuk lingkungan ini terlebih dahulu sehingga sesi tersebut siap tersedia, sehingga mengurangi waktu startup sesi awal. - Sesi startup cepat adalah sesi node tunggal, yang dikenai biaya Dataplex dengan tarif SKU Pemrosesan Premium yang mirip dengan sesi reguler. Maksimum satu sesi selalu aktif tersedia untuk startup cepat, yang akan menimbulkan biaya bahkan saat tidak digunakan. Dataplex membuat sesi yang telah dibuat ini tetap aktif selama 10 jam, mematikannya, lalu membuat sesi baru.
Jika Anda tidak memilih lingkungan secara eksplisit dan jika Anda telah menyiapkan lingkungan default sebelumnya, Dataplex akan menggunakan lingkungan default untuk membuat sesi.
Skrip SQL
Skrip SQL adalah skrip SQL Spark yang disimpan sebagai konten di dalam Dataplex lake. Anda dapat menyimpan skrip di dalam {i> lake<i} dan membagikannya dengan akun utama lainnya. Selain itu, Anda juga dapat menjadwalkannya untuk dijalankan sebagai tugas Spark serverless di Dataplex. Dataplex memungkinkan akses Spark SQL siap pakai ke tabel yang dipetakan ke data di Cloud Storage dan BigQuery.
Notebook
Notebook Python 3 adalah notebook Jupyter yang Anda simpan sebagai konten di dataplex lake. Anda dapat menyimpan notebook sebagai konten dalam lake dan membagikannya kepada akun utama lain, atau menjadwalkannya untuk dijalankan sebagai tugas batch Dataproc Serverless Spark di Dataplex.
Untuk data di BigQuery, Anda dapat mengakses tabel BigQuery langsung melalui Spark tanpa menggunakan perintah ajaib %%bigquery
.
Sebelum memulai
Sebelum memulai, tautkan lake Anda ke Dataproc Metastore dan berikan peran yang diperlukan.
Menautkan lake Anda ke Dataproc Metastore (DPMS)
Untuk menggunakan fitur Jelajahi, lakukan hal berikut:
- Kaitkan instance Metastore Dataproc (DPMS) yang didukung gRPC di versi 3.1.2 atau yang lebih baru dengan lake Dataplex.
- Pastikan Anda memiliki Metastore Dataproc dan lingkungan yang dipetakan ke lake Anda.
Pelajari cara menyiapkan Metastore Dataproc dengan Dataplex untuk mengakses metadata di Spark.
Peran yang diperlukan
Bergantung pada tindakan yang ingin dilakukan, Anda memerlukan semua peran IAM berikut. Semua lingkungan di lake mewarisi izin yang diberikan di tingkat lake.
- Dataplex Viewer
- Developer Dataplex
- Pembaca Metadata Dataplex
- Pembaca Data Dataplex
Peran tambahan:
Logging
Untuk memahami penggunaan Explore, lihat dokumen berikut:
Batasan umum
Bagian ini menjelaskan batasan umum untuk Eksplorasi.
Penjelajahan tersedia untuk danau di wilayah berikut:
asia-northeast1
asia-southeast1
europe-west1
europe-west2
us-central1
us-east1
us-west1
Anda dapat menggunakan hingga 10 lingkungan per region dalam sebuah project. Untuk mengetahui informasi tentang cara meningkatkan batas kuota, lihat Bekerja dengan kuota.
Anda dapat membuat lingkungan dengan maksimum 150 node. Durasi sesi untuk setiap sesi pengguna dibatasi hingga 10 jam.
Skrip SQL Spark hanya dapat membuat kueri data dalam lake tertentu. Jika ingin membuat kueri data di lake yang berbeda, Anda harus beralih ke lake tersebut dan memilih lingkungan dalam lake tersebut.
Setelah Anda membatalkan penghapusan project, Dataplex tidak akan memulihkan resource konten, seperti skrip SQL atau notebook. Lanjutkan dengan hati-hati saat menghapus project dengan resource konten Jelajahi.
Saat menjadwalkan notebook, jika lingkungan memiliki paket kustom, Anda dapat menjadwalkan notebook hanya menggunakan gcloud CLI. Untuk mengetahui informasi selengkapnya, lihat Menjadwalkan notebook dengan paket kustom.
Jika menghapus lingkungan sebelum menghapus skrip dan notebook, Anda tidak dapat mengakses halaman Eksplorasi. Oleh karena itu, pastikan Anda menghapus skrip dan notebook sebelum menghapus lingkungan di Explore.
Sesi penjelajahan tidak mendukung Hadoop Distributed File Systems (HDFS). Jangan simpan data pengguna apa pun di sesi Eksplorasi karena data tersebut akan dihapus saat sesi berakhir.
Batas ukuran maksimum untuk notebook atau skrip SQL adalah 1 MB.
Membuat lingkungan
Di konsol Google Cloud, buka halaman Manage Lakes Dataplex.
Pilih lake Dataplex yang lingkungannya ingin Anda buat.
Klik tab Lingkungan.
Klik Create environment.
Di kolom Nama tampilan, masukkan nama untuk lingkungan Anda.
Di bagian Environment ID, masukkan ID unik.
Opsional: Masukkan deskripsi untuk lingkungan baru.
Di panel Configure compute, tentukan hal berikut:
- Jumlah node: Jumlah node yang akan disediakan untuk sesi pengguna yang dibuat untuk lingkungan ini.
- Jumlah maksimum node: Jumlah maksimum node yang dapat diskalakan secara otomatis oleh Dataplex dalam sesi pengguna yang terkait dengan lingkungan ini.
- Primary disk size: Jumlah ukuran disk yang terkait dengan setiap node yang disediakan.
- Waktu penonaktifan otomatis: Waktu tidak ada aktivitas setelah Dataplex otomatis menghentikan sesi pengguna yang terkait dengan lingkungan ini. Anda dapat menetapkan durasi minimum 10 menit dan maksimum 60 menit.
Di panel Paket software (opsional), Anda dapat menentukan paket Python, file JAR, dan properti Spark tambahan yang akan diinstal pada sesi pengguna yang disediakan untuk lingkungan ini.
Saat Anda membuat lingkungan dan menyediakan jalur Cloud Storage untuk paket JAR Java atau Python, agar Dataplex dapat menginstal JAR atau paket, pastikan bahwa Cloud Dataplex Service Agent memiliki izin yang diperlukan untuk mengakses file Cloud Storage.
Klik Create.
Notes
Sebuah node memetakan ke 4 Data Compute Unit (DCU), yang setara dengan 4 vCPU dan RAM 16 GB.
Anda dapat membuat lingkungan dengan satu node, atau dengan tiga node atau lebih.
Jika Anda adalah administrator lake, Anda dapat menyiapkan lingkungan terlebih dahulu, sehingga pengguna dapat menjalankan beban kerja menggunakan konfigurasi yang telah ditentukan sebelumnya.
Meskipun lingkungan dapat dibagikan kepada beberapa pengguna, Dataplex akan membuat sesi terpisah per pengguna menggunakan konfigurasi lingkungan.
Membuat lingkungan default
Lihat persyaratan konfigurasi untuk lingkungan default.
Konsol
Membuka Dataplex di konsol Google Cloud.
Buka tampilan Manage.
Pilih danau Dataplex.
Klik tab Lingkungan.
Klik Create default environment.
gcloud
Untuk membuat lingkungan default dengan startup cepat diaktifkan, jalankan perintah berikut:
gcloud dataplex environments create default --project=PROJECT_ID --lake=LAKE_ID --location=REGION--os-image-version=latest --session-enable-fast-startup
Menjelajahi data menggunakan workbench Spark SQL
Untuk menjelajahi data BigQuery dan Cloud Storage, gunakan skrip SQL Spark.
Membuat dan menyimpan skrip
Di konsol Google Cloud, buka halaman Explore Dataplex.
Di tampilan Explore, pilih data lake yang berisi aset data yang ingin Anda eksplorasi.
Di browser resource, luaskan danau. Tindakan ini akan menampilkan folder berikut:
- Data: Berisi semua database dan tabel dalam instance DPMS yang terhubung ke danau Anda, termasuk tabel danau Hudi, Iceberg, dan Delta.
- Notebook: Berisi semua notebook yang dibuat di lake yang dipilih.
- Skrip SQL Spark: Berisi semua skrip Spark SQL yang dibuat di lake yang dipilih.
Luaskan Data, lalu pilih database dan tabel yang diperlukan.
Untuk menggunakan contoh kueri, klik QUERY. Workbench Spark SQL secara otomatis mengisi tab baru dengan contoh kueri.
Untuk membuat skrip baru, di Spark SQL Editor, klik New script, lalu masukkan kueri Anda.
Untuk menyimpan skrip, pilih Simpan > Simpan skrip.
Menjalankan skrip
Di Spark SQL Editor, klik tab dengan kueri yang ingin dijalankan.
Klik Pilih lingkungan. Pilih lingkungan tempat Anda ingin menjalankan kueri. Jika Anda tidak memilih lingkungan, Dataplex akan menggunakan lingkungan default untuk membuat sesi per pengguna.
Anda dapat menjalankan beberapa kueri Spark SQL dalam skrip yang sama dengan memisahkan kueri menggunakan titik koma.
Klik Run.
Lihat hasil Query history untuk setiap kueri dalam skrip menggunakan menu drop-down.
Menjadwalkan skrip
Anda dapat menjadwalkan skrip untuk dijalankan sebagai Tugas Dataplex. Untuk informasi selengkapnya, lihat Membuat dan mengelola jadwal untuk skrip SQL.
Berbagi skrip
Anda dapat berbagi skrip dengan orang lain dalam organisasi menggunakan izin IAM:
Di tampilan Explore, klik skrip SQL Spark yang ingin Anda bagikan.
Di menu Lainnya, klik Bagikan.
Tinjau izin. Tambahkan atau hapus izin pelihat, editor, dan administrator untuk skrip yang dibagikan.
Setelah Anda membagikan skrip, pengguna yang memiliki izin lihat atau edit di tingkat lake dapat menavigasi ke danau dan mengerjakan skrip bersama.
Mempelajari data BigQuery dan Cloud Storage menggunakan Spark SQL
Untuk set data BigQuery yang ditambahkan sebagai aset ke suatu zona, Dataplex memungkinkan akses langsung Spark SQL ke semua tabel dalam set data tersebut. Anda dapat membuat kueri data di Dataplex menggunakan skrip atau notebook Spark SQL. Contoh:
select * from ZONE_ID.TABLE_ID
Jika aset Anda dipetakan ke bucket Cloud Storage di zona yang sama, Dataplex akan menyediakan daftar tabel terpadu yang dapat dibuat kuerinya menggunakan Spark.
Mengeksplorasi data menggunakan notebook
Bagian ini menjelaskan cara membuat, menjadwalkan, membagikan, mengimpor, dan mengekspor notebook.
Membuat dan menyimpan notebook
Di konsol Google Cloud, buka halaman Explore Dataplex.
Di tampilan Jelajahi, pilih danau.
Luaskan danau, lalu klik folder Notebooks.
Klik Notebook baru.
Di kolom Jalur notebook, berikan nama notebook.
Opsional: Di kolom Description, berikan deskripsi untuk notebook baru.
Opsional: Tambahkan label.
Klik Create notebook. Notebook telah dibuat.
Untuk membuka notebook yang dibuat, klik Buka notebook.
Pilih lingkungan tempat Anda ingin Dataplex membuat sesi pengguna saat membuat atau membuka notebook. Pastikan Anda memilih lingkungan dengan paket yang Anda percayai.
Jika Anda tidak memilih lingkungan, Dataplex akan menggunakan lingkungan default. Jika Anda tidak memiliki lingkungan, buat lingkungan. Untuk mengetahui informasi selengkapnya, lihat Membuat lingkungan.
Anda kini dapat menjelajahi data dengan menulis kode Python dan menyimpan notebook tersebut setelah eksplorasi. Nantinya, Anda dapat melihat pratinjau notebook yang dibuat dan memeriksa outputnya tanpa membuat sesi dan menjalankan kodenya.
Menjadwalkan notebook
Anda dapat menjadwalkan notebook untuk dijalankan sebagai Tugas Dataplex. Untuk informasi selengkapnya, lihat Membuat dan mengelola jadwal untuk notebook.
Membagikan notebook
Anda dapat membagikan notebook kepada orang lain di organisasi menggunakan izin IAM:
Di tampilan Explore, klik folder Notebooks.
Pilih {i>notebook<i} Jupyter yang ingin Anda bagikan.
Klik Bagikan.
Tinjau izin. Tambahkan atau hapus izin penampil, editor, dan administrator untuk notebook ini.
Setelah Anda membagikan notebook, pengguna yang memiliki izin lihat atau edit di level lake dapat menavigasi ke lake dan mengerjakan notebook bersama.
Mengimpor notebook
Anda dapat mengimpor notebook dari bucket Cloud Storage:
Di tampilan Explore, klik folder Notebooks.
Klik Import.
Buka bucket Cloud Storage yang berisi notebook yang ingin Anda impor.
Pilih notebook, beri nama, lalu klik Impor.
Notebook yang diimpor akan dibuat di folder Notebooks. Anda dapat membuka, mengedit, membagikan, dan menjadwalkan notebook yang diimpor.
Mengekspor notebook
Anda dapat mengekspor notebook ke bucket Cloud Storage agar dapat digunakan oleh orang lain di organisasi dengan izin IAM.
Di tampilan Explore, klik folder Notebooks.
Tandai notebook yang ingin diekspor.
Klik menu
, lalu klik Export.Masukkan jalur Cloud Storage tempat Anda ingin mengekspor notebook.
Klik Ekspor notebook.
Langkah selanjutnya
- Lihat referensi API untuk resource Task.
- Mengelola lingkungan Anda.
- Menemukan data.
- Menjadwalkan skrip dan notebook SQL.
- Mengelola metadata.