Library Carpentry: Merapikan data untuk Pustakawan - Masalah Pemformatan
Mengenali dan menyelesaikan masalah pemformatan spreadsheet yang umum
Merapikan data untuk Pustakawan
Terjemahan bebas oleh Chrisna Adhi Pranoto untuk materi Library Carpentry: Tidy data for librarians Lisensi asli: CC-BY 4.0 oleh The Carpentries
Episode 3: Masalah Pemformatan
Pertanyaan
Apa saja kesalahan umum yang dilakukan saat memformat spreadsheet?
Tujuan Pembelajaran
Mengenali dan menyelesaikan masalah pemformatan spreadsheet yang umum
Berikut ini adalah daftar kesalahan umum yang sering terjadi:
Beberapa tabel dalam satu sheet
Beberapa tab
Tidak mengisi angka nol
Menggunakan nilai null yang buruk
Menggunakan pemformatan untuk menyampaikan informasi
Menggunakan pemformatan untuk memperindah tampilan
Menaruh komentar atau satuan di dalam sel
Lebih dari satu informasi dalam satu sel
Masalah penamaan kolom
Karakter khusus dalam data
Memasukkan metadata ke dalam tabel data
Pemformatan tanggal (dibahas di Episode 4)
Beberapa Tabel dalam Satu Sheet
Strategi yang umum dilakukan adalah membuat beberapa tabel data dalam satu spreadsheet. Ini membingungkan komputer, jadi jangan lakukan ini! Ketika Anda membuat beberapa tabel dalam satu spreadsheet, Anda secara tidak langsung menciptakan asosiasi yang salah antar data bagi komputer, yang melihat setiap baris sebagai satu observasi. Anda juga berpotensi menggunakan nama kolom yang sama di beberapa tempat, yang akan mempersulit proses pembersihan data menjadi format yang bisa digunakan.

Beberapa Tab
Lalu bagaimana dengan tab-tab worksheet? Tampaknya seperti cara yang mudah untuk mengorganisir data, bukan? Nah, ada benarnya ada tidak juga. Ketika Anda membuat tab tambahan, Anda menghilangkan kemampuan komputer untuk melihat koneksi dalam data yang sebenarnya ada (Anda harus menggunakan fungsi khusus aplikasi spreadsheet atau scripting untuk memastikan koneksi ini). Misalnya, Anda membuat tab terpisah untuk setiap tahun.
Ini adalah praktik yang buruk karena dua alasan:
Anda lebih mungkin secara tidak sengaja menambahkan inkonsistensi ke data Anda jika setiap kali mencatat pengukuran, Anda mulai merekam data di tab baru.
Bahkan jika Anda berhasil mencegah semua inkonsistensi, Anda akan menambahkan langkah ekstra sebelum menganalisis data karena Anda harus menggabungkan data-data ini ke dalam satu tabel. Anda harus secara eksplisit memberi tahu komputer cara menggabungkan tab; kalau tab-tabnya tidak konsisten formatnya, Anda mungkin bahkan harus melakukannya secara manual!
Lain kali ketika Anda ingin membuat tab atau tabel baru, tanyakan pada diri sendiri: "Apakah saya bisa menghindari penambahan tab ini dengan cukup menambahkan kolom baru ke spreadsheet asli saya?"
Lembar data Anda mungkin menjadi sangat panjang seiring waktu. Ini mempersulit entri data jika Anda tidak bisa melihat header di bagian atas spreadsheet. Tapi JANGAN ulangi header. Header yang terulang bisa dengan mudah bercampur ke dalam data, yang menyebabkan masalah di kemudian hari.
Sebagai gantinya, gunakan fitur Freeze (Bekukan) header kolom:
Tidak Mengisi Angka Nol
Mungkin ketika Anda mengukur sesuatu, nilainya biasanya nol, misalnya jumlah peserta di acara pelatihan tertentu. Kenapa repot-repot menulis angka nol di kolom itu, kalau memang kebanyakan nilainya nol?
Tapi ada perbedaan antara nol dan sel kosong di spreadsheet. Bagi komputer, nol adalah data yang sesungguhnya; Anda mengukur atau menghitungnya. Sedangkan sel kosong berarti sesuatu tidak diukur, dan komputer akan menginterpretasikannya sebagai nilai null.
Program spreadsheet atau statistik kemungkinan besar akan salah menginterpretasikan sel kosong yang seharusnya berisi nol. Ini sama saja dengan menghilangkan data. Observasi nol adalah data nyata! Membiarkan data nol kosong tidak baik dalam format tertulis, dan JANGAN PERNAH dilakukan ketika Anda memindahkan data ke format digital.
Menggunakan Nilai Null yang Buruk
Contoh masalah: menggunakan -999, nilai numerik lain, nol, atau teks untuk merepresentasikan nilai yang hilang.
Apapun alasannya, ini bermasalah jika data yang tidak diketahui atau hilang dicatat sebagai -999, 999, atau 0. Banyak program statistik tidak akan mengenali bahwa ini dimaksudkan untuk merepresentasikan nilai yang hilang (null). Bagaimana nilai-nilai ini diinterpretasikan akan bergantung pada software yang Anda gunakan untuk menganalisis data.
Solusinya: bergantung pada aplikasi akhir data Anda dan bagaimana Anda berniat menganalisisnya, tapi sangat penting untuk menggunakan indikator null yang jelas dan KONSISTEN. Sel kosong adalah pilihan terbaik untuk kebanyakan aplikasi; saat bekerja dengan R, NA mungkin merupakan pilihan nilai null yang dapat diterima.
Berikut ringkasan pilihan nilai null beserta kelebihan dan kekurangannya:
Nilai Null | Masalah | Kompatibilitas | Rekomendasi |
|---|---|---|---|
0 | Tidak bisa dibedakan dari nol yang sesungguhnya | JANGAN PERNAH digunakan | |
Kosong (Blank) | Sulit membedakan nilai yang hilang dari yang terlewat saat entri. Susah membedakan blank dari spasi. | R, Python, SQL, Excel | Pilihan terbaik |
-999, 999 | Tidak dikenali sebagai null oleh banyak program. Bisa tidak sengaja masuk ke kalkulasi. | Hindari | |
NA, na | Bisa juga merupakan singkatan (misalnya, North America). Bisa menyebabkan masalah tipe data. NA lebih umum dikenali daripada na. | R | Pilihan yang baik |
N/A | Bentuk alternatif dari NA, tapi sering tidak kompatibel dengan software. | Hindari | |
NULL | Bisa menyebabkan masalah tipe data. | SQL | Pilihan yang baik |
None | Jarang digunakan. Bisa menyebabkan masalah tipe data. | Python | Hindari |
No data | Jarang digunakan. Bisa menyebabkan masalah tipe data, mengandung spasi. | Hindari | |
Missing | Jarang digunakan. Bisa menyebabkan masalah tipe data. | Hindari | |
-, +, . | Jarang digunakan. Bisa menyebabkan masalah tipe data. | Hindari |
Menggunakan Pemformatan untuk Menyampaikan Informasi
Contoh masalah: mewarnai sel, baris, atau kolom yang harus dikecualikan dari analisis; membiarkan baris kosong untuk menandai pemisahan dalam data.

Solusinya: buat kolom baru untuk menandai data mana yang harus dikecualikan. Dengan cara ini, informasi tersebut tersimpan sebagai data yang bisa dibaca oleh komputer, bukan sebagai format visual yang hanya bisa dilihat manusia.

Menggunakan Pemformatan untuk Memperindah Tampilan
Contoh masalah: menggabungkan sel (merging cells).
Solusinya: Jika tidak hati-hati, memformat worksheet agar terlihat lebih menarik bisa merusak kemampuan komputer untuk melihat asosiasi dalam data. Sel yang digabungkan adalah PANTANGAN MUTLAK dalam pemformatan jika Anda ingin data Anda bisa dibaca oleh software statistik. Pertimbangkan untuk merestrukturisasi data Anda sedemikian rupa sehingga Anda tidak perlu menggabungkan sel untuk mengorganisir data.
Menaruh Komentar atau Satuan di Dalam Sel
Contoh masalah: Data Anda sebagian dikumpulkan oleh mahasiswa magang yang kemudian Anda ketahui salah mencatat durasi sesi pelatihan. Anda ingin memberi catatan bahwa data ini perlu dipertanyakan.
Solusinya: Sebagian besar program statistik tidak bisa membaca komentar Excel, dan akan bingung jika ada komentar di dalam sel data Anda. Seperti yang dijelaskan di atas untuk pemformatan, buat kolom baru jika Anda perlu menambahkan catatan ke sel. Begitu pula, jangan sertakan satuan di dalam sel (seperti "jam", "menit"): idealnya, semua satuan atau pengukuran yang Anda masukkan dalam satu kolom harus berstandar sama, tapi jika karena suatu alasan tidak bisa, sisipkan kolom lain dan tentukan satuannya di sana.
Lebih dari Satu Informasi dalam Satu Sel
Contoh masalah: Satu tabel merekam kehadiran berdasarkan berbagai jenis peserta: peneliti pascasarjana (PGR), asisten peneliti postdoktoral (PDRA), dan lainnya, semuanya digabung dalam satu sel.
Solusinya: Jangan pernah memasukkan lebih dari satu informasi dalam satu sel. Rancang lembar data Anda untuk menyertakan kolom untuk setiap jenis peserta, jika informasi ini penting untuk dikumpulkan, daripada hanya total jumlahnya.
Masalah Penamaan Kolom
Pilih nama kolom yang deskriptif, tapi berhati-hatilah untuk tidak menyertakan: spasi, angka di awal nama, atau karakter khusus jenis apapun. Spasi bisa disalahinterpretasikan oleh parser yang menggunakan whitespace sebagai delimiter, dan beberapa program tidak menyukai nama kolom yang berupa string teks yang dimulai dengan angka.
Underscore (_) adalah alternatif yang baik untuk spasi, dan pertimbangkan penulisan nama dalam format camelCase untuk meningkatkan keterbacaan. Ingat bahwa singkatan yang masuk akal saat ini mungkin tidak lagi jelas 6 bulan ke depan, tapi jangan berlebihan dengan nama yang terlalu panjang. Menyertakan satuan dalam nama kolom menghindari kebingungan dan memudahkan orang lain menginterpretasikan kolom Anda.
Contoh:
Nama Baik | Alternatif Baik | Hindari |
|---|---|---|
Max_temp_C | MaxTemp | Maximum Temp (°C) |
Precipitation_mm | Precipitation | precmm |
Mean_year_growth | MeanYearGrowth | Mean growth/year |
sex | sex | M/F |
length | length | l |
cell_type | CellType | Cell Type |
Observation_01 | first_observation | 1st Obs |
Karakter Khusus dalam Data
Contoh masalah: Anda memperlakukan Excel seperti program pengolah kata saat menulis catatan, bahkan menyalin data langsung dari Word atau aplikasi lain.
Solusinya: Ini adalah strategi yang umum. Misalnya, saat menulis teks yang lebih panjang di dalam sel, orang sering menyertakan line break (ganti baris), em-dash, dan sebagainya di spreadsheet mereka. Lebih buruk lagi, ketika menyalin data dari aplikasi seperti Word, pemformatan dan karakter non-standar yang "mewah" (seperti tanda kutip kiri dan kanan yang berbeda) ikut tersalin. Ketika mengekspor data ini ke lingkungan coding/statistik atau ke database relasional, hal-hal yang tidak diinginkan bisa terjadi, seperti baris yang terpotong di tengah dan error encoding.
Praktik terbaik secara umum adalah menghindari penambahan karakter seperti newline, tab, dan vertical tab. Dengan kata lain, perlakukan sel teks seolah-olah itu adalah formulir web sederhana yang hanya bisa berisi teks dan spasi.
Memasukkan Metadata ke Dalam Tabel Data
Contoh masalah: Anda menambahkan legenda di bagian atas atau bawah tabel data yang menjelaskan arti kolom, satuan, pengecualian, dll.
Solusinya: Meskipun merekam informasi tentang data Anda ("metadata") sangat penting, informasi ini tidak boleh disimpan di dalam file data itu sendiri. Berbeda dengan tabel dalam paper atau file suplemen, metadata (dalam bentuk legenda) tidak boleh disertakan dalam file data karena informasi ini bukan data, dan menyertakannya dapat mengganggu cara program komputer menginterpretasikan file data Anda.
Sebaliknya, metadata harus disimpan sebagai file terpisah di direktori yang sama dengan file data Anda, sebaiknya dalam format teks biasa (plain text) dengan nama yang jelas mengasosiasikannya dengan file data Anda. Karena file metadata berformat teks bebas, file tersebut juga memungkinkan Anda untuk mengkodekan komentar, satuan, informasi tentang cara nilai null dikodekan, dan sebagainya. Semuanya penting untuk didokumentasikan, tapi bisa mengganggu format file data Anda.
Poin Utama
Jangan gunakan beberapa tabel dalam satu sheet
Jangan gunakan beberapa tab dalam satu file
Isi nol ketika memang nilainya nol
Gunakan nilai null yang tepat untuk merekam data yang hilang
Jangan gunakan pemformatan untuk menyampaikan informasi atau memperindah tampilan spreadsheet
Jangan taruh satuan atau komentar di dalam sel
Jangan gabungkan beberapa nilai dalam satu sel
Perhatikan penamaan kolom
Hindari karakter khusus dalam file data Anda
Taruh metadata (satuan, legenda, dll.) di file terpisah
Materi ini merupakan terjemahan bebas oleh Chrisna Adhi Pranoto untuk materi Library Carpentry: Tidy data for librarians yang dilisensikan di bawah CC-BY 4.0 oleh The Carpentries.
Terakhir diperbarui 17 May 2026