Cara Mudah Menyimpan Pandas Dataframe ke File TSV

492-pandas-simpan-df-tsv

Mengekspor Pandas DataFrame ke berbagai format, seperti csv, tsv ataupun format lainnya merupakan tahap yang penting dalam siklus kerja analisis data. Format file tsv (tab-separated values) merupakan salah satu format yang umum digunakan, karena mirip dengan csv (comma-separated values), sehingga mudah untuk dibaca secara langsung. Menyimpan data ke dalam file TSV memungkinkan para analis data untuk berbagi hasil analisis dengan mudah dan mempertahankan struktur data yang terorganisir.

Dalam artikel ini, akan dijelaskan cara mudah menyimpan Pandas DataFrame ke dalam file tsv, sehingga kita dapat dengan cepat menyimpan dan berbagi hasil analisis dengan rekan kerja kita atau memuatnya kembali untuk penggunaan di masa mendatang. Dengan menggunakan Pandas, menyimpan DataFrame ke dalam file tsv dapat dilakukan dengan beberapa langkah sederhana, yang akan kami bahas secara singkat dalam artikel ini.

 

Apa itu Pandas?

Pandas merupakan pustaka open-source untuk bahasa pemrograman Python yang khusus dirancang untuk analisis data. Dibuat oleh Wes McKinney pada tahun 2010, Pandas telah menjadi alat wajib bagi para penakluk data, membantu mengeksplorasi dan mengolah data dengan mudah dan cepat. Pandas menyediakan struktur data tingkat tinggi dan fungsi-fungsi yang dirancang khusus untuk membuat analisis data lebih mudah dan cepat dengan menyediakan.

Pandas dibekali berbagai fungsi dan metode yang dirancang khusus untuk operasi data yang cepat dan efisien. Berbagai operasi seperti pemfilteran, pengurutan, agregasi, dan manipulasi data lainnya dapat diselesaikan dengan mudah dan hemat waktu. Pandas juga terintegrasi dengan pustaka Matplotlib dan Seaborn untuk menghasilkan visualisasi data yang menarik dan informatif.

Untuk menggunakan Pandas, kita harus melakukan import pustakan pandas dan membuat alias yang biasanya disingkat pd untuk mempermudah koding.

import pandas as pd

 

Apa Itu DataFrame?

DataFrame adalah struktur data utama dalam Pandas, yang merupakan tabel dua dimensi yang terdiri dari baris dan kolom, mirip dengan spreadsheet atau database. Setiap baris mewakili record atau data dan setiap kolom mewakili atribut atau variabel tertentu.

DataFrame dapat dibuat dari berbagai sumber, termasuk list, numpy array, atau file eksternal seperti CSV atau Excel. Setelah DataFrame dibuat, kita dapat melakukan berbagai operasi seperti pemfilteran, pengelompokan, dan agregasi data dengan mudah.

Berikut ini kita akan membuat DataFrame sederhana menggunakan list yang terdiri dari 4 kolom

data = [('Human Resources', 20, 43, 63),
        ('R&D', 279, 382, 661),
        ('Sales', 257, 189, 446)
       ]
columns=('department', 'female_emp', 'male_emp', 'total_emp')

df_hr = pd.DataFrame (data, columns = columns)

 

Tampilkan DataFrame yang kita miliki

df_hr
	department 	female_emp 	male_emp 	total_emp
0 	Human Resources 	20 	      43 	       63
1 	R&D 		       279 	     382 	      661
2 	Sales 	               257 	     189 	      446

 

Setelah DataFrame terbentuk, kita dapat dengan mudah melakukan berbagai operasi untuk mengeksplorasi, memanipulasi dan menganalisis data yang dimiliki sesuai dengan kebutuhan.

 

Menyimpan Pandas DataFrame ke File TSV

Setelah selesai melakukan analisis data, kita ingin menyimpan DataFrame ke dalam file untuk penggunaan di masa mendatang. Pandas menyediakan metode seperti to_csv() untuk menyimpan DataFrame ke dalam berbagai format file, termasuk TSV (Tab-Separated Values).

Untuk menyimpan Pandas DataFrame ke file TSV adalah sebagai berikut:

df_hr.to_csv('result.tsv', sep='\t', index=False, header=True)

 

Berikut ini, parameter penting yang digunakan :

  • output_file: merupakan parameter pertama berupa nama file yang ingin ditulis.
  • sep: separator atau pemisah yang digunakan untuk memisahkan kolom dalam file TSV. Beri nilai '\t' untuk separator tab.
  • indeks: Apakah akan menampilkan kolom indeks dalam file keluaran. Beri nilai False untuk tidak menampilkan kolom indeks. Paramater ini adalah opsional.
  • header: Apakah akan menampilkan nama kolom sebagai baris pertama dalam file keluaran. Beri nilai True untuk menampilkan nama kolom. Paramater ini adalah opsional.

 

Parameter lain yang dapat digunakan adalah

  • mode: cara membuka file, nilai yang dapat digunakan adalah w untuk membuat file baru walaupun sudah ada, x akan menampilkan pesan kesalahan jika file sudah ada, dan a akan menambahkan data pada akhir baris.
  • compression: jenis kompresi yang akan digunakan. Kompresi yang disupport adalah zip, gzip, bz2, zstd, xz, dan tar. Contoh penggunaan compression={'method': 'gzip', 'compresslevel': 1}

 

Misalnya untuk menyimpan dataFrame ke sebuah file tsv terkompresi bernama result.tsv.gzip adalah

df.to_csv('result.tsv.gzip', 
          sep='\t', 
          index=False, 
          header=True, 
          compression={'method': 'gzip', 'compresslevel': 1})

 

WrappingUp

Menyimpan Pandas DataFrame ke dalam file tsv merupakan hal yang cukup penting dalam analisis data dengan Python. Dengan memanfaatkan fitur-fitur yang disediakan oleh Pandas, data hasil analisis dapat dengan mudah disimpan dalam format yang terstruktur dan mudah dibaca. Semoga artikel ini bermanfaat dan menginspirasi.