Menapis Baris dalam Pandas DataFrames
Pandas ialah perpustakaan yang berkuasa dalam Python untuk manipulasi dan analisis data. Tugas biasa ialah memilih baris daripada DataFrame berdasarkan nilai lajur, serupa dengan SQL SELECT * FROM table WHERE column_name = some_value.
Panduan ini akan membimbing anda melalui pelbagai kaedah untuk mencapai ini dalam Pandas, menjadikannya mudah untuk menapis data anda dengan cekap. Sama ada anda seorang pemula atau pengguna berpengalaman, petua ini akan meningkatkan kemahiran pengendalian data anda.
Perintah | Penerangan |
---|---|
pd.DataFrame(data) | Mencipta DataFrame daripada kamus data. |
df[column_name] | Mengakses lajur dalam DataFrame mengikut nama. |
df[condition] | Menapis DataFrame berdasarkan syarat yang digunakan pada lajur. |
print(selected_rows) | Mencetak DataFrame atau subset daripadanya ke konsol. |
df[df['Age'] >df[df['Age'] > 25] | Memilih baris yang nilai lajur 'Umur' lebih besar daripada 25. |
df[df['City'] == 'Chicago'] | Memilih baris yang nilai lajur 'Bandar' adalah sama dengan 'Chicago'. |
Memahami Pemilihan Baris DataFrame dalam Panda
Skrip yang disediakan menunjukkan cara memilih baris daripada DataFrame berdasarkan nilai lajur menggunakan pustaka Pandas dalam Python. Skrip pertama bermula dengan mengimport perpustakaan Pandas dengan perintah. Ia kemudian mencipta sampel DataFrame menggunakan kamus data, yang ditukar kepada DataFrame dengan perintah. Skrip kemudian menggambarkan dua kaedah untuk pemilihan baris: memilih baris yang nilai lajur 'Umur' lebih besar daripada 25 menggunakan , dan memilih baris di mana nilai lajur 'Bandar' digunakan oleh 'Chicago' df[df['City'] == 'Chicago']. DataFrames yang ditapis ini dicetak menggunakan berfungsi untuk memaparkan baris yang dipilih.
Skrip kedua mengikut struktur yang serupa tetapi menggunakan data dan kriteria pemilihan yang berbeza. Ia mencipta DataFrame dengan maklumat produk, termasuk lajur 'Produk', 'Harga' dan 'Stok'. Baris dipilih dengan 'Harga' kurang daripada atau sama dengan 200 dengan
Teknik Lanjutan untuk Memilih Baris DataFrame dalam Panda
Selain penapisan asas menggunakan pengindeksan boolean, Pandas menawarkan teknik lanjutan untuk memilih baris berdasarkan nilai lajur. Satu kaedah yang berkuasa adalah menggunakan fungsi, yang membolehkan anda menapis baris dengan ungkapan pertanyaan, menjadikan sintaks lebih bersih dan selalunya lebih intuitif. Sebagai contoh, bukannya menggunakan , anda boleh menulis . Kaedah ini amat berguna apabila menangani keadaan yang lebih kompleks atau apabila nama lajur mengandungi ruang. Selain itu, isin() Fungsi ini bermanfaat apabila anda ingin menapis baris berdasarkan senarai nilai. Contohnya, untuk memilih baris yang nilai lajur 'Bandar' ialah 'Chicago' atau 'New York', anda boleh menggunakan .
Teknik lain melibatkan dan pengindeks. The pengindeks adalah berasaskan label, membolehkan anda memilih baris berdasarkan label baris dan nama lajur, sementara iloc adalah berasaskan lokasi integer, membolehkan pemilihan mengikut nombor baris dan lajur. Fleksibiliti ini amat berguna untuk memilih baris berdasarkan syarat yang digunakan pada lajur yang berbeza. Sebagai contoh, akan mengembalikan nama individu yang berumur lebih daripada 25 tahun. Kaedah ini mengembangkan kit alat anda untuk mengendalikan dan menganalisis data dengan cekap dalam Pandas, menawarkan kod yang lebih mudah dibaca dan diselenggara.
- Bagaimanakah saya boleh memilih baris berdasarkan berbilang syarat?
- Anda boleh menggunakan berfungsi atau menggabungkan keadaan dengan operator logik seperti dan . Sebagai contoh, df[(df['Age'] > 25) & (df['City'] == 'Chicago')].
- Bolehkah saya menapis baris berdasarkan senarai nilai?
- Ya, gunakan fungsi. Sebagai contoh, .
- Apakah perbezaan antara dan ?
- adalah berasaskan label, manakala adalah berasaskan lokasi integer. guna dengan label baris/lajur dan iloc dengan indeks baris/lajur.
- Bagaimanakah saya boleh memilih lajur tertentu semasa menapis baris?
- Anda boleh gunakan . Sebagai contoh, .
- Bagaimanakah saya mengendalikan nilai yang hilang semasa memilih baris?
- Menggunakan berfungsi untuk mengalih keluar baris dengan nilai yang tiada, atau untuk menggantikannya dengan nilai yang ditentukan.
- Bolehkah saya menggunakan ungkapan biasa untuk menapis baris?
- Ya, yang berfungsi dengan parameter membolehkan anda menapis baris berdasarkan corak regex. Sebagai contoh, .
- Bagaimanakah cara saya menapis baris berdasarkan indeks?
- Anda boleh gunakan dengan nama indeks. Sebagai contoh, .
- Bagaimana jika nama lajur saya mengandungi ruang atau aksara khas?
- Menggunakan fungsi yang boleh mengendalikan nama lajur tersebut dengan backtick. Sebagai contoh, .
Pemikiran Akhir tentang Teknik Pemilihan Baris DataFrame
Memilih baris daripada DataFrame berdasarkan nilai lajur dalam Pandas ialah kemahiran penting untuk manipulasi data. Pelbagai kaedah yang dibincangkan, termasuk pengindeksan boolean, , , dan pengindeksan berasaskan label dan lokasi integer dengan dan iloc, menyediakan alat yang berkuasa untuk menapis data dengan cekap. Penguasaan teknik ini membolehkan analisis data yang lebih baik dan kod yang lebih bersih dan boleh diselenggara.