Kuidas filtreerida Pandase andmeraami ridu veergude väärtuste alusel

Python

Ridade filtreerimine Pandas DataFramesis

Pandas on Pythoni võimas raamatukogu andmete töötlemiseks ja analüüsimiseks. Levinud ülesanne on DataFrame'ist ridade valimine veeruväärtuste põhjal, sarnaselt SQL-i tabelis SELECT * FROM WHERE veeru_nimi = mingi_väärtus.

See juhend juhendab teid Pandas selle saavutamiseks erinevatest meetoditest, mis muudab teie andmete tõhusa filtreerimise lihtsaks. Olenemata sellest, kas olete algaja või kogenud kasutaja, parandavad need näpunäited teie andmetöötlusoskusi.

Käsk Kirjeldus
pd.DataFrame(data) Loob andmesõnastikust DataFrame'i.
df[column_name] Juurdepääs DataFrame'i veerule nime järgi.
df[condition] Filtreerib DataFrame'i veerule rakendatud tingimuse alusel.
print(selected_rows) Prindib konsooli DataFrame'i või selle alamhulga.
df[df['Age'] >df[df['Age'] > 25] Valib read, kus veeru „Vanus” väärtused on suuremad kui 25.
df[df['City'] == 'Chicago'] Valib read, kus veeru „Linn” väärtused on võrdsed väärtusega „Chicago”.

Pandas DataFrame'i ridade valiku mõistmine

Kaasasolevad skriptid näitavad, kuidas valida DataFrame'ist ridu veeruväärtuste alusel, kasutades Pythoni Pandase teeki. Esimene skript algab Pandase teegi importimisega käsk. Seejärel loob see andmesõnastiku abil näidise DataFrame'i, mis teisendatakse DataFrame'iks koos käsk. Seejärel illustreerib skript kahte reavaliku meetodit: ridade valimine, kus veeru „Vanus” väärtus on suurem kui 25, kasutades ja valides read, kus veeru „Linn” väärtus on „Chicago”, kasutades df[df['City'] == 'Chicago']. Need filtreeritud andmeraamid prinditakse kasutades funktsioon valitud ridade kuvamiseks.

Teine skript järgib sarnast struktuuri, kuid kasutab erinevaid andmeid ja valikukriteeriume. See loob DataFrame'i tooteteabega, sealhulgas veergudega "Toode", "Hind" ja "Laoseis". Valitakse read, kus 'Hind' on väiksem kui 200 või sellega võrdne

Täiustatud tehnikad Pandas DataFrame'i ridade valimiseks

Lisaks põhilisele filtreerimisele, kasutades tõeväärtuse indekseerimist, pakub Pandas täiustatud tehnikaid ridade valimiseks veeru väärtuste põhjal. Üks võimas meetod on kasutada funktsioon, mis võimaldab filtreerida ridu päringuavaldisega, muutes süntaksi puhtamaks ja sageli ka intuitiivsemaks. Näiteks kasutamise asemel , võite kirjutada . See meetod on eriti kasulik keerukamate tingimuste käsitlemisel või kui veergude nimed sisaldavad tühikuid. Lisaks on isin() Funktsioon on kasulik, kui soovite ridu väärtuste loendi alusel filtreerida. Näiteks ridade valimiseks, kus veeru 'Linn' väärtus on kas 'Chicago' või 'New York', saate kasutada .

Teine tehnika hõlmab ja indekseerijad. The indekseerija on sildipõhine, võimaldades valida ridu reasiltide ja veergude nimede alusel iloc on täisarvu asukohapõhine, võimaldades valikut ridade ja veergude numbrite järgi. See paindlikkus on eriti kasulik ridade valimiseks mõnele teisele veerule rakendatud tingimuse alusel. Näiteks, tagastab isikute nimed, kes on vanemad kui 25. Need meetodid laiendavad teie tööriistakomplekti Pandas andmete tõhusaks käsitlemiseks ja analüüsimiseks, pakkudes loetavamat ja hooldatavamat koodi.

  1. Kuidas valida ridu mitme tingimuse alusel?
  2. Võite kasutada funktsiooni või kombineeri tingimusi loogiliste operaatoritega nagu ja . Näiteks, df[(df['Age'] > 25) & (df['City'] == 'Chicago')].
  3. Kas ma saan ridu väärtuste loendi alusel filtreerida?
  4. Jah, kasuta funktsiooni. Näiteks, .
  5. Mis on vahet ja ?
  6. on sildipõhine, samas on täisarvu asukohapõhine. Kasuta rea/veeru siltidega ja iloc rea/veeru indeksitega.
  7. Kuidas saab ridade filtreerimise ajal valida konkreetseid veerge?
  8. Sa võid kasutada . Näiteks, .
  9. Kuidas käsitleda ridade valimisel puuduvaid väärtusi?
  10. Kasuta funktsioon puuduvate väärtustega ridade eemaldamiseks või asendada need määratud väärtusega.
  11. Kas ma saan ridade filtreerimiseks kasutada regulaaravaldisi?
  12. Jah, funktsiooniga parameeter võimaldab filtreerida ridu regex-mustrite alusel. Näiteks, .
  13. Kuidas filtreerida ridu indeksi alusel?
  14. Sa võid kasutada indeksi nimega. Näiteks, .
  15. Mis siis, kui minu veergude nimed sisaldavad tühikuid või erimärke?
  16. Kasuta funktsioon, mis suudab selliseid veergude nimesid käsitleda tagumise märgiga. Näiteks, .

Viimased mõtted DataFrame'i ridade valimise tehnikate kohta

Andmeraamist ridade valimine Pandas veergude väärtuste põhjal on andmetega manipuleerimisel ülioluline oskus. Arutatud erinevad meetodid, sealhulgas tõeväärtuse indekseerimine, , ja sildipõhine ja täisarvu asukohapõhine indekseerimine koos ja iloc, pakuvad võimsaid tööriistu andmete tõhusaks filtreerimiseks. Nende tehnikate valdamine võimaldab paremat andmete analüüsi ning puhtamat ja paremini hooldatavat koodi.