Kako filtrirati vrstice v Pandas DataFrame na podlagi vrednosti stolpcev

Python

Filtriranje vrstic v Pandas DataFrames

Pandas je zmogljiva knjižnica v Pythonu za obdelavo in analizo podatkov. Običajna naloga je izbiranje vrstic iz DataFrame na podlagi vrednosti stolpcev, podobno kot SQL SELECT * FROM tabela WHERE column_name = some_value.

Ta vodnik vas bo vodil skozi različne metode, kako to doseči v Pandas, kar bo olajšalo učinkovito filtriranje vaših podatkov. Ne glede na to, ali ste začetnik ali izkušen uporabnik, bodo ti nasveti izboljšali vaše sposobnosti ravnanja s podatki.

Ukaz Opis
pd.DataFrame(data) Ustvari DataFrame iz slovarja podatkov.
df[column_name] Dostopa do stolpca v DataFrame po imenu.
df[condition] Filtrira DataFrame glede na pogoj, uporabljen za stolpec.
print(selected_rows) Natisne DataFrame ali njegov podnabor na konzolo.
df[df['Age'] >df[df['Age'] > 25] Izberite vrstice, kjer so vrednosti stolpca »Starost« večje od 25.
df[df['City'] == 'Chicago'] Izbere vrstice, kjer so vrednosti stolpca »Mesto« enake vrednosti »Chicago«.

Razumevanje izbire vrstic DataFrame v Pandas

Priloženi skripti prikazujejo, kako izbrati vrstice iz DataFrame na podlagi vrednosti stolpcev z uporabo knjižnice Pandas v Pythonu. Prvi skript se začne z uvozom knjižnice Pandas z ukaz. Nato ustvari vzorčni DataFrame z uporabo slovarja podatkov, ki se pretvori v DataFrame z ukaz. Skript nato ponazarja dve metodi za izbiro vrstic: izbiranje vrstic, kjer je vrednost stolpca 'Starost' večja od 25 z uporabo in izbiranje vrstic, kjer je vrednost stolpca »Mesto« »Chicago« z uporabo df[df['City'] == 'Chicago']. Ti filtrirani DataFrames so natisnjeni z uporabo funkcijo za prikaz izbranih vrstic.

Drugi skript ima podobno strukturo, vendar uporablja drugačne podatke in izbirna merila. Ustvari DataFrame s podatki o izdelku, vključno s stolpci »Product«, »Price« in »Stock«. Izbrane so vrstice, kjer je 'Cena' manjša ali enaka 200 z

Napredne tehnike za izbiranje vrstic DataFrame v Pandas

Poleg osnovnega filtriranja z logičnim indeksiranjem Pandas ponuja napredne tehnike za izbiranje vrstic na podlagi vrednosti stolpcev. Ena močna metoda je uporaba funkcijo, ki omogoča filtriranje vrstic s poizvedbenim izrazom, zaradi česar je sintaksa čistejša in pogosto bolj intuitivna. Na primer, namesto uporabe , lahko pišeš . Ta metoda je še posebej uporabna pri obravnavanju bolj zapletenih pogojev ali kadar imena stolpcev vsebujejo presledke. Poleg tega je isin() funkcija je uporabna, če želite filtrirati vrstice na podlagi seznama vrednosti. Na primer, če želite izbrati vrstice, kjer je vrednost stolpca »Mesto« bodisi »Chicago« ali »New York«, lahko uporabite .

Druga tehnika vključuje in indeksatorji. The indexer temelji na oznakah, kar vam omogoča izbiro vrstic na podlagi oznak vrstic in imen stolpcev, medtem ko iloc temelji na celi številski lokaciji in omogoča izbiro po številkah vrstic in stolpcev. Ta prilagodljivost je še posebej uporabna za izbiranje vrstic na podlagi pogoja, uporabljenega za drug stolpec. Na primer, bo vrnil imena posameznikov, starejših od 25 let. Te metode razširijo vaš nabor orodij za učinkovito ravnanje in analiziranje podatkov v Pandas ter ponujajo bolj berljivo in vzdržljivo kodo.

  1. Kako lahko izberem vrstice na podlagi več pogojev?
  2. Lahko uporabite funkcijo ali kombinacijo pogojev z logičnimi operatorji, kot je in . na primer df[(df['Age'] > 25) & (df['City'] == 'Chicago')].
  3. Ali lahko filtriram vrstice na podlagi seznama vrednosti?
  4. Da, uporabite funkcijo. Na primer, .
  5. Kaj je razlika med in ?
  6. temelji na oznakah, medtem ko temelji na celoštevilski lokaciji. Uporaba z oznakami vrstic/stolpcev in iloc z indeksi vrstic/stolpcev.
  7. Kako lahko med filtriranjem vrstic izberem določene stolpce?
  8. Lahko uporabiš . na primer .
  9. Kako ravnam z manjkajočimi vrednostmi pri izbiranju vrstic?
  10. Uporabi funkcijo za odstranitev vrstic z manjkajočimi vrednostmi, oz da jih nadomestite z določeno vrednostjo.
  11. Ali lahko uporabim regularne izraze za filtriranje vrstic?
  12. Da, funkcijo z omogoča filtriranje vrstic na podlagi vzorcev regularnih izrazov. na primer .
  13. Kako filtriram vrstice glede na indeks?
  14. Lahko uporabiš z imenom indeksa. na primer .
  15. Kaj pa, če moja imena stolpcev vsebujejo presledke ali posebne znake?
  16. Uporabi funkcijo, ki lahko obravnava taka imena stolpcev s povratnimi kljukicami. na primer .

Končne misli o tehnikah izbire vrstic DataFrame

Izbiranje vrstic iz DataFrame na podlagi vrednosti stolpcev v Pandas je ključna veščina za manipulacijo podatkov. Različne obravnavane metode, vključno z logičnim indeksiranjem, , , in indeksiranje na podlagi oznak in na celi številski lokaciji in iloc, zagotavljajo zmogljiva orodja za učinkovito filtriranje podatkov. Obvladovanje teh tehnik omogoča boljšo analizo podatkov in čistejšo kodo, ki jo je lažje vzdrževati.