Eilučių filtravimas Pandas DataFrames
Pandas yra galinga Python biblioteka, skirta duomenų apdorojimui ir analizei. Įprasta užduotis yra pasirinkti eilutes iš DataFrame pagal stulpelių reikšmes, panašiai kaip SQL SELECT * FROM lentelėje WHERE stulpelio_pavadinimas = some_value.
Šiame vadove bus aprašyti įvairūs būdai, kaip tai pasiekti „Pandas“, kad būtų lengva efektyviai filtruoti duomenis. Nesvarbu, ar esate pradedantysis, ar patyręs vartotojas, šie patarimai pagerins jūsų duomenų tvarkymo įgūdžius.
komandą | apibūdinimas |
---|---|
pd.DataFrame(data) | Sukuria DataFrame iš duomenų žodyno. |
df[column_name] | Prieina prie DataFrame stulpelio pagal pavadinimą. |
df[condition] | Filtruoja DataFrame pagal stulpeliui taikomą sąlygą. |
print(selected_rows) | Spausdina duomenų rėmelį arba jo poaibį į konsolę. |
df[df['Age'] >df[df['Age'] > 25] | Parenkamos eilutės, kuriose stulpelio „Amžius“ reikšmės yra didesnės nei 25. |
df[df['City'] == 'Chicago'] | Parenkamos eilutės, kuriose stulpelio „Miestas“ reikšmės yra lygios „Chicago“. |
„DataFrame“ eilučių pasirinkimo supratimas „Pandas“.
Pateikti scenarijai parodo, kaip pasirinkti eilutes iš DataFrame pagal stulpelių reikšmes naudojant Pandas biblioteką Python. Pirmasis scenarijus prasideda importuojant Pandas biblioteką su komandą. Tada jis sukuria duomenų rėmelio pavyzdį naudodamas duomenų žodyną, kuris konvertuojamas į DataFrame su komandą. Tada scenarijus iliustruoja du eilučių pasirinkimo būdus: pasirenkant eilutes, kuriose stulpelio „Amžius“ reikšmė yra didesnė nei 25, naudojant , ir pasirinkdami eilutes, kuriose stulpelio „Miestas“ reikšmė yra „Čikaga“, naudodami df[df['City'] == 'Chicago']. Šie filtruoti duomenų rėmeliai spausdinami naudojant funkcija, kad būtų rodomos pasirinktos eilutės.
Antrasis scenarijus yra panašios struktūros, bet naudoja skirtingus duomenis ir atrankos kriterijus. Jis sukuria duomenų rėmelį su produkto informacija, įskaitant stulpelius „Produktas“, „Kaina“ ir „Akcija“. Pasirinktos eilutės, kuriose „Kaina“ yra mažesnė arba lygi 200 su
Pažangūs „DataFrame“ eilučių pasirinkimo „Pandas“ metodai
Be pagrindinio filtravimo naudojant loginį indeksavimą, „Pandas“ siūlo pažangias eilučių pasirinkimo pagal stulpelių reikšmes metodus. Vienas galingas būdas yra naudoti funkcija, leidžianti filtruoti eilutes su užklausos išraiška, todėl sintaksė tampa švaresnė ir dažnai intuityvesnė. Pavyzdžiui, užuot naudoję , tu gali rašyti . Šis metodas ypač naudingas sprendžiant sudėtingesnes sąlygas arba kai stulpelių pavadinimuose yra tarpų. Be to, isin() funkcija naudinga, kai norite filtruoti eilutes pagal reikšmių sąrašą. Pavyzdžiui, norėdami pasirinkti eilutes, kuriose stulpelio „Miestas“ reikšmė yra „Čikaga“ arba „Niujorkas“, galite naudoti .
Kita technika apima ir indeksuotojai. The indeksavimo priemonė yra pagrįsta etiketėmis, todėl galite pasirinkti eilutes pagal eilučių etiketes ir stulpelių pavadinimus iloc yra pagrįsta vieta sveikaisiais skaičiais, leidžianti pasirinkti pagal eilučių ir stulpelių numerius. Šis lankstumas ypač naudingas renkantis eilutes pagal kitam stulpeliui taikomas sąlygas. Pavyzdžiui, pateiks vyresnių nei 25 metų asmenų vardus. Šie metodai išplečia jūsų įrankių rinkinį, skirtą efektyviam duomenų tvarkymui ir analizei „Pandas“, siūlydami lengviau skaitomą ir prižiūrimą kodą.
- Kaip galiu pasirinkti eilutes pagal kelias sąlygas?
- Galite naudoti funkcija arba derinkite sąlygas su loginiais operatoriais, pvz ir . Pavyzdžiui, df[(df['Age'] > 25) & (df['City'] == 'Chicago')].
- Ar galiu filtruoti eilutes pagal verčių sąrašą?
- Taip, naudokite funkcija. Pavyzdžiui, .
- Koks skirtumas tarp ir ?
- yra pagrįstas etiketėmis, o yra pagrįstas sveikaisiais skaičiais. Naudokite su eilučių/stulpelių etiketėmis ir iloc su eilučių/stulpelių indeksais.
- Kaip filtruojant eilutes pasirinkti konkrečius stulpelius?
- Tu gali naudoti . Pavyzdžiui, .
- Kaip tvarkyti trūkstamas reikšmes pasirenkant eilutes?
- Naudoti funkcija pašalinti eilutes su trūkstamomis reikšmėmis, arba pakeisti juos nurodyta verte.
- Ar galiu naudoti įprastus posakius eilėms filtruoti?
- Taip, funkcija su parametras leidžia filtruoti eilutes pagal reguliariojo reiškinio šablonus. Pavyzdžiui, .
- Kaip filtruoti eilutes pagal indeksą?
- Tu gali naudoti su indekso pavadinimu. Pavyzdžiui, .
- Ką daryti, jei mano stulpelių pavadinimuose yra tarpų arba specialiųjų simbolių?
- Naudoti funkcija, kuri gali tvarkyti tokius stulpelių pavadinimus su backticks. Pavyzdžiui, .
Paskutinės mintys apie „DataFrame“ eilučių pasirinkimo būdus
Eilučių pasirinkimas iš DataFrame pagal Pandas stulpelių reikšmes yra esminis įgūdis manipuliuojant duomenimis. Įvairūs aptarti metodai, įskaitant loginį indeksavimą, , , ir etiketėmis bei sveikaisiais skaičiais pagrįstą indeksavimą su ir iloc, suteikia galingų įrankių efektyviam duomenų filtravimui. Šių metodų įvaldymas leidžia atlikti geresnę duomenų analizę ir švaresnį bei lengviau prižiūrimą kodą.