Rivien suodatus Pandas DataFramesissa
Pandas on Pythonin tehokas kirjasto tietojen käsittelyä ja analysointia varten. Yleinen tehtävä on rivien valitseminen DataFramesta sarakearvojen perusteella, kuten SQL:n SELECT * FROM -taulukossa WHERE sarakkeen_nimi = jokin_arvo.
Tämä opas opastaa sinut eri menetelmien läpi tämän saavuttamiseksi Pandasissa, mikä tekee tietojesi tehokkaan suodattamisen helpoksi. Olitpa aloittelija tai kokenut käyttäjä, nämä vinkit parantavat tiedonkäsittelytaitojasi.
Komento | Kuvaus |
---|---|
pd.DataFrame(data) | Luo DataFramen tietosanakirjasta. |
df[column_name] | Avaa sarakkeen DataFramessa nimellä. |
df[condition] | Suodattaa DataFramen sarakkeeseen sovelletun ehdon perusteella. |
print(selected_rows) | Tulostaa DataFramen tai sen osajoukon konsoliin. |
df[df['Age'] >df[df['Age'] > 25] | Valitsee rivit, joissa Ikä-sarakkeen arvot ovat suurempia kuin 25. |
df[df['City'] == 'Chicago'] | Valitsee rivit, joissa Kaupunki-sarakkeen arvot ovat yhtä suuria kuin Chicago. |
DataFrame-rivien valinnan ymmärtäminen Pandasissa
Toimitetut skriptit osoittavat, kuinka valita rivit DataFramesta sarakearvojen perusteella käyttämällä Pythonin Pandas-kirjastoa. Ensimmäinen komentosarja alkaa tuomalla Pandas-kirjasto komento. Sen jälkeen se luo datakehyksen avulla mallin DataFrame-kehyksestä, joka muunnetaan DataFrame-kehykseksi komento. Skripti kuvaa sitten kahta tapaa rivien valintaan: rivien valitseminen, joissa Ikä-sarakkeen arvo on suurempi kuin 25 käyttämällä , ja valitsemalla rivit, joissa Kaupunki-sarakkeen arvo on "Chicago" käyttämällä df[df['City'] == 'Chicago']. Nämä suodatetut DataFrame-kehykset tulostetaan käyttämällä toiminto näyttää valitut rivit.
Toinen komentosarja noudattaa samanlaista rakennetta, mutta käyttää erilaisia tietoja ja valintakriteerejä. Se luo DataFramen tuotetiedoilla, mukaan lukien sarakkeet "Tuote", "Hinta" ja "Varasto". Rivit valitaan, joissa "Hinta" on pienempi tai yhtä suuri kuin 200 kanssa
Kehittyneet tekniikat DataFrame-rivien valintaan Pandasissa
Perussuodatuksen lisäksi Boolen indeksoinnilla Pandas tarjoaa edistyneitä tekniikoita rivien valintaan sarakearvojen perusteella. Yksi tehokas tapa on käyttää -toiminto, jonka avulla voit suodattaa rivejä kyselylausekkeella, mikä tekee syntaksista selkeämmän ja usein intuitiivisemman. Esimerkiksi käytön sijaan , sinä voit kirjoittaa . Tämä menetelmä on erityisen hyödyllinen, kun käsitellään monimutkaisempia ehtoja tai kun sarakkeiden nimet sisältävät välilyöntejä. Lisäksi, isin() -toiminto on hyödyllinen, kun haluat suodattaa rivejä arvoluettelon perusteella. Jos haluat esimerkiksi valita rivejä, joissa Kaupunki-sarakkeen arvo on joko Chicago tai New York, voit käyttää .
Toinen tekniikka sisältää ja indeksoijat. The indexer on nimiöpohjainen, joten voit valita rivejä rivien ja sarakkeiden nimien perusteella iloc on kokonaislukusijaintiin perustuva, mikä mahdollistaa valinnan rivi- ja sarakenumeroiden perusteella. Tämä joustavuus on erityisen hyödyllinen valittaessa rivejä eri sarakkeeseen sovelletun ehdon perusteella. Esimerkiksi, palauttaa yli 25-vuotiaiden henkilöiden nimet. Nämä menetelmät laajentavat työkalupakkiasi tietojen tehokkaaseen käsittelyyn ja analysointiin Pandasissa tarjoten entistä luettavampaa ja ylläpidettävämpää koodia.
- Kuinka voin valita rivejä useiden ehtojen perusteella?
- Voit käyttää funktiota tai yhdistä ehtoja loogisilla operaattoreilla, kuten ja . Esimerkiksi, df[(df['Age'] > 25) & (df['City'] == 'Chicago')].
- Voinko suodattaa rivejä arvoluettelon perusteella?
- Kyllä, käytä toiminto. Esimerkiksi, .
- Mitä eroa on ja ?
- on etikettipohjainen, kun taas on kokonaislukusijaintiin perustuva. Käyttää rivi/sarake otsikoilla ja iloc rivi/sarake-indekseillä.
- Kuinka voin valita tiettyjä sarakkeita rivejä suodattaessa?
- Voit käyttää . Esimerkiksi, .
- Miten käsittelen puuttuvia arvoja rivejä valittaessa?
- Käytä toiminto poistaaksesi rivit, joilla on puuttuvia arvoja, tai korvata ne tietyllä arvolla.
- Voinko käyttää säännöllisiä lausekkeita rivien suodattamiseen?
- Kyllä toiminto kanssa parametrin avulla voit suodattaa rivejä säännöllisen lausekkeen mallien perusteella. Esimerkiksi, .
- Kuinka suodatan rivit indeksin perusteella?
- Voit käyttää indeksin nimellä. Esimerkiksi, .
- Entä jos sarakkeiden nimet sisältävät välilyöntejä tai erikoismerkkejä?
- Käytä toiminto, joka pystyy käsittelemään sellaiset sarakkeiden nimet, joissa on backticks. Esimerkiksi, .
Viimeisiä ajatuksia DataFrame-rivien valintatekniikoista
Rivien valitseminen DataFramesta Pandasin sarakearvojen perusteella on tärkeä taito tietojen käsittelyssä. Käsitellyt erilaiset menetelmät, mukaan lukien Boolen indeksointi, , , ja otsikkopohjainen ja kokonaislukusijaintiin perustuva indeksointi ja iloc, tarjoavat tehokkaita työkaluja tietojen suodattamiseen tehokkaasti. Näiden tekniikoiden hallinta mahdollistaa paremman data-analyysin ja puhtaamman, paremmin ylläpidettävän koodin.