A Slow Git Fetch megértése nagy tárolókban másodszor

Arthur Petit

2024. szeptember 27., péntek 15:23:04

Miért tart tovább a második Git letöltés a nagy tárolókban?
A hatalmas adattárak kezelése tipikus feladat a szoftverfejlesztésben, különösen olyan hosszú távú projekteknél, amelyek folyamatos fejlesztés alatt állnak. Egy adattár hatékony kezelésének bonyolultsága olyan Git-parancsokkal, mint pl az adattár bővülésével növekszik. Gyakran előfordul, hogy a fejlesztők hosszú kezdőbetűre számítanak git fetch, ezért zavaró, ha a második letöltés sokkal lassabban történik a vártnál.
Ha nem történt változás az adattárban az első és a második lekérés között, ez a helyzet sokkal zavaróbb lesz. Egy nagy projekt, gigabájtnyi Git-történettel, még mindig hosszú végrehajtási időt láthat, ami miatt a fejlesztők elgondolkodnak, miért történik ez. Ebben a forgatókönyvben a CI/CD-folyamatokkal, például a Jenkins-szel való munkavégzés igen fontossá teheti a teljesítménybeli szabálytalanságokat.
Ha nem történt változás az adattárban az első és a második lekérés között, ez a helyzet sokkal zavaróbb lesz. Egy hatalmas, gigabájtnyi Git-történettel rendelkező projekt ennek ellenére elhúzódó végrehajtási időt mutathat, így a mérnökök kíváncsiak rá, miért történt ez. Ebben a forgatókönyvben a CI/CD-folyamatokkal, például a Jenkins-szel való munkavégzés igen fontossá teheti a teljesítménybeli szabálytalanságokat.
Ebben a cikkben megvizsgáljuk a nagy adattárakból származó lassú letöltések okait. Megvizsgálunk néhány módot is a nagy Git-objektumok ismételt letöltésének megakadályozására, ami felgyorsítja és javítja a letöltések hatékonyságát.

Parancs Használati példa

git fetch --prune Eltávolítja a távoli ágakra való hivatkozásokat a szerverről, amelyek már nem léteznek. Ez elengedhetetlen, ha nagy adattárakból gyűjti össze a változtatásokat, mert segít megtisztítani az elöregedett ágakat.

git fetch --depth=1 Korlátozza a lekért lerakatelőzmények mennyiségét, és a teljes előzmény helyett csak a legfrissebb pillanatképet kapja meg. Nagy adattárak esetén ez felgyorsítja a folyamatot és csökkenti a sávszélesség-használatot.

git fetch --no-tags Kikapcsolja a címkelekérést, ami ebben az esetben felesleges, és segít minimalizálni a távoli adattárból lekért adatok mennyiségét.

subprocess.run() A Subprocess.run() a Pythonban lehetővé teszi egy shell-parancs futtatását (például egy Git-parancs) és az eredmény rögzítését. Hasznos a rendszerszintű parancsok automatizálási parancsfájlokba való beépítéséhez.

exec() A Node.js fájlban az exec() egy JavaScript shell parancsot hajt végre. Git feladatok végrehajtására és azok eredményeinek aszinkron módon történő kezelésére szolgál.

unittest.TestCase Meghatároz egy Python egységtesztet, amellyel megbizonyosodik arról, hogy a git_fetch() metódus sikeresen működik-e különféle körülmények között, beleértve az érvényes és érvénytelen elérési útvonalakat is.

git fetch --force Gondoskodik arról, hogy a helyi adattár pontosan szinkronizálva legyen a távolival, még vita esetén is, még akkor is kényszerítve a visszakeresést, ha az nem gyors előreküldést eredményez.

git fetch "+refs/heads/:refs/remotes/origin/" Azt jelzi, hogy a távoli tárolóból mely ágakat vagy hivatkozásokat kell lekérni. A pontos frissítések garantálása érdekében ez a parancs kifejezetten a távoli ágakat helyi hivatkozásokhoz rendeli hozzá.

Parancs	Használati példa
git fetch --prune	Eltávolítja a távoli ágakra való hivatkozásokat a szerverről, amelyek már nem léteznek. Ez elengedhetetlen, ha nagy adattárakból gyűjti össze a változtatásokat, mert segít megtisztítani az elöregedett ágakat.
git fetch --depth=1	Korlátozza a lekért lerakatelőzmények mennyiségét, és a teljes előzmény helyett csak a legfrissebb pillanatképet kapja meg. Nagy adattárak esetén ez felgyorsítja a folyamatot és csökkenti a sávszélesség-használatot.
git fetch --no-tags	Kikapcsolja a címkelekérést, ami ebben az esetben felesleges, és segít minimalizálni a távoli adattárból lekért adatok mennyiségét.
subprocess.run()	A Subprocess.run() a Pythonban lehetővé teszi egy shell-parancs futtatását (például egy Git-parancs) és az eredmény rögzítését. Hasznos a rendszerszintű parancsok automatizálási parancsfájlokba való beépítéséhez.
exec()	A Node.js fájlban az exec() egy JavaScript shell parancsot hajt végre. Git feladatok végrehajtására és azok eredményeinek aszinkron módon történő kezelésére szolgál.
unittest.TestCase	Meghatároz egy Python egységtesztet, amellyel megbizonyosodik arról, hogy a git_fetch() metódus sikeresen működik-e különféle körülmények között, beleértve az érvényes és érvénytelen elérési útvonalakat is.
git fetch --force	Gondoskodik arról, hogy a helyi adattár pontosan szinkronizálva legyen a távolival, még vita esetén is, még akkor is kényszerítve a visszakeresést, ha az nem gyors előreküldést eredményez.
git fetch "+refs/heads/:refs/remotes/origin/"	Azt jelzi, hogy a távoli tárolóból mely ágakat vagy hivatkozásokat kell lekérni. A pontos frissítések garantálása érdekében ez a parancs kifejezetten a távoli ágakat helyi hivatkozásokhoz rendeli hozzá.

A Git Fetch optimalizálása nagy tárolókhoz: magyarázat

A korábban megadott szkriptek arra szolgálnak, hogy kezeljék azokat a hatástalanságokat, amelyek akkor jelentkeznek a parancsokat nagy tárolókon hajtják végre. Annak ellenére, hogy nem történtek jelentős változtatások a tárolóban, ezek a hatékonysági problémák általában a kezdeti lekérés után válnak nyilvánvalóvá, amikor a Git véletlenül letölti a nagyméretű fájlokat. A szkriptek olyan argumentumokat használnak, mint és a véglegesítési előzmények korlátozása és az elavult hivatkozások eltávolítása a felesleges letöltések minimalizálása érdekében. A sebesség és a hatékonyság megőrzése kritikus fontosságú a folyamatos integrációs (CI) környezetekben, például a Jenkins-ben végzett munka során, ezért ez különösen létfontosságú.

Az első szkript bash nyelven íródott, és nagyon hasznos a kapcsolódó feladatokhoz automatizálás. A helyi lerakatkönyvtárba navigálás után kiadja a fetch parancsot optimális paraméterekkel, mint pl hogy megakadályozzuk a szükségtelen címkék lekérését és a helyi adattár és a távoli teljes szinkronizálásának garantálása érdekében. Ez a szkript is hozzáadja a --szilva opciót, amely segít a lerakat tisztán tartásában a már nem létező távoli ágakra való hivatkozások eltávolításával. Ezekkel a fejlesztésekkel gyorsabb végrehajtási sebesség érhető el a lekért adatok teljes méretének csökkentésével.

Az adaptálhatóbb lehetőséget a második szkript kínálja, amely Pythonban van írva. Több vezérlés és hibakezelés lehetséges, mivel a Git fetch parancsot egy Python-szkriptből hajtják végre a funkció. Ha a retrieve parancsot egy nagyobb rendszerbe, például egy CI/CD folyamatba kell beépíteni, ez különösen hasznos. A problémák hibakeresését vagy a lekérés sikerességének ellenőrzését megkönnyíti a Python-szkript, amely rögzíti a lekérési hívás kimenetét, és naplózza a hibákat. Ez a megoldás bonyolultabb automatizált tevékenységekhez is egyszerűbb méretezhető, mivel a Python szkriptelés támogatott.

Végül az utolsó megközelítés egy Git letöltést hajt végre a Node.js használatával. Az átvitt adatok mennyisége jelentősen csökkenthető ezzel a szkripttel, amely az egyes ágak lekérésére koncentrál. Használata a fiókok jelzéséhez gondoskodik arról, hogy csak a szükséges hivatkozások kerüljenek letöltésre. A hatékonyság további optimalizálása érdekében ez a stratégia különösen hasznos olyan esetekben, amikor a fejlesztők csak bizonyos ágak frissítéseit szeretnék elérni. Mivel a Node.js aszinkron, ez a folyamat anélkül tud működni, hogy akadályozna más folyamatokat, ami tökéletessé teszi a valós idejű alkalmazásokhoz.

A Git Fetch teljesítményének optimalizálása nagy tárolókban

Bash Script használata a nagy git lehívások kezelésére és optimalizálására

#!/bin/bash
# Bash script to improve Git fetch efficiency by avoiding unnecessary pack downloads
# This solution ensures only required refs are fetched
REPO_URL="git@code.wexx.com:ipc/hj_app.git"
LOCAL_REPO_DIR="/path/to/local/repo"
cd $LOCAL_REPO_DIR || exit
# Fetch only the refs that have changed
git fetch --prune --no-tags --force --progress $REPO_URL
# Check the status of the fetch
if [ $? -eq 0 ]; then echo "Fetch successful"; else echo "Fetch failed"; fi

Python Script használata a Git Fetchhez a CI/CD folyamatokban

Python Script a CI/CD Pipeline lekérés teljesítményének javítására

import subprocess
import os
# Function to run a Git fetch command and handle output
def git_fetch(repo_path, repo_url):
    os.chdir(repo_path)
    command = ["git", "fetch", "--prune", "--no-tags", "--force", "--depth=1", repo_url]
    try:
        result = subprocess.run(command, capture_output=True, text=True)
        if result.returncode == 0:
            print("Fetch completed successfully")
        else:
            print(f"Fetch failed: {result.stderr}")
    except Exception as e:
        print(f"Error: {str(e)}")

Node.js szkript csak meghatározott ágak lekéréséhez a Gitből

Node.js szkript adott ágak lekéréséhez a terhelés csökkentése érdekében

const { exec } = require('child_process');
const repoUrl = "git@code.wexx.com:ipc/hj_app.git";
const repoDir = "/path/to/local/repo";
# Function to fetch only a single branch
const fetchBranch = (branch) => {
  exec(`cd ${repoDir} && git fetch --no-tags --force ${repoUrl} ${branch}`, (err, stdout, stderr) => {
    if (err) {
      console.error(\`Error: ${stderr}\`);
    } else {
      console.log(\`Fetched ${branch} successfully: ${stdout}\`);
    }
  });
};
# Fetching a specific branch to optimize performance
fetchBranch('refs/heads/main');

Egységteszt a Git Fetch Python Scripthez

Python egységteszt a Git Fetch szkript megfelelő működésének biztosítására

import unittest
from fetch_script import git_fetch
class TestGitFetch(unittest.TestCase):
    def test_successful_fetch(self):
        result = git_fetch('/path/to/repo', 'git@code.wexx.com:ipc/hj_app.git')
        self.assertIsNone(result)
    def test_failed_fetch(self):
        result = git_fetch('/invalid/path', 'git@code.wexx.com:ipc/hj_app.git')
        self.assertIsNotNone(result)
if __name__ == '__main__':
    unittest.main()

A Big Pack fájlok Git Fetch sebességre gyakorolt hatásának vizsgálata

Az egyik kevésbé ismert oka a A második futtatás hosszabb időt vesz igénybe, mivel a Git nagy adattárakat, nevezetesen csomagfájlokat kezel. A csomagfájlok, amelyek olyan objektumok tömörített gyűjteményei, mint a véglegesítések, fák és blobok, hatékony módszert jelentenek a Git számára a lerakatadatok tárolására. Bár ez helyet takarít meg, késedelmet okozhat a letöltésben, különösen, ha a szükségesnél gyakrabban töltik le a nagyméretű fájlokat. Ezek a csomagfájlok nagyon nagyokká válhatnak, és hosszadalmas visszakeresési időt okozhatnak, amikor a tárhely idővel növekszik, ahogyan ez egy több éve fejlődő projektben is előfordulhat.

Nagyon fontos megérteni, hogy a Git hogyan használ meghatározott jelzőket a lekérési folyamatok optimalizálására a probléma megelőzése érdekében. Például csak a legutóbbi végrehajtási előzmények lekérése, amikor a opció használata sekély másolatra korlátozza a lekérést. Mindazonáltal, ha a Git eltéréseket vagy módosításokat talál az ágakban, akkor is dönthet úgy, hogy bizonyos körülmények között letölt egy méretes csomagfájlt. Ez még jelentősebb adattár-frissítések hiányában is előfordulhat, és zavart okozhat a mérnökök körében.

Használata A szükségtelen ágak és hivatkozások eltávolítása egy további módszer az elavult távoli ágak eltávolítására. Drasztikusan lecsökkentheti a lekérés idejét, ha rendszeresen megtisztítja a tárat, és gondoskodik arról, hogy csak a releváns adatok kerüljenek letöltésre. Ez nagyon hasznos a folyamatos integrációs/folyamatos fejlesztési (CI/CD) beállításokban, ahol az ismétlődő letöltések akadályozhatják a felépítési sebességet és a fejlesztés hatékonyságát.

Miért tart tovább a második git letöltés, mint az első?
A Git gyakran tölt le olyan nagyméretű fájlokat, amelyekre nem volt szükség az első lekéréskor, így a második lekérés tovább tart. Használja hogy csökkentsük a felesleges történelmet.
Hogyan akadályozhatom meg, hogy a Git szükségtelen adatokat töltsön le?
Annak biztosítására, hogy a helyi adattár pontosan megegyezzen a távolival, és elkerülje a címkék letöltését, használja a és opciók.
Mi a szerepe a csomagfájloknak a Gitben?
A Git objektumokat csomagfájloknak nevezett csoportokba tömörítik. Bár helyet takarítanak meg, ha nagy fájlokat töltenek le a lekérés során, lassú lekérési időt eredményezhetnek.
Csak meghatározott ágakat kérhetek le a teljesítmény javítása érdekében?
Igen, korlátozhatja a lekérést bizonyos ágakra , ami csökkenti a továbbított adatok mennyiségét.
Hogyan segít a letöltési sebesség javításában?
Ez a parancs segít megtisztítani a tárat és javítani a visszakeresési időket azáltal, hogy eltávolítja a már nem aktív távoli ágakra mutató hivatkozásokat.

A fejlesztők optimalizálhatják munkafolyamataikat, ha tudják, miért a második tovább tart, különösen nagy adattárak esetén. A probléma általában abból adódik, hogy a Git extra csomagfájlokat tölt le; ez bizonyos lekérési beállítások használatával megelőzhető.

Az átvitt adatok mennyiségének csökkentésével olyan módszerek, mint pl és garantálja a gyorsabb letöltést. E technikák Jenkins-szerű rendszerekben történő alkalmazásával a fejlesztés ésszerűsíthető, és az ismétlődő visszakeresési műveletekre fordított idő csökkenthető.

A csomagfájlok és a Git optimalizálási stratégiák magyarázata: Git Internals: Packfiles
A Git fetch teljesítménytuning részletei: Stack Overflow vita a Git Fetch felgyorsításáról
A CI/CD folyamatokban lévő nagy adattárak optimalizálásának legjobb gyakorlatai: Jenkins Git Integration legjobb gyakorlatai
Git dokumentáció a speciális lekérési beállításokhoz: A Git Fetch hivatalos dokumentációja