மிகவும் பொதுவான

Mia Chevalier

ஞாயிறு, 29 டிசம்பர், 2024 ’அன்று’ பிற்பகல் 10:09:35

அன்றாட மொழி வடிவங்களின் குறியீட்டை உடைத்தல்

தினசரி உரையாடல்களில் சில வார்த்தைகளை மற்றவர்களை விட பொதுவானதாக மாற்றுவது எது என்று நீங்கள் எப்போதாவது யோசித்திருக்கிறீர்களா? மொழி ஆர்வலர்கள் அல்லது டெவலப்பர்களுக்கு, அடிக்கடி பயன்படுத்தப்படும் வார்த்தைகளை குறிப்பது கவர்ச்சிகரமானதாகவும் சவாலாகவும் இருக்கும். நீங்கள் உருவாக்கிய தனிப்பயன் அகராதியைப் பயன்படுத்தும்போது இந்த செயல்முறை இன்னும் புதிரானதாக மாறும். 🧩

"வெப்பமான நாளில் குளிர்ச்சியான தண்ணீரைக் குடித்து மகிழ்கிறேன்" போன்ற ஒரு வாக்கியம் உங்களிடம் இருப்பதாகக் கற்பனை செய்துகொள்ளுங்கள், மேலும் வழக்கமான உரையாடல்களில் அதிகம் பயன்படுத்தப்படும் வார்த்தையைத் தீர்மானிக்க வேண்டும். அன்றாட பேச்சு முறைகளுடன் எதிரொலிப்பதால், பதில் "நீர்" என்று இருக்கலாம். ஆனால் பைதான் போன்ற நிரலாக்க கருவிகளைப் பயன்படுத்தி இதை எவ்வாறு பெறுவது? இயக்கவியலில் ஆழமாக மூழ்குவோம். 🐍

NLTK போன்ற நூலகங்கள் உரை பகுப்பாய்விற்கு சிறந்தவை என்றாலும், இந்த குறிப்பிட்ட தேவையை நிவர்த்தி செய்வதற்கான நேரடி செயல்பாட்டைக் கண்டறிவது மழுப்பலாக இருக்கும். செயல்முறையை மிகைப்படுத்தாமல் கையேடு தர்க்கம் மற்றும் தானியங்கு தீர்வுகளை சமநிலைப்படுத்துவதில் சவால் உள்ளது. AI அல்லது கணக்கீட்டு மொழியியலுக்குப் புதியவர்களுக்கு, இலக்கு பெரும்பாலும் தெளிவு மற்றும் எளிமை.

உங்கள் அகராதியில் இருந்து பிரபலமான சொற்களை எவ்வாறு திறமையாக அடையாளம் காண்பது என்பதை இந்தக் கட்டுரை ஆராய்கிறது. நீங்கள் ஒரு வார்த்தை யூகிக்கும் விளையாட்டை உருவாக்கினாலும் அல்லது மொழியியல் போக்குகளைப் பற்றி ஆர்வமாக இருந்தாலும், இந்த வழிகாட்டி பணியைச் சமாளிப்பதற்கான நடைமுறை முறைகளை உங்களுக்கு வழங்கும். 🚀

கட்டளை	பயன்பாட்டின் உதாரணம்
nltk.download('stopwords')	ஸ்டாப்வேர்டு பட்டியல் போன்ற தேவையான NLTK தரவு பயன்பாட்டிற்கு இருப்பதை உறுதி செய்கிறது. பதிவிறக்கம் செய்யாமல், ஸ்டாப்வேர்ட்ஸ் தொகுதி பிழையை ஏற்படுத்தலாம்.
nltk.word_tokenize(text)	உள்ளீட்டு உரையை தனிப்பட்ட சொற்களாக டோக்கனைஸ் செய்கிறது, ஒவ்வொரு வார்த்தையையும் தனித்தனியாக பகுப்பாய்வு செய்வதை அல்லது கையாளுவதை எளிதாக்குகிறது.
set(stopwords.words('english'))	"தி," "மற்றும்," மற்றும் "ஆன்" போன்ற பகுப்பாய்விலிருந்து விலக்குவதற்கான பொதுவான ஆங்கில நிறுத்த வார்த்தைகளின் தொகுப்பை உருவாக்குகிறது.
Counter(filtered_words)	வடிகட்டப்பட்ட சொற்களுக்கு அதிர்வெண் விநியோகத்தை உருவாக்குகிறது, இது மிகவும் பொதுவான வார்த்தையை விரைவாக அடையாளம் காண அனுமதிக்கிறது.
most_common = word_counts.most_common(1)	எதிர் பொருளில் இருந்து மேல் உள்ளீட்டை மீட்டெடுப்பதன் மூலம் தரவுத்தொகுப்பில் அடிக்கடி வரும் ஒற்றைச் சொல்லைக் கண்டறியும்.
filtered_words.count(word)	தூய பைதான் அணுகுமுறையில் பயன்படுத்தப்படும் வடிகட்டப்பட்ட சொற்களின் பட்டியலில் ஒரு குறிப்பிட்ட வார்த்தையின் நிகழ்வுகளைக் கணக்கிடுகிறது.
max(word_counts, key=word_counts.get)	அதிக அதிர்வெண் மதிப்பைக் கொண்ட அகராதியில் விசையை (சொல்லை) கண்டறிகிறது.
pipeline("summarization")	ஹக்கிங் ஃபேஸ் டிரான்ஸ்ஃபார்மர்களைப் பயன்படுத்தி உரை சுருக்க மாதிரியைத் துவக்குகிறது, முக்கிய புள்ளிகளுக்கு உரையை ஒடுக்குவது போன்ற மேம்பட்ட NLP பணிகளை அனுமதிக்கிறது.
do_sample=False	சுருக்கமாக்கல் செயல்பாட்டில் சீரற்ற மாதிரியைத் தவிர்த்து, நிர்ணயிக்கும் வெளியீட்டை உருவாக்க சுருக்கமாக்கல் மாதிரியை அறிவுறுத்துகிறது.
summary[0]['summary_text']	மேலும் பகுப்பாய்விற்காக ஹக்கிங் ஃபேஸ் சுருக்கமாக்கல் பைப்லைனிலிருந்து சுருக்கப்பட்ட உரை வெளியீட்டை அணுகுகிறது.

பிரபலமான சொற்களைக் கண்டறியும் முறைகளை உடைத்தல்

முதல் ஸ்கிரிப்ட்டில், ஒரு உரையில் அடிக்கடி பயன்படுத்தப்படும் சொற்களை அடையாளம் காண NLTK நூலகத்தின் ஆற்றலைப் பயன்படுத்தினோம். `word_tokenize` ஐப் பயன்படுத்தி உள்ளீட்டு வாக்கியத்தை தனிப்பட்ட வார்த்தைகளில் டோக்கனைஸ் செய்வதன் மூலம் செயல்முறை தொடங்குகிறது. இந்தப் படியானது மேலும் பகுப்பாய்விற்காக உரையை நிர்வகிக்கக்கூடிய பகுதிகளாகப் பிரிக்கிறது. முக்கியமில்லாத சொற்களை வடிகட்ட, NLTK இலிருந்து `நிறுத்த வார்த்தைகள்` பட்டியலைப் பயன்படுத்தினோம், இதில் "the" மற்றும் "on" போன்ற பொதுவான ஆங்கிலச் சொற்கள் அடங்கும். இவற்றை நீக்குவதன் மூலம், அர்த்தமுள்ள தகவலைக் கொண்டு செல்லும் வார்த்தைகளில் கவனம் செலுத்துகிறோம். எடுத்துக்காட்டாக, "சூடான நாளில் குளிர்ந்த கிளாஸ் தண்ணீரை நான் அனுபவிக்கிறேன்" என்ற வாக்கியத்தில், "மகிழ்ச்சி", "குளிர்" மற்றும் "தண்ணீர்" போன்ற வார்த்தைகளை விட்டுவிட்டு, நிறுத்த வார்த்தைகள் விலக்கப்பட்டுள்ளன. இந்த வடிகட்டுதல் செயல்முறை மிகவும் பொருத்தமான உள்ளடக்கத்தை முன்னிலைப்படுத்த உதவுகிறது. 🧠

அடுத்து, சேகரிப்பு தொகுதியிலிருந்து பைத்தானின் `கவுண்டர்` ஐப் பயன்படுத்தினோம். வடிகட்டப்பட்ட பட்டியலில் உள்ள ஒவ்வொரு வார்த்தையின் அதிர்வெண்ணையும் இந்த எளிமையான கருவி திறமையாக கணக்கிடுகிறது. வார்த்தை எண்ணிக்கைகள் கிடைத்தவுடன், `most_common` முறை அதன் அதிர்வெண்ணின் அடிப்படையில் மேல் சொல்லைப் பிரித்தெடுக்கிறது. இந்த வழக்கில், "தண்ணீர்" என்ற வார்த்தையானது தினசரி பயன்பாட்டின் கருத்துடன் எதிரொலிப்பதால் அது வெளியீடாக இருக்கலாம். சிறிய மற்றும் நடுத்தர அளவிலான தரவுத்தொகுப்புகளை பகுப்பாய்வு செய்வதற்கு இந்த முறை மிகவும் பயனுள்ளதாக இருக்கும் மற்றும் அதிக கணக்கீட்டு மேல்நிலை இல்லாமல் துல்லியமான முடிவுகளை உறுதி செய்கிறது. NLTKஐப் பயன்படுத்தி, செயல்பாட்டுடன் எளிமையைச் சமப்படுத்துகிறோம். 💡

இரண்டாவது ஸ்கிரிப்ட்டில், வெளிப்புற நூலகங்களைத் தவிர்த்து, தூய பைதான் அணுகுமுறையைத் தேர்ந்தெடுத்தோம். நூலகத்தை நிறுவுவது சாத்தியமில்லாத அல்லது எளிமையாக இருக்கும் சூழ்நிலைகளுக்கு இந்த முறை சிறந்தது. ஸ்டாப்வேர்டுகளின் தனிப்பயன் பட்டியலை வரையறுப்பதன் மூலம், நிரல் முக்கியமற்ற சொற்களை கைமுறையாக வடிகட்டுகிறது. எடுத்துக்காட்டாக, அதே வாக்கியத்தைச் செயலாக்கும்போது, "நான்," "ஆன்," மற்றும் "அ" ஆகியவற்றைத் தவிர்த்து, "கண்ணாடி" மற்றும் "நாள்" போன்ற வார்த்தைகளை மையப்படுத்துகிறது. வார்த்தை அதிர்வெண் பின்னர் அகராதி புரிதலைப் பயன்படுத்தி கணக்கிடப்படுகிறது, இது ஒவ்வொரு வார்த்தையின் நிகழ்வுகளையும் திறமையாக கணக்கிடுகிறது. இறுதியாக, `max` செயல்பாடு அதிக அதிர்வெண் கொண்ட வார்த்தையை அடையாளம் காட்டுகிறது. இந்த அணுகுமுறை இலகுரக மற்றும் தனிப்பயனாக்கக்கூடியது, தனிப்பட்ட தேவைகளுக்கு நெகிழ்வுத்தன்மையை வழங்குகிறது.

கடைசியாக, AI-உந்துதல் அணுகுமுறை மிகவும் மேம்பட்ட தீர்வுக்காக ஹக்கிங் ஃபேஸ் டிரான்ஸ்ஃபார்மர்ஸ் லைப்ரரியை அறிமுகப்படுத்தியது. முன் பயிற்சி பெற்ற சுருக்க மாதிரியைப் பயன்படுத்தி, ஸ்கிரிப்ட் உள்ளீட்டு உரையை சுருக்கி, அதன் முக்கிய யோசனைகளில் கவனம் செலுத்துகிறது. இந்த சுருக்கப்பட்ட உரை பின்னர் அடிக்கடி பயன்படுத்தப்படும் வார்த்தைகளுக்கு பகுப்பாய்வு செய்யப்படுகிறது. இந்த முறை அதிக கணக்கீட்டு வளங்களை உள்ளடக்கியிருந்தாலும், இது சூழல்-விழிப்புணர்வு முடிவுகளை வழங்குகிறது, இது சிக்கலான மொழி செயலாக்க பணிகளுக்கு ஏற்றதாக அமைகிறது. உதாரணமாக, "வெப்பமான நாளில் குளிர்ந்த கிளாஸ் தண்ணீரை நான் அனுபவிக்கிறேன்" என்று சுருக்கமாகச் சொன்னால், "நான் தண்ணீரை அனுபவிக்கிறேன்", அதன் முக்கியத்துவத்தை எடுத்துக்காட்டுகிறது. AI ஐ பாரம்பரிய முறைகளுடன் இணைப்பது எளிமை மற்றும் நுட்பத்தை இணைக்கிறது, டெவலப்பர்கள் பல்வேறு சவால்களை திறம்பட சமாளிக்க அனுமதிக்கிறது. 🚀

தனிப்பயன் தரவுத்தொகுப்பிலிருந்து ஆங்கிலத்தில் பொதுவாகப் பயன்படுத்தப்படும் சொற்களை எவ்வாறு தீர்மானிப்பது

இயற்கை மொழி செயலாக்கத்திற்காக பைதான் மற்றும் NLTK நூலகத்தைப் பயன்படுத்தி தீர்வு

# Import necessary libraries
import nltk
from nltk.corpus import stopwords
from collections import Counter
# Ensure NLTK data is available
nltk.download('stopwords')
# Define the input text
text = "I enjoy a cold glass of water on a hot day"
# Tokenize the text into words
words = nltk.word_tokenize(text.lower())
# Filter out stop words
stop_words = set(stopwords.words('english'))
filtered_words = [word for word in words if word.isalpha() and word not in stop_words]
# Count word frequencies
word_counts = Counter(filtered_words)
# Find the most common word
most_common = word_counts.most_common(1)
print("Most common word:", most_common[0][0])

ஒரு தூய பைதான் அணுகுமுறையுடன் பொதுவான சொற்களை அடையாளம் காணுதல்

எளிமைக்காக வெளிப்புற நூலகங்கள் இல்லாமல் பைத்தானைப் பயன்படுத்தும் தீர்வு

# Define the input text
text = "I enjoy a cold glass of water on a hot day"
# Define stop words
stop_words = {"i", "a", "on", "of", "the", "and"}
# Split text into words
words = text.lower().split()
# Filter out stop words
filtered_words = [word for word in words if word not in stop_words]
# Count word frequencies
word_counts = {word: filtered_words.count(word) for word in set(filtered_words)}
# Find the most common word
most_common = max(word_counts, key=word_counts.get)
print("Most common word:", most_common)

இயந்திர கற்றல் அணுகுமுறையுடன் பொதுவான சொற்களை அடையாளம் காண AI ஐப் பயன்படுத்துதல்

பைத்தானைப் பயன்படுத்தும் தீர்வு மற்றும் ஹக்கிங் ஃபேஸ் டிரான்ஸ்ஃபார்மர்ஸ் லைப்ரரியுடன் கூடிய முன் பயிற்சி பெற்ற AI மொழி மாதிரி

# Import necessary libraries
from transformers import pipeline
# Initialize the language model pipeline
summarizer = pipeline("summarization")
# Define the input text
text = "I enjoy a cold glass of water on a hot day"
# Generate a summary
summary = summarizer(text, max_length=10, min_length=5, do_sample=False)
# Analyze for most common terms in the summary
summary_text = summary[0]['summary_text']
words = summary_text.split()
word_counts = {word: words.count(word) for word in set(words)}
# Find the most common word
most_common = max(word_counts, key=word_counts.get)
print("Most common word:", most_common)

உரை செயலாக்கத்தில் அதிர்வெண் பகுப்பாய்வை ஆய்வு செய்தல்

அகராதியில் மிகவும் பிரபலமான சொற்களைத் தீர்மானிப்பதில் அடிக்கடி கவனிக்கப்படாத ஒரு அம்சம் சொல் சூழல் மற்றும் மொழியியல் வடிவங்கள் ஆகியவற்றின் பங்கு ஆகும். தினசரி உரையாடலில் பிரபலமான சொற்கள் பெரும்பாலும் இணைப்பாளர்களாக செயல்படுகின்றன அல்லது விமர்சனக் கருத்துக்களை வெளிப்படுத்துகின்றன, ஆனால் அவற்றின் முக்கியத்துவம் பாடத்தின் அடிப்படையில் மாறுபடும். உதாரணமாக, ஒரு சமையல் உரையில், "செய்முறை" மற்றும் "பொருட்கள்" போன்ற சொற்கள் ஆதிக்கம் செலுத்தலாம், அதே நேரத்தில் விளையாட்டு எழுத்தில், "விளையாட்டு" அல்லது "குழு" போன்ற சொற்கள் முன்னுரிமை பெறுகின்றன. சூழலைப் புரிந்துகொள்வது, தேர்ந்தெடுக்கப்பட்ட முறைகள் உரையின் தனித்துவமான பண்புகளை திறம்பட பூர்த்தி செய்வதை உறுதி செய்கிறது. 🌟

மற்றொரு கருத்தில் நிறுத்த வார்த்தைகள். அர்த்தமுள்ள வார்த்தைகளில் கவனம் செலுத்துவதற்காக இவை பொதுவாக அகற்றப்பட்டாலும், அவை உரையின் கட்டமைப்பைப் பற்றிய நுண்ணறிவுகளை வழங்கும் சூழ்நிலைகள் உள்ளன. எடுத்துக்காட்டாக, உரையாடல்களை பகுப்பாய்வு செய்வதற்கு, இயல்பான உரையாடல் முறைகளைப் படிக்க பொதுவான நிறுத்துச் சொற்களைத் தக்கவைத்துக் கொள்ள வேண்டும். Python இன் `nltk` அல்லது AI-இயங்கும் மொழி மாதிரிகள் போன்ற மேம்பட்ட கருவிகள் குறிப்பிட்ட தேவைகளுக்கு ஏற்ப ஸ்டாப்வேர்டு கையாளுதலுக்கு உதவும், இது செயல்திறன் மற்றும் விவரங்களுக்கு இடையே சமநிலையை ஏற்படுத்துகிறது.

கடைசியாக, டைனமிக் அகராதிகளை செயல்படுத்துவது இந்த செயல்முறையை கணிசமாக மேம்படுத்தும். இந்த அகராதிகள் உள்ளீட்டின் அடிப்படையில் மாற்றியமைக்கப்படுகின்றன, காலப்போக்கில் அடிக்கடி அல்லது தனித்துவமான சொற்களுக்கு முன்னுரிமை அளிக்க கற்றுக்கொள்கின்றன. இந்த அணுகுமுறை சாட்போட்கள் அல்லது உரை அடிப்படையிலான கேம்கள் போன்ற நீண்ட கால திட்டங்களுக்கு மிகவும் மதிப்புமிக்கது, அங்கு பயனர் தொடர்புடன் மொழி உருவாகிறது. டைனமிக் அகராதி கணிப்புகள் அல்லது பரிந்துரைகளைச் செம்மைப்படுத்த உதவுகிறது, உண்மையான நேரத்தில் சிறந்த முடிவுகளை வழங்குகிறது. சூழல், ஸ்டாப்வேர்டுகள் மற்றும் டைனமிக் முறைகளை கவனமாகக் கருத்தில் கொண்டு, உரை அதிர்வெண் பகுப்பாய்வு ஒரு பல்துறை மற்றும் வலுவான கருவியாக மாறும். 🚀

பிரபலமான சொற்களை அடையாளம் காண்பது பற்றிய பொதுவான கேள்விகள்

வார்த்தை அதிர்வெண்களை எண்ணுவதற்கான மிகச் சிறந்த வழி எது?
பைத்தானைப் பயன்படுத்துதல் Counter சேகரிப்பு தொகுதியிலிருந்து ஒரு உரையில் வார்த்தை நிகழ்வுகளை எண்ணுவதற்கான மிகச் சிறந்த முறைகளில் ஒன்றாகும்.
உரை பகுப்பாய்வில் நிறுத்தற்குறிகளை எவ்வாறு கையாள்வது?
பைத்தானைப் பயன்படுத்துவதன் மூலம் நிறுத்தற்குறிகளை நீக்கலாம் str.isalpha() முறை அல்லது மிகவும் சிக்கலான நிகழ்வுகளுக்கு வழக்கமான வெளிப்பாடுகளைப் பயன்படுத்துதல்.
கூடுதல் கோப்புகளைப் பதிவிறக்காமல் நான் NLTK ஐப் பயன்படுத்தலாமா?
இல்லை, ஸ்டாப்வேர்டு அகற்றுதல் அல்லது டோக்கனைசேஷன் போன்ற பணிகளுக்கு, குறிப்பிட்ட ஆதாரங்களைப் பயன்படுத்தி பதிவிறக்கம் செய்ய வேண்டும் nltk.download().
இந்தச் செயல்பாட்டில் AI மாதிரிகளை எவ்வாறு சேர்ப்பது?
நீங்கள் ஹக்கிங் ஃபேஸ் டிரான்ஸ்ஃபார்மர்களைப் பயன்படுத்தலாம்' pipeline() பாரம்பரிய அதிர்வெண் எண்ணிக்கையைத் தாண்டிய வடிவங்களுக்கான உரையைச் சுருக்கி அல்லது பகுப்பாய்வு செய்யும் முறை.
அதிர்வெண் பகுப்பாய்வில் சில பொதுவான குறைபாடுகள் யாவை?
நிறுத்துச் சொற்கள் அல்லது சூழலைப் புறக்கணிப்பது முடிவுகளைத் திசைதிருப்பலாம். கூடுதலாக, வடிவங்களைத் தரநிலையாக்க உரையை முன்கூட்டியே செயலாக்காதது (எ.கா., சிற்றெழுத்து மாற்றம்) பிழைகளுக்கு வழிவகுக்கும்.

அதிர்வெண் பகுப்பாய்வின் முக்கிய குறிப்புகள்

ஒரு உரையில் அடிக்கடி பயன்படுத்தப்படும் சொற்களைப் புரிந்துகொள்வது, மொழி வடிவங்கள் மற்றும் தகவல்தொடர்பு போக்குகள் பற்றிய சிறந்த நுண்ணறிவுகளை அனுமதிக்கிறது. போன்ற கருவிகள் கவுண்டர் மற்றும் மாறும் அகராதிகள் துல்லியம் மற்றும் தகவமைப்புத் தன்மையை உறுதி செய்தல், தனிப்பட்ட திட்டத் தேவைகளைப் பூர்த்தி செய்தல்.

நீங்கள் கேம், சாட்போட் அல்லது பகுப்பாய்வு திட்டத்தில் பணிபுரிந்தாலும், AI அல்லது பைதான் ஸ்கிரிப்ட்களை இணைப்பது செயல்முறையை மேம்படுத்துகிறது. பொருத்தமற்ற தரவை அகற்றி, அத்தியாவசிய விதிமுறைகளில் கவனம் செலுத்துவதன் மூலம், உங்கள் முடிவுகளில் செயல்திறன் மற்றும் தெளிவு ஆகிய இரண்டையும் நீங்கள் அடையலாம். 🌟

பைத்தானில் உரை பகுப்பாய்விற்கான ஆதாரங்கள் மற்றும் குறிப்புகள்

இயல்பான மொழி செயலாக்கம் மற்றும் நிறுத்துச்சொல் வடிகட்டுதல் பற்றிய நுண்ணறிவுகளுக்கு, அதிகாரப்பூர்வ NLTK ஆவணத்தைப் பார்வையிடவும்: NLTK நூலகம் .
சொல் அதிர்வெண் பகுப்பாய்விற்கான பைதான் `collections.Counter` தொகுதியைப் பயன்படுத்துவது பற்றிய விவரங்கள் இங்கே கிடைக்கின்றன: பைதான் தொகுப்புகள் .
ஹக்கிங் ஃபேஸ் டிரான்ஸ்ஃபார்மர்களுடன் மேம்பட்ட AI அடிப்படையிலான உரை சுருக்கத்தை இங்கே ஆராயுங்கள்: கட்டிப்பிடிக்கும் முக மின்மாற்றி .
அதிகாரப்பூர்வ பைதான் ஆவணத்தில் உரை செயலாக்கத்திற்கான பொது பைதான் நிரலாக்கத்தைப் பற்றி அறிக: பைதான் ஆவணம் .

மிகவும் பொதுவான ஆங்கில வார்த்தைகளைக் கண்டறிய தனிப்பயன் அகராதியை எவ்வாறு பயன்படுத்துவது