பிக் டேட்டா

23. ஒன்றைவிட இன்னொன்று.. எப்போதும் பெட்டர்!

ஜெ.ராம்கி

‘அதுக்கும் இதுக்கும் என்னய்யா சம்பந்தம்?’ என்று அலுத்துக்கொள்பவர்கள் நிறைய உண்டு. அது வேறு, இது வேறு என்றுதான் எப்போதும் நினைக்கத் தோன்றுகிறது. ஏதாவது ஒரு வகையில், இரண்டுக்கும் தொடர்பு இருக்கத்தான் செய்கிறது என்பதை லேசாக கோடு காட்டிவிட்டாலே போதும். ஆர்வத்தில் சீட்டின் நுனிக்கு வந்துவிடுகிறோம். ஐஸ்கிரீம் விற்பனைக்கும் ஒரு நகரத்தின் தட்பவெப்ப சூழ்நிலைக்கும் உள்ள தொடர்பைப் பற்றி ஏற்கெனவே பார்த்தோம்.

சென்னை போன்ற கணிக்கவே முடியாத பருவநிலை, வானிலை,  தட்பவெப்ப சூழல் கொண்ட நகரங்களை விட்டுத்தள்ளுவோம். இவற்றையெல்லாம் எந்நாளும் கணிக்கவே முடியாது.  டெல்லி, நாக்பூர் போன்ற நிலப்பகுதியின் நட்டநடுவில் உள்ள நகரங்களின் வானிலையை எளிதாகக் கணிக்கலாம். ஏன், மும்பை, கொச்சி போன்ற அரபிக்கடலை ஒட்டியுள்ள நகரங்களின் வானிலையைக்கூட கணித்துவிட முடியும். சரி, எதற்காக கணிக்க வேண்டும்? 

ஐஸ்கிரீம் விற்பனையை, நகரத்தின் வானிலை பாதிக்கிறது என்பது நன்றாகவே தெரிகிறது. அடுத்து, வானிலையை எப்படி கணிப்பது என்பதை நோக்கி நாம் நகர்ந்தாக வேண்டும். ஐஸ்கிரீம் நிறுவனத்தைச் சேர்ந்த மார்கெட்டிங் டீம், அதை நோக்கித்தான் நகர்கிறது. அடுத்த பிஸினெஸ் வாய்ப்புகளை முன்கூட்டியே கணிக்க வேண்டுமானால், இதற்குத் தயாராக இருந்தாக வேண்டும்.

சம்பந்தப்பட்ட நகரம், கடலில் இருந்து எவ்வளவு தூரம் தள்ளியிருக்கிறது? சராசரி வெப்பம், பருவமழை பெய்யும் காலம், பண்டிகைகள் கொண்டாடப்படும் காலம் என்பதைப் பொறுத்து காலநிலையைக் கணிக்க முடியும். மழைக்காலம் என்பதால் உள்ளாட்சித் தேர்தலையே தள்ளிவைக்கிறார்கள். கஜா புயல், தமிழகத்தில் டெல்டா பகுதியின் வாழ்க்கையை தலைகீழாக்கியுள்ள நிலையில், புயல், மழை என்னும் வார்த்தைகளைக் கேட்டாலே பீதியடைய நேர்கிறது என்பதால், ஐஸ்கிரீம் உதாரணத்தை கைவிட்டுவிட்டு, வேறு உதாரணத்தை எடுத்துக்கொள்வோம்.

பத்தாங்கிளாஸ் தேர்வில் 90 மதிப்பெண்களுக்கு மேல் பெறும் மாணவர்களில் எத்தனை பேர் பிளஸ்டூ தேர்விலும் 90 மதிப்பெண்கள் பெறுகிறார்கள்? எத்தனை பேர் 70 மதிப்பெண்கள் பெறுகிறார்கள்? எத்தனை பேர் தேர்வில் தோல்வியடைகிறார்கள்? (ஆச்சரியப்பட வேண்டாம், எதுவும் நடக்கும்!) இவற்றையெல்லாம் கணித்துச் சொல்லிவிட முடியுமா? நிச்சயம் முடியும். Regression, Correlation பற்றியெல்லாம் கேள்விப்பட்டதுண்டா? இப்போது, எட்டாங்கிளாஸ் வகுப்பிலேயே புள்ளியியல் பாடங்கள் சொல்லித் தரப்படுகின்றன.

ஒன்றை இன்னொன்று சார்ந்திருப்பதுதான் correlation. அது தெரிந்துவிட்டால், தொடர் நிகழ்வுகாக நிகழும் regression-ஐ கணிக்க முடியும். உதாரணத்துக்கு, ஐஸ்கிரீம் - மழைப்பொழிவு. இரண்டுக்கும் தொடர்பு இருக்கிறது என்பதை நிறுவிவிட்டால், அத்தனை ரெக்கார்டுகளையும் அலசி, துல்லியமாக்க் கவனித்துவிடலாம். அதெல்லாம் சரி, இது முழுக்க முழுக்க புள்ளியியல் சார்ந்த விஷயம். இதில் பிக் டேட்டா எங்கே வருகிறது?

புள்ளியியல் ஆய்வுக்கான தரவுகளைத் தருவது யார்? கோடிக்கணக்கான ரெக்கார்டுகளை அலசி, ஆராய வேண்டும் என்றால், அது பிக் டேட்டாவால் மட்டுமே முடியும். அதன்மூலம் கிடைக்கும் முடிவுகளின் துல்லியத்தை உறுதிப்படுத்த முடியும். பிக் டேட்டா முதலில் correlation-க்கு முக்கியத்துவம் தருகிறது. இரண்டு வெவ்வேறு காரணிகளுக்கு இடையே ஏதாவது தொடர்பு இருககிறதா என்பதை முதலில் உறுதிப்படுத்திக்கொள்கிறது. அதற்குப் பின்னர், regression கணிக்கிறது. Independent variable மதிப்புகளைத் தந்துவிட்டால், dependent variable மதிப்பைக் கண்டுபிடித்துவிடலாம்.

பிக் டேட்டா உலகில் அதிகமான பயன்பாட்டில் இருப்பது, ஃபில்டரிங் (filtering). பயனாளிகளுக்கு என்ன தேவையோ, அத்தகைய தகவல்களை மட்டும் வடிகட்டி சம்பந்தப்பட்டவர்களுக்கு அளிப்பது. ஏன் வடிகட்ட வேண்டும்?  எல்லோருக்கும் எல்லா தகவல்களும் தேவைப்படுவதில்லை. தேவைக்கு அதிகமான பாரத்தைத் தாங்காமல் மாடுகள் தள்ளாடுவதுபோல், மனிதர்களும் தள்ளாடுவது உண்டு. தேவைக்கு அதிகமான தகவல்களை யாராலும் சரியான முறையில் பயன்படுத்திக்கொள்ள முடியாது. பயனாளிகளும் அதை விரும்பவதில்லை. ஆகவே, ஃபில்டரிங் என்னும் வடிகட்டும் முறை எல்லா இடங்களிலும் அவசியமாகிறது.

சரி, ஃபில்டரிங்கை எல்லா இடங்களிலும் பயன்படுத்த முடியுமா? முடியும், ஆனால் சவாலான சில விஷயங்களையும் சந்திக்கவேண்டி இருக்கும். கடந்த ஐந்தாண்டுகளில், Net neutrality பற்றி அவ்வப்போது ஏராளமான செய்திகள் உலகம் முழுக்க வந்தவண்ணம் இருக்கின்றன. எந்த டேட்டா தேவை, எது தேவையில்லை என்பதை பயனாளிகள் மட்டுமே தீர்மானிக்க வேண்டும். அதைத்தான் Net Neurality வலியுறுத்துகிறது. நடுவில் இருப்பவர்கள் அதைத் தீர்மானிக்கும் பட்சத்தில், பெரும் பிரச்னையாகிவிடுகிறது. பயனாளிகளின் பயன்பாட்டைப் பொறுத்தே ஃபில்டரிங் என்பதைப் பயன்படுத்தியாக வேண்டும்.

பொதுவாக, ஃபில்டரிங் என்பது இருவகைகளில் பயன்பாட்டில் இருக்கிறது 1. Collaborative filtering 2. Content-based filtering. இவை இரண்டையும் விரிவாகவே பார்க்கலாம்.

Collaborating filerting என்பது பரவலாகப் பயன்பாட்டில் உள்ள ஒரு முறை. பயனாளிகளின் கடந்த கால நடவடிக்கைகள், அவர்களுடைய விருப்பு, வெறுப்புகள், வாங்கும் திறன். என்னவெல்லாம் வாங்கினார்கள், எதையெல்லாம் வெறுத்து ஒதுக்கினார்கள் அவர்களைப் போன்ற ஒத்த வயதுடைய, ஒத்த ரசனையுடைய, அதே பகுதியைச் சேர்ந்தவர்களின் அணுகுமுறை என பல்வேறு காரணிகளை எடுத்து வைத்துக்கொண்டு அலசி, ஆராய்ந்து முடிவுக்கு வருவது. சுருக்கமாகச் சொன்னால், வாடிக்கையாளர்களின் எண்ணத்தைப் படிப்பது. 

பிழைப்புக்கு வழியில்லாவிட்டாலும், ஜானி படத்து தீபாவுக்கு அலைபாயும் மனது. பற்றிக்கொள்ள மரத்தின் கிளை கிடைத்தவுடன், பறக்கத் துடிக்கிறது பறவை. தன்னுடைய தேர்வு, ரசனையை அடிக்கடி பரிசீலித்து, அவ்வப்போது மாற்றிக்கொள்ளும் முழுக்க முழுக்க சுயநலமான கேரக்டர். சட்டென்று முடிவுகளை மாற்றிக்கொள்கிறார். மாறாக, சோம்பேறியாகச் சித்தரிக்கப்படும் முடிவெட்டும் வித்யாசகர் கேரக்டர், சிந்தனையில் நிதானமாகத் தெரிகிறார். எதையும் கவனமாகத் தேர்ந்தெடுக்கிறார். சுற்றியிருப்பதை சந்தேகக் கண் கொண்டு பார்த்தபடி, தீர்க்கமான முடிவுகளை எடுக்கிறார். வாழ்க்கையில் எப்பவும் ஒண்ணு, இன்னொன்றைவிட பெட்டராத்தான் இருக்கும் என்கிற வசனத்தை மறக்க முடியுமா?

அடிப்படையில், ஒவ்வொரு வாடிக்கையாளரும் மற்ற வாடிக்கையாளர்களால் ஏதோ ஒருவகையில் ஈர்க்கப்படுகிறார்கள்.  இங்கே, வித்யாசாகர் போன்றவர்கள் குறைவு. தீபா போன்றவர்கள் நிறைய. குளியல் சோப்பும், கொசுவர்த்திச் சுருளும் வாங்குவதற்காகக் கடைக்குச் சென்றுவிட்டு, ஏராளமான தேவையில்லாத பொருள்களை வாங்கிக்கொண்டு வீட்டுக்கு வருபவர்கள் நிறைய பேர். ஏன் அப்படி நிகழ்கிறது?

டிபார்ட்மெண்ட் ஸ்டோரில் அடுக்கிவைக்கப்பட்டிருக்கும் பொருள்களை நாம் பார்க்கும்போது, எப்படியாவது வாங்கிவிட வேண்டும் என்னும் உணர்வு கச்சிதமாக தூண்டிவிடப்படுகிறது. கிரெடிட் கார்டு வேறு நம்முடைய கையில் இருப்பதால், எதையும் எப்போது வேண்டுமானாலும் வாங்கிவிடலாம் என்பது சாத்தியமாகிவிட்டது. நம்முடைய கண்களுக்கு எது தட்டுப்பட வேண்டும், எது தட்டப்படக் கூடாது என்பதையெல்லாம், டிபார்ட்மெண்டல் ஸ்டோர் ஊழியர்கள்தான் தீர்மானிக்கிறார்கள்.

கடந்த 20 ஆண்டுகளில், ஏராளமான டிபார்ட்மெண்டல் ஸ்டோர் குக்கிராமங்களில்கூட முளைத்திருக்கின்றன. நமக்குத் தேவையானதை நாமே பார்த்து வாங்கிக்கொள்ளலாம் என்கிற விஷயம், ஆரம்பத்தில் புதியதாகவும் கவர்ச்சிகரமாகவும் இருந்த காரணத்தால், மக்கள் டிபார்ட்மெண்டல் ஸ்டோரை நோக்கிப் படையெடுத்தார்கள். நாடார் கடையிலோ, அவர் கொடுக்கும் பொருளைத்தான் நாம் பயன்படுத்தியாக வேண்டும். வேறு ஏதாவது புதிய பொருள்கள் சந்தையில் அறிமுகமாகியிருந்தால், அவராகச் சொன்னால்தான் நமக்குத் தெரியும். மாறாக, டிபார்ட்மெண்ட்ல் ஸ்டோரில் அனைத்தும் பார்வைக்கு வைக்கப்படுகின்றன.

இங்குதான் தீபாக்கள் தடுமாறுகிறார்கள். ஒன்றைவிட இன்னொன்று பெட்டராகத் தெரிகிறது. அதனால் மனது ஊசலாடுகிறது. பெரும்பாலான வாடிக்கையாளர்கள், இரண்டு பொருள்களில் எந்த ஒன்றை வாங்குவது என்பதில் தடுமாறிப்போய், முடிவெடுக்க முடியாமல் இரண்டையும் வாங்கிவிடுவார்கள் அல்லது ஏதாவது ஒன்றைத் தேர்ந்தெடுத்தாலும், அடுத்த முறை வரும்போது விட்டதை மறக்காமல் வாங்கிக்கொள்வார்கள்.  ஆகவே, எதை முன் வைப்பது, எதை விடுப்பது என்பதில் Collaborative filerting முக்கியமான பங்கு வகிக்கிறது.

எப்போதும் விற்காத பொருள், லாபம் தராத பொருள் அல்லது மற்ற பொருள்களில் வியாபாரத்தைப் பாதிக்கும் எந்தவொரு பொருளும் கண்ணுக்கு எட்டிய தூரத்தில் இருப்பதில்லை. எங்கேயாவது ஓரமாக வைத்திருப்பார்கள். நாம்தான் தேடித் துழாவி எடுத்துக்கொள்ள வேண்டும். வித்யாசாகர் போன்று ஆயிரத்தில் ஒருவர் இருக்கத்தான் செய்வார்கள். தெளிவாக இதைத்தான் வாங்க வேண்டும் என்று தீர்மானித்துவிட்டு, தேடி எடுத்து வாங்கிக்கொண்டு போவார்கள். வித்யாசாகர் போன்று நான்கு பேர் தேடித் துழாவினால், அதை வெளியே கொண்டுவந்து பார்வைக்கு வைப்பதைத் தவிர அவர்களுக்கு வேறு வழியில்லை.

அடுத்து content-based filtering. இது, சம்பந்தப்பட்ட பயனாளிகளின் ரசனையைப் பொறுத்தது. எட்டு கிலோ துவரம் பருப்பு, நான்கு கிலோ உருளைக்கிழங்கு நீங்கள் வாங்கியிருந்தால், அடுத்த மாதம் வாங்க வரும்போது துவரம் பருப்பும், உருளைக்கிழங்கும் முதல் பக்கத்தில் கண் சிமிட்டும். இந்த மாதமும் வேண்டுமென்றால், கிளிக் செய்துவிட்டு உங்களது வாங்கும் லிஸ்டில் சேர்த்துக்கொள்ளலாம். இல்லாவிட்டால், உதாசீனப்படுத்திவிட்டு நகரலாம். இது தனிப்பட்ட நபர்களின் ரசனையைப் பொறுத்து ஃபில்டரிங் செய்யப்படும் முறை.

சரி, collaborative filtering & content-based filtering இரண்டும் ஒன்றுபோல் தோன்றுகிறதா? நியாயமான கேள்வி. இரண்டும் ஒன்றைப்போல் தோன்றினாலும், இரண்டும் ஒன்றல்ல. முன்னது, வெவ்வேறு வாடிக்கையாளர்களுக்கு இடையேயான ரசனையை, தேர்வை ஒப்பிட்டுப் பார்த்து, அதன்மூலம் ஒரு முடிவுக்கு வருகிறது. குழு மனப்பான்மை ஆதிக்கம் செலுத்துவதால் ஓரளவுக்கு கணிக்க முடியும்.

Content based filtering, முழுக்க முழுக்க தனிநபரின் தேர்வு. மற்றவர்களோடு ஒப்பிடப்படுவதில்லை. இரண்டில் எத்தகைய முறையை வேண்டுமானாலும் பின்பற்றலாம். இரண்டும் வெவ்வேறு பிஸினெஸ் காரணங்களுக்காகப் பயன்பாட்டில் இருக்கிறது என்பதை மட்டும் நாம் புரிந்துகொள்வோம்.

எதை, எங்கே பயன்படுத்த வேண்டும் என்பதுதான் சவாலான விஷயம். பணத்தை ஃபிக்ஸட் டெபாசிட்டில் போடுவதற்காக வங்கிக்கு வருபவரை வாசலிலேயே மடக்கிப் பிடிப்பது, மார்கெட்டிங் மாயாலாஜம்தான். ஆனால், வளைத்துப் பிடித்து பெர்ஸனல் லோன் வேண்டுமா என்று கேட்பதால் என்ன நடக்கும்? வெட்டி வேலை! அவர் பணத்தை வங்கியில் டெபாசிட் செய்ய வந்திருக்கிறார். அவருக்கு பணத்தின் தேவை தற்போதைக்கு இல்லை. அவருக்கு பெர்ஸனல் லோன் தேவைப்படாது. வங்கியின் வாடிக்கையாளர் என்பதற்காக, அவரிடம் பெர்ஸனல் லோன் வேண்டுமா என்பது கேட்பது அபத்தமாகிவிடுகிறது. இதுவே, நகையை அடகு வைத்து கடன் வாங்குவதற்காக வந்தவராக இருந்தால், ஒருவேளை பெர்ஸனல் லோன் வாங்குவது பற்றி யோசிக்கக்கூடும். ஆகவே, வாடிக்கையாளரை மேலோட்டமாக அணுகாமல், எந்தளவுக்கு ஆழமாகப் புரிந்து சரியானவரை தேர்ந்தெடுப்பதன் மூலமாகத்தான் வெற்றிகளைப் பெற முடியும். இது சாதாரண பிஸினெஸ் தந்திரம்தான். ஆனால், பிக் டேட்டா மந்திரத்தின் மீது முழு நம்பிக்கை வைத்தால், ராஜ தந்திரமாக எடுபடும்.

(தொடரும்)

தினமணி'யை வாட்ஸ்ஆப் சேனலில் பின்தொடர... WhatsApp

தினமணியைத் தொடர: Facebook, Twitter, Instagram, Youtube, Telegram, Threads, Koo

உடனுக்குடன் செய்திகளை தெரிந்து கொள்ள தினமணி செயலியை பதிவிறக்கம் செய்யவும் 

’ஸ்டார்’ கரீனா கபூர்!

5 பன்னீர்செல்வங்களின் வேட்புமனுக்களும் ஏற்பு: போட்டி உறுதி!

தமிழக காவல் துறையில் இளநிலை செய்தியாளர் வேலை வேண்டுமா?

ஜோதிட சூட்சுமங்களும் - நம்பிக்கை தாண்டிய உண்மையும்!

விமர்சனத்துக்குள்ளான ஹார்திக் பாண்டியாவின் தலைமைப் பண்பு!

SCROLL FOR NEXT