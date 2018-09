கடந்த வாரம், கார்ப்பரேட் வட்டார தலைப்புச் செய்திகளில் அதிகமாக அடிப்பட்ட விஷயம், கார்ட்னர் நிறுவனத்திலிருந்து அதன் துணைத் தலைவர் பீட்டர் சோண்டர்கார்டு நீக்கப்பட்டதுதான். நிறுவனத்தின் நெறிமுறைகளுக்கு எதிராகச் செயல்பட்டார் என்கிற ஒற்றை வரி காரணத்தை காட்டி, ஒரே இரவில் வீட்டுக்கு அனுப்பிவிட்டார்கள். 30 ஆண்டுகள் ஒரே நிறுவனத்துக்கு உழைத்தவருக்கு ஒரு டீ பார்ட்டி கூட தராமல் அனுப்பி வைத்துவிட்டார்கள். ஆக, கார்ப்பரேட் உலகத்தில் எதுவும் சாத்தியம்!

சோண்டர்கார்டு பணிபுரிந்த கார்ட்னர் நிறுவனம், தொழில்நுட்பம் பற்றிய ஆய்வுகள் மேற்கொள்வதில் உலகளாவிய அளவில் முன்னணியில் உள்ள நிறுவனம். அதில் ஏறக்குறைய 30 ஆண்டுகளுக்கும் மேலாக நிறுவனத்தின் முக்கியப் பொறுப்புகளில், முதுகெலும்பாக இருந்தவர்தான் சோண்டர்கார்டு. படிப்படியாக முன்னேறி, 2004-ல் சீனியர் வைஸ்-பிரசிடெண்ட் பதவிக்கு வந்தவர், அதிரடியாகப் பல அசாத்திய சாதனைகளை நிகழ்த்தினார். அவரது பணிக்காலத்தில் கார்ட்னர் நிறுவனத்தின் வருவாய் 1.6 பில்லியன் டாலர் என்ற அளவுக்கு உயர்ந்தது. அதைவிட முக்கியமான விஷயம், தகவல் தொழில்நுட்ப உலகம் பற்றி பத்தாண்டுகளுக்கு முன்னர் வெளியான அவரது கணிப்புகள்தான்.

உலகளவில் வணிகம், அரசியல் என சகல விஷயங்களையும் இனி தீர்மானிக்கப்போவது தகவல் தொழில்நுட்பம்தான் என்பதை பல ஆண்டுகளுக்கு முன்னரே கணித்துச் சொன்னது மட்டுமல்லாமல், அதை விரிவான அறிக்கையாகவும் வெளியிட்டவர் சோண்டர்கார்டு. அடுத்து வரும் பத்தாண்டுகள், தகவல் தொழில்நுட்ப உலகில் முக்கியமானவை. கடந்த சில நூற்றாண்டுகளின் எந்தவொரு பத்தாண்டுகளைவிடவும் வரப்போகும் பத்தாண்டுகள் முக்கியம் என்றார். முடிந்து போன விஷயத்தைப் பற்றி யார் வேண்டுமானாலும் பேசலாம்; சிலாகிக்கலாம்; போற்றிப் பாடலாம். ஆனால், நடக்கப்போவதைப் பற்றி உறுதியாக, அழுத்தம் திருந்தமாகப் பகிரங்கமாகச் சொல்ல அசாத்திய புத்திசாலித்தனம் தேவை.

டேட்டா மட்டுமல்ல, கிளவுட் கம்ப்யூட்டிங், மொபைல் கம்ப்யூட்டிங், சோஷியல் கம்ப்யூட்டிங், இணையம் என்னும் மாயவலை செய்யப்போகும் சாதனைகள், அதனால் புதிதாக வரப்போகும் சவால்கள் என ஒவ்வொரு துறையைப் பற்றியும் துல்லியமான கணிப்புகளை வெளியிட்டார். 2016-க்குள் 900 மில்லியன் பேர் தங்களுக்கென ஒரு செல்போன் வைத்திருப்பார்கள் என்றார். பின்னாளில் அதுதான் நடந்தது. ஒரு பானை சோற்றுக்கு ஒரு பதம் என்பார்கள். அவரது ஒரே ஒரு பொன்மொழியை மட்டும் இங்கே பார்த்துவிடலாம். Information is the oil of the 21st century, and analytics is the combustion engine. விளக்க வேண்டிய தேவையில்லை!

சரி, பிக் டேட்டாவுக்கு வருவோம். ஏற்கெனவே உள்ள ரிலேஷனல் டேட்டாபேஸ் சிஸ்டம், தன்னுடைய அசுரத் தேவைக்கு ஏற்ற தீனியைப் போடாது என்று கூகுள் நிறுவனம் முடிவு செய்து வேறு ஆராய்ச்சிகளில் இறங்கியது. இது குறித்து ஆரம்ப அத்தியாயங்களில் பார்த்தோம். மில்லினியம் தொடங்கி, அவ்வப்போது நடைபெற்ற கூகுளின் ஆராய்ச்சிகளால் விளைந்ததுதான் கூகுள் கோப்பு கட்டமைப்பு (GFS - Google Files System). பின்னாளில் ஜிஎப்எஸ் என்னும் வார்த்தை பிரபலமாக உச்சரிக்கப்பட்டது. பிக் டேட்டாவுக்கு அச்சாரமும் இட்டது.

அதென்ன ஜிஎப்எஸ்? அதுதான் பிக் டேட்டாவின் ஜீசஸ். பிக் டேட்டா மூலமாக இன்றைய நவீன தொழில்நுட்பத்தை ரட்சிக்க வந்தவர் டிஸ்ட்ரிபியூட் கிளஸ்டர் சிஸ்டம். கூகுள் டேட்டா சென்டரின் அனைத்து நினைவகங்களையும் ஒரே ஒரு சட்டகத்தில் அடைத்து, அதன்மூலம் கூகுள் நிறுவனத்தின் மெக டேட்டாபேஸ் செர்வர் எங்கிருந்து வேண்டுமானாலும், எப்போதும் வேண்டுமானாலும் தகவல்களைப் பெற வழி செய்யப்பட்டது. இதனால் தகவல்களை விரைவாகவும், தங்கு தடையின்றி பெற முடிந்தது. சர்வர் டவுண், நெட்வொர்க் பிரச்னை போன்றவை வெகுவாகக் குறைந்தது. ஏராளமான சர்வர்கள் இந்த சட்டகத்தின் கீழ் கொண்டு வரப்பட்டன. பெரிய அளவில் டேட்டா செட் கையாளப்பட்டன.

ஆயிரக்கணக்கான டேட்டாபேஸ் செர்வர், சட்டகத்தின் கீழ் இருந்தன. அதற்கு முன்னர் யாரும் அதை நினைத்துக்கூட பார்க்கவில்லை. ஒரு கோப்பை ஓரிடத்தில் சேமித்து வைப்பதற்குப் பதிலாக, ஒன்றுக்கும் மேற்பட்ட இடங்களில் சேமித்து வைப்பதன் மூலமாக, தகவல்களைத் துரிதமாக வெளியே எடுக்க முடிந்தது. எத்தனை இடங்களில் சேமிப்பது, எந்த வரிசையில் சேமிப்பது என்பதையெல்லாம் தீர்மானிக்க தனியாக அல்காரிதம் எழுதப்பட்டது. ஒரே சட்டகத்தின் கீழ் உள்ள டேட்டாபேஸ் செர்வரையும் சரிவர பயன்படுத்திக்கொள்வதுதான் அதன் நோக்கம். இதனால் ஒரு டேட்டாபேஸ் சர்வரில் லோட் அதிகமாகவும், இன்னொன்றில் லோட் குறைவாகவும் டேட்டா எழுதப்படுவது தவிர்க்கப்பட்டது. ஏற்றத்தாழ்வுகள் இன்றி அனைத்து டேட்டாபேஸ் செர்வரும் ஒரே அளவில் பயன்பாட்டுக்குக் கொண்டுவரப்பட்டன.

அல்காரிதம் உள்ளடக்கிய ஒட்டுமொத்த சட்டகத்துக்கும் மேப்ரெட்யூஸ் (MapReduce) என்று பெயரிட்டார்கள். இதுவொரு சிஸ்டமாடிக் மாடல். பிரதானமாக இரண்டு வழிமுறை (method) உண்டு. Map என்பது ஒரு வழிமுறை. டேட்டாவை வடிகட்டி, வரிசைக்கிரமமாக அடுக்குவதுதான் இதன் முக்கியமான பணி. அதாவது, எந்தவொரு டேட்டாவை நாம் சேமிக்கச் சொன்னாலும், அதை தலைகீழாகப் பிரித்து, வடிகட்டி, வரிசைக்கிரமமாக அடுக்கிவிடும். உதாரணத்துக்கு, ஒரு வகுப்பில் உள்ள மாணவர்களின் பெயர்களைக் கொடுத்தால், அவர்களது பெயரின் முன்பாதியை வைத்து வரிசைக்கிரமமாக அடுக்கி ஒரு வரிசையை (Queue) அதுவே உருவாக்கிவிடும். பின்னர் ஒவ்வொரு மாணவர்களின் பெயர்களையும் தனித்தனியாகப் பிரித்து, அதையும் தனியாக ஒரு வரிசையாக (Queue) ஆக்கிவிடும்.

அடுத்து வருவது ரெட்யூஸ் (Reduce). இதுவும் ஒரு வழிமுறைதான் (Method). ஒவ்வொரு வரிசையிலும் (Queue) எத்தனை மாணவர்கள் இருக்கிறார்கள். எத்தனை முறை வருகிறார்கள் என்றெல்லாம் கணக்கெடுத்துச் சொல்லிவிடும். மேப் & ரெட்யூஸ் இவை இரண்டும் ஜிஎப்எஸ் சட்டகத்தின் இதயம் போன்ற பகுதிகள். Split-apply-combine என்பதுதான் இதன் தாராக மந்திரம். விறகை உடைத்து, வரிசையாக்க் கட்டி அடுக்குவது போன்று டேட்டாவை உடைத்து, சிறு சிறு துண்டுகளாக்கி, அவற்றை வரிசைக்கிரமமாக அடுக்கி, உள்ளே சேமிப்பது. ஏன் அப்படிச் செய்ய வேண்டும? அப்படிச் செய்தால் துரிதமாகச் சேமிக்க முடியும். டேட்டாவும் தொலைந்து போகாமல் பாதுகாக்க முடியும்.

கூகுள், வழக்கமான ரிலேஷனல் டேட்டாபேஸ் சிஸ்டத்தை பயன்படுத்தவில்லை. தனக்கென்று பிரத்யேகமாக ஒரு டேட்டாபேஸை உருவாக்கிக்கொண்டது. பிக் டேபிள்! இதுதான் கூகுளின் டேட்டாபேஸ். அடிப்படையில், நான்-ரிலேஷனல் டேட்டாபேஸ் சிஸ்டம். கூகுளின் ஜிஎப்எஸ்ஸை பயன்படுத்தி தகவல்களைச் சேமித்து வைக்கலாம். பிக் டேபிள்தான், மேப்ரெட்யூஸ். பிக் டேபிளை அடிப்படையாக வைத்து உருவாக்கப்பட்டவைதான் தற்போது நாம் கையாளும் 99 சதவீத கூகுள் செயலிகள்.

கூகுள் ஆரம்பித்துவைத்த ஆட்டம் இது. பின்னர் மளமளவென்று மற்ற நிறுவனங்களும் இதை கையில் எடுத்துக் கொஞ்ச ஆரம்பித்ததும், ஜிஎப்எஸ் எங்கேயோ போய்விட்டது. எல்லோரும் சேர்ந்து, ஆளுக்கொரு விஷயத்தை அறிமுகப்படுத்தினார்கள். மேப்ரெட்யூஸ் என்னும் மாடல், பின்னாளில் ஹடூப்-ஆக உருவெடுத்தது. கூகுள் தன்னுடைய கண்டுபிடிப்பை மறைந்துவைத்து உரிமை கொண்டாடவில்லை. 2003 தொடங்கி, ஒவ்வொரு ஆண்டும் இது குறித்து ஆய்வறிக்கை வெளியிட்டது. ஒட்டுமொத்த டிசைனும் அனைவரது பார்வைக்கும் வைக்கப்பட்டது. 2003, 2004, 2006-ம் ஆண்டுகளில் வெளியிட்ட ஆய்வறிக்கையின் அடிப்படையில் பல்வேறு செயலிகள் உருவாக்கப்பட்டன.

இப்போது? கூகுள் நிறுவனம் 5 ஆண்டுகளுக்கு முன்னரே இதைக் கைகழுவி விட்டு, வேறு சட்டகத்துக்கு மாறிவிட்டது. காரணம், அதைவிடச் சிறந்த ஒன்று அவர்களுக்குத் தேவைப்பட்டது. மாற்றம் ஒன்றுதான் மாறாதது. ஒன்றைவிட இன்னொன்று சிறப்பாக அமையும்பட்சத்தில், கைவிடப்படுவது இயற்கைதான். ஆனாலும் இன்றுவரை ஜிஎப்எஸ், பிக் டேட்டாவின் அடிப்படை சட்டகம் என்கிற கௌரவத்துடன் உலா வருகிறது.

பிக் டேட்டா என்றாலே ஹடூப். ஹடூப் (Hadoop) என்றாலே பிக் டேட்டா என்பதை முன்னரே பார்த்தோம். சுருக்கமாக சொன்னால், பிக் டேட்டா என்பது அரசியல் கட்சிகளின் கொள்கை. ஹடூப் என்பது செயல் திட்டங்கள். கொள்கை பற்றியெல்லாம் தெரியாமலேயே கட்சியில் உயர்ந்த பதவிகளைப் பெற்ற தலைவர்கள் பலர் உண்டு. கட்சித் தலைமையின் செயல்திட்டங்கள் என்னவென்பதை சரியாகப் புரிந்துகொண்டு, அதற்கேற்ப காய்களை நகர்த்தி, அரசியலில் உச்சத்துக்கு வருவதுதான் இவர்களது வெற்றியின் ரகசியம்.

சீரியஸாக எடுத்துக்கொள்ள வேண்டாம்.. ஒரு சுவராசியத்துக்காகச் சொல்லப்பட்ட உதாரணம் அது. ஹடூப், முழுக்க முழுக்க பிக் டேட்டா சங்கதிகளைச் சார்ந்தே இயங்குகிறது. ஹடூப்பைவிட பிக் டேட்டா கொள்கைக்கு நேர்மையான, அதேசமயம் பிரபலமான ஒன்றை நிச்சயம் நம்மால் சொல்லமுடியாது. உண்மையில், தொழில்நுட்ப உலகில் பிக் டேட்டா என்னும் மந்திரத்தை எல்லா இடங்களிலும் ஒலிக்கச் செய்தது, ஹடூப்தான்.

(தொடரும்)