23 செப்டம்பர் 2018

18. ஹடூப் என்னும் அணைக்கட்டு

By ஜெ. ராம்கி| Published: 11th September 2018 10:00 AM

 

ஹடூப் ஏன் பிரபலமாக இருக்கிறது? எத்தனையோ பிக் டேட்டா டூல் இருக்கும்போது, ஏன் எல்லோரும் ஹடூப்பை மட்டுமே உச்சரிக்கிறார்கள். சக்ஸஸ் ரேட் அதிகம் என்பதுதான் முதல் காரணம். அதற்கு அடுத்ததாக, குறைந்தபட்சம் அரை டஜன் காரணங்களை அடுக்கலாம். அதை பின்னர் பார்க்கலாம். முதலில் ஹடூப்பையும் மேப்ரெட்யூஸையும் ஒன்றாக்கிக் குழப்பிக்கொள்பவர்களே அதிகம். அதை முதலில் தெளிவுபடுத்திவிடலாம். மேப்ரெட்யூஸ் (MapReduce) என்பது ஒரு சட்டடகம் (Programming framework). நாம் ஏற்கெனவே பார்த்ததுபோல் கூகுள் அறிமுகப்படுத்திய ஃப்ரேம்வொர்க். நம்மிடம் உள்ள ஏராளமான டேட்டாபேஸ் செர்வரை ஒரே கிளஸ்டராக்கி, அதை நிர்வகிப்பதுதான் மேப்ரெட்யூஸ் கான்செப்ட். எதை, எங்கே, எப்போது சேமித்துவைப்பது, எதை எப்போது வெளியே எடுத்து கணக்கிடுவது போன்றவற்றை மேப்ரெட்யூஸ் தீர்மானிக்கிறது.

மேப்ரெட்யூஸ், அதிவேகத்துக்குப் பொறுப்பாளி. ஈசிஆர் சாலையில் பாண்டிச்சேரி நோக்கி காரில் பறந்துகொண்டிருக்கிறீர்கள். வழியில் இன்ஜின் முனகினால் என்ன செய்வது? ஓரமாக நிறுத்திவிட்டு, இன்னொரு காரை பிடித்து அதே வேகத்தில் பறப்பீர்கள் இல்லையா? மேப்ரெட்யூஸ் அப்படித்தான் செய்யும். கிளஸ்டரில் உள்ள நோட் ஏதாவது சிக்கலாகிச் சாய்ந்துவிட்டால் கவலையே படாது. அடுத்த நோட் நோக்கிச் செல்லும். ஹார்ட்வேர் பிரச்னையா… நெட்வொர்க் பிரச்னையா… எதைப் பற்றியும் கவலைப்படத் தேவையில்லை. ஏற்கெனவே நாம் பார்த்தபடி, எல்லாவற்றையும் உடைத்து, உள்ளே வைப்பது. பின்னர் வெளியே எடுத்துக் கோர்ப்பதுதான் அடிப்படை தத்துவம்.

ஹடூப் என்பது கூகுள் அளித்த ஓப்பன் சோர்ஸ் சட்டகம். தமிழில் கடுப்பு என்கிற வார்த்தையை கோபம், கவலை என்கிற அர்த்தத்தில் எடுத்துக்கொள்ளலாம். ஆனால், ஹடூப்பின் லோகோவில் உள்ள குட்டி யானையின் முகத்தில் எந்தக் கடுப்பும் இல்லை. உற்சாகமாகத் தெரிகிறது. ஹடூப்பில் இரண்டு முக்கியமான பகுதிகள் உண்டு. HDFS என்னும் ஹடூப் டிஸ்ட்டிரிபியூட்டட் பைல் சிஸ்டம். இது கூகுளின் GFS-ஐ அடிப்படையாக வைத்து உருவாக்கப்பட்டது. அதேபோல், ஹடூப் மேப்ரெட்யூஸ் என்பது கூகுளின் மேப்ரெட்யூஸை தழுவி அமைக்கப்பட்டது. சுருக்கமாகச் சொன்னால், மேப்ரெட்யூஸ் என்பது கூகுள் நிறுவனத்தால் போடப்பட்ட வலுவான தார்ச் சாலை. அதில் கச்சிதமாகப் பயணிப்பது ஹடூப். மேப்ரெட்யூஸை பற்றி இன்னும் விரிவாக விளக்குவதற்கு, கூகுள் நிறுவனமே ஹடூப்பைத்தான் உதாரணமாக எடுத்துக்கொள்கிறது.

ஹடூப், என்னதான் ஸ்பெஷல்? எதற்கும் தயாராக இருக்கிறது. அதுதான் ஸ்பெஷல். டேட்டா எப்படிப்பட்டதாக இருந்தாலும் ஹடூப் ஏற்றுக்கொள்கிறது. முழுமையாக இருந்தாலும் சரி, வெந்தும் வேகாத அரைவேக்காடு டேட்டாவாக இருந்தாலும் சரி. ஹடூப் எதையும் நிராகரிக்காது. அப்படியே அள்ளிக்கொண்டு, உள்ளே சேமித்து வைத்துவிடுகிறது.

எந்தவொரு நிறுவனமாக இருந்தாலும், டேட்டா மேனேஜ்மெண்ட் விஷயத்தில் நிறையவே கோட்டைவிடுவார்கள். நம்மிடம் உள்ள டேட்டாதானே என்கிற அலட்சியம்தான் காரணம். பல நிறுவனங்களில் டேட்டா மேனேஜ்மெண்ட் என்பது முக்கியத்துவம் தரப்படாமலே இருந்துவந்தது. டெவலப்மெண்ட், டெஸ்டிங் பணிகளில் தேறாதவர்களை, சரியாக வேலை செய்யாதவர்களை டேட்டா மேனேஜ்மெண்ட் பக்கம் தள்ளிவிடுவது உண்டு. பன்னாட்டு தொழில்நுட்ப நிறுவனங்களைப் பொறுத்தவரை, டேட்டா மேனேஜ்மெண்ட் என்பது தண்ணியில்லாத காடு. பிடிக்காதவர்களுக்கு டிரான்ஸ்ஃபர் கொடுத்து, அங்குதான் அனுப்பிவைப்பார்கள்.

நம்மிடம் புழக்கத்தில் உள்ள டேட்டாவில் 20 சதவீதம் மட்டுமே முழுமையான டேட்டா (structured). மற்றவையெல்லாம், முழுமையில்லாத அரைகுறை டேட்டாதான் (unstructured data). அவற்றை முழுமையாக்குவதில்தான் டேட்டா மேனேஜ்மெண்ட் இதுநாள் வரை முழு நேரத்தையும் செலவிட்டுக்கொண்டிருந்தது. ஹடூப், structured & unstructured என இரண்டுவிதமான டேட்டாவையும் நிர்வகிக்கும் திறன்கொண்டது. டேட்டா ஃபார்மேட் செய்யப்பட்டிருந்தாலோ அல்லது என்கோட் செய்யப்பட்டிருந்தாலோகூட அதையும் ஹடூப் பார்த்துக்கொள்ளும். தில்லுமுல்லுவின் இந்திரன் & சந்திரன்போல இரட்டை வேடம். அய்யம்பேட்டை அறிவுடைநம்பி கலியபெருமாள் என்னும் டேட்டா இருவருக்கும் பொதுவானதுதான். எது Strctured, எது unstrctured என்பதை வேறுபடுத்திக்காட்டுவது ஸ்கீமாதான். அதுதான் தில்லுமுல்லுவின் உயிர்நாடியான மீசை!

டேட்டாவின் அளவுக்கு ஏற்ப ஹடூப்பை வளைக்க முடியும். அதிகமான டேட்டா, அதிவேகம் வேண்டுமென்றால் அதற்கேற்ப நோட்களை அதிகரித்துக்கொண்டே செல்லமுடியும். அப்ளிகேஷனில் எந்த மாற்றமும் செய்யவேண்டியதில்லை. டேட்டா அதிகமாக வந்து விழுந்தால் என்ன செய்வது என்றெல்லாம் கவலைப்படவே வேண்டியதில்லை. டிராபிக்கை ஹடூப் பார்த்துக்கொள்ளும். இடியே விழுந்தாலும், ஹடூப்-க்கு எதையும் தாங்கிக்கொள்ளும் வல்லமை (fault tolerant) உண்டு.

ஹடூப் அறிமுகப்படுத்திய விஷயங்கள், பிக் டேட்டா உலகில் ஒரு பெரும் புரட்சியையே நிகழ்த்திக் காட்டின. டேட்டா வந்து குவிந்தால் என்ன செய்வது என்கிற கவலைதான் பெரும்பாலான நிறுவனங்களுக்கு இருந்தது. அதிகப்படியான டிராபிக் வந்துவிட்டால் என்ன செய்வது என்கிற பதற்றம் ஒவ்வொரு அப்ளிகேஷனை அறிமுகப்படுத்தும்போதும் அவர்களுக்கு இருந்தது. 50 பேர் வருவார்கள் என்கிற எதிர்பார்ப்பில் உள்ளபோது, 100 பேர் வந்துவிட்டால் ஓரளவு சமாளித்து விடலாம். 5000 பேர் வந்துவிட்டால் ரணகளம்தான். ஹடூப் அறிமுகத்துக்குப் பிறகு இவையெல்லாம் கட்டுக்குள் வந்துவிட்டன. Unstrcutured, unlimited டேட்டாவை சீராக்கி, ஒழுங்குபடுத்துவதன் மூலம் கவலையெல்லாம் காணாமல் போனது. அந்தவகையில், ஹடூப்பை டேட்டா டேம் என்பார்கள். வலுவான தகவல் அணைக்கட்டு!

ஹடூப் ஈகோ சிஸ்டம், சூழ்நிலைக்கு ஏற்றபடி செயல்படும் ஏராளமான சேவைகளை வழங்குகிறது. மேப்ரெட்யூஸ், ஹைவ், ஹெச்பேஸ், ஷீகீப்பர், ஹெச்கேட்லாக், அப்பாச்சி பிக் என அடுக்கிக்கொண்டே போகலாம். டெவலப்பரின் தேவைக்கேற்ப, நிறுவனத்தின் பட்ஜெட்டுக்கு ஏற்றவகையில் இவற்றை பயன்படுத்திக்கொள்ளலாம். ஹடூப் கையாளுவது தகவல் மழை. டேட்டா உடனுக்குடன் ஆய்வுக்கு கிடைக்கிறது. நேற்றைய டேட்டா இன்று கைக்கு வருவதில்லை. நேரலையில் உள்ள டேட்டாவை ஆய்வுகளுக்குப் பயன்படுத்திக்கொள்ளலாம். இதனால், காலத்துக்கு ஏற்ப சரியான முடிவுகளை எடுக்கமுடிகிறது.

ஹடூப், காசுக்குக் கெட்டிக்காரன். டேட்டாவை பத்திரப்படுத்துவதற்காகப் பன்னாட்டு நிறுவனங்கள் ஆண்டுக்கு 25 ஆயிரம் டாலர் முதல் 50 ஆயிரம் டாலர் வரை செலவழிக்க தயாராக இருக்கின்றன. இதெல்லாம் ஓராண்டுக்கு ஒரே ஒரு டெரா பைட் டேட்டாவுக்கான செலவு. ஹடூப்பை நிறுவுவதன் மூலம் சில ஆயிரம் டாலர்களின் செலவைக் குறைக்கலாம். ஹார்ட்வேர் பொருள்களுக்கு ஆகும் மதிப்பு குறையும்போது இது இன்னும் குறைய வாய்ப்பு உண்டு.

கிளவுட் கம்ப்யூட்டிங் என்பது இனி தவிர்க்க முடியாது. கிளவுடில் அதிகமாகப் பயன்பாட்டில் உள்ள நுட்பத்தில் ஹடூப் முக்கியமான இடத்தை வகிக்கிறது. ஹடூப் கிளஸ்டரை பெரும்பாலான கிளவுட் சர்வீஸ் நிறுவனங்கள் தருவதால், சப்போர்ட் பிரச்னையில்லை. எல்லாவற்றுக்கும் கோட் எழுத வேண்டிய தேவையில்லை. முன்னர் மேப் ரெட்யூஸ் (MapReduce) கோடு எழுதுவதன் மூலமாகவே ஹடூப்பில் உள்ள டேட்டாவை நாம் ஆய்வுக்கு உள்ளாக்கமுடியும். தற்போது பிக் (Pig) பயன்படுத்தி எழுதி, அவற்றை எளிதாக மேப்ரெட்யூஸ் புரோகிராம மாற்றமுடியும். அதேபோல் ஹைவ் (Hive), ஏற்கெனவே உள்ள SQL Query அனைத்தையும் மேப்ரெட்யூஸில் இயக்குவதற்கு உதவி செய்கிறது. ஏற்கெனவே உள்ள ரிலேஷனல் டேட்டாபேஸ் சிஸ்டத்திலிருந்து மாறுவதை எளிதாக்குகின்றன.

எல்லாவற்றுக்கும் மேலாக, சோஷியல் மீடியா, ஹடூப்பை நம்பியே இருக்கிறது. இன்றைய தகவல் தொழில்நுட்ப உலகின் தலைவிதியை நிர்ணயிப்பது சோஷியல் மீடியாதான். பேஸ்புக், டிவிட்டர் போன்றவை ஹடூப்பை பயன்படுத்துகின்றன. காரணம், சோஷியல் மீடியா டேட்டாவின் கொள்ளளவு அதிகம். டிவிட்டர், சராசரியாக ஒரு நாளைக்கு 8 டெரா பைட் டேட்டாவை கையாளுகிறது. ஈபே நிறுவனம், 50 டெரா பைட் என்கிறார்கள்.

மிகவும் பிரபலமான சோஷியல் மீடியாவான பேஸ்புக்கை எடுத்துக்கொள்வோம். பேஸ்புக் சராசரியாக ஒருநாளைக்கு 40 பேட்டா பைட்டை கையாளுகிறது. அதென்ன பேட்டா பைட்? ரஜினி படத்து டைட்டில் அல்ல. டெரா பைட்டுக்கும் அண்ணன். 1024 கிகா பைட்டு (GB), ஒரு Terabyte (TB) எனப்படும். ஒரு டெராபைட்டில் 200 பக்கங்கள் கொண்ட 45,81,298 புத்தகங்களைச் சேமிக்கலாம் என்கிறார்கள். 4.38 GB அளவு கொண்ட 233 டிவிடிகளின் ஹாலிவுட் படங்களைச் சேமித்துவிடலாம். ஆயிரம் டெராபைட்தான், ஒரு பேட்டா பைட். பேஸ்புக், ஒரு நாளைக்கு 40 ஆயிரம் டெரா பைட் டேட்டாவைச் சேமிக்கிறது.

அடுத்த வருஷம் இதையும் தாண்டி, Exabyte (EB), Zettabyte (ZB), Yottabyte (YB) என போய்க்கொண்டே இருக்கவும் வாய்ப்பு உண்டு. காரணம், ஒவ்வொரு லைக், ஒவ்வொரு கமெண்ட்டும் சேமித்து வைக்கப்பட்டாக வேண்டும். வீடியாவாக இருந்தால் எத்தனை வியூ, யார் பார்த்தார்கள் என்கிற விவரமும் வேண்டும். பயனாளிகளின் ஒவ்வாரு நடவடிக்கையும் ஓராயிரம் தரவுகளை (web logs) உருவாக்கும். அவற்றையும் சேமிக்க வேண்டும். நண்பரின் பதிவைப் படித்துவிட்டு, லைக் போட்டுவிட்டு கடந்து போய், திரும்ப வந்து அன்லைக் செய்தால், அதையும் ஹடூப் சேமித்துவைக்கத்தான் போகிறது. நம்ம பாடு திண்டாட்டம்தான்!

(தொடரும்)

Tags : பிக் டேட்டா டேட்டாபேஸ் கிளவுட் ஹடூப் கூகுள் சட்டகம் மேப்ரெட்யூஸ் டேட்டா data database big data hadoop google mapReduce cloud

More from the section

19. ஸ்கீமா என்னும் எனிமா!
17. ஜிஎப்எஸ் என்னும் ஜீசஸ்!
16. டேட்டா சயின்டிஸ்ட் / இன்ஜினீயரிங் - கலக்குவது யார்?
15. கிருஷ்ணா, ராமா சேவா!
14. ஷார்ப்பான ஷார்ட்