செவ்வாய்க்கிழமை 18 செப்டம்பர் 2018

16. டேட்டா சயின்டிஸ்ட் / இன்ஜினீயரிங் - கலக்குவது யார்?

By ஜெ. ராம்கி| Published: 21st August 2018 12:00 AM

 

ஆர்ட்டிபிஷியல் இன்டலிஜென்ஸ், ஐ.ஓ.டி., பிளாக் செயின் என அடுத்தடுத்து புதுப்புது சொலவடைகள் 2018-ல் அறிமுகமாகியிருக்கின்றன. ஆறு மாதங்களுக்கு ஒருமுறை, உலகைக் கலக்கும் தொழில்நுட்ப சங்கதிகளை பரபரப்போடு விவாதிப்பது ஒரு பெரும் சடங்கு. கடந்த 8 மாதங்களாக AI என்னும் ஆர்ட்டிபிஷியல் இன்டலிஜென்ஸ், பிளாக் செயின் அதிகமாக அடிபட்ட வார்த்தைகள். வழக்கம்போல் கிளவுட் கம்ப்யூட்டிங் முன்னணியில் இருக்கிறது. இதெல்லாம் உலகளாவிய அளவில் தொழில்நுட்பப் பட்டறைகளிலும், பன்னாட்டு நிறுவனங்களில் டவுன்ஹால் மீட்டிங், நவீன தொழில்நுட்பம் பற்றிப் பேசும் பத்திரிகைகளிலும் அடிக்கடி கண்ணில் தென்படும் விஷயம். இந்தியாவில் இதெல்லாம் சாத்தியமா?

வேளச்சேரி - தரமணி சாலையில் ஹாட்சிப்ஸ் ஹோட்டலுக்கு எதிராக இருக்கிறது அந்த டிரெய்னிங் சென்டர். வழக்கமான கூட்டம். பிக் டேட்டாவுக்கு ஆதரவு எப்படியிருக்கிறது? என்னவெல்லாம் சொல்லித் தருகிறார்கள் என்பதை தெரிந்துகொள்வதற்காக நுழைந்தேன். மிகுந்த தயக்கத்துக்குப் பிறகே சில தகவல்களைப் பகிர்ந்துகொண்டார்கள். நவீன தொழில்நுட்பங்கள் ஏராளமாக இருந்தாலும், அடிப்படை புரோகிராமிங் கற்றுக்கொள்ளவும் ஆட்கள் வருகிறார்கள். பைதான், ஜாவா ஸ்கிரிப்ட், சி, சி++, ரூபி… இந்த வரிசையில், சந்தேகமில்லாமல் பைதான் முன்னணியில் இருக்கிறது. பைதானை ஒரு புரோகிராமிங் மொழியாக கற்றுக்கொள்ள ஒரு பெரும் கூட்டம் வருகிறது. அதற்கு அடுத்தபடியாக ஜாவா ஸ்கிரிப்ட். ஜாவாவுக்கு இன்னும் மவுசு இருக்கிறது. டெஸ்டிங், டி.பி.ஏ,. புரடெக்ஷன் சப்போர்ட் என பல ஆண்டுகாலம் வேலை செய்தவர்கள், ஜாவாவை முறைப்படி படிக்க ஆரம்பித்திருப்பதும் ஆச்சரியம்.

பிக் டேட்டா? ஹடூப், ஸ்பார்க், ஹைப், காஸ்ஸெண்ட்ரா என ஏராளமான டெக்னிக்கல் படிப்புகள். அதிலும் குறிப்பாக, ஹடூப் (Hadoop). ஹடூப், ஓப்பன் சோர்ஸ் பிக் டேட்டா கட்டமைப்பு. பிக் டேட்டாவின் ஒரு பிரபலமான ஃப்ரேம்வொர்க். அதுபோன்று ஏராளமான கட்டமைப்புகள் இணையத்தில் இலவசமாகவே கிடைக்கின்றன. இவற்றையெல்லாம் நேரிடையாகக் கற்றுக்கொள்வதில் நிறைய சிரமங்கள் உண்டு. குறைந்தபட்சம் 3 ஆண்டுகள் அனுபவமுள்ள டேட்டாபேஸ் ஆசாமியால் மட்டுமே ஹடூப்பை கையாள முடியும். ஆக, தொடக்க நிலையில் உள்ள ஐ.டி. ஆசாமிகளுக்கு ஹடூப் கைகொடுக்காது.

பிக் டேட்டா என்பது டி.பி.ஏ. ஆசாமிகளுக்கு மட்டுமேயான படிப்பு என்கிற தவறான புரிதல் பரவலாகவே இருக்கிறது. ரிசர்ச் அனாலிஸ்ட், டேட்டா சயின்டிஸ்ட், டேட்டா இன்ஜினீயரிங், டேட்டா அனாலிஸ்ட், டேட்டா அனாலிடிகா என்றெல்லாம் வெவ்வேறு நாமகரணங்கள் சூட்டப்பட்ட பதவிகளுக்கு ஆதாரபீடமாக இருப்பது பிக் டேட்டா என்பதை சொல்லத் தேவையில்லை. திட்ட ஆய்வு, முன்கூட்டியே கணித்தல் ஆகியவையெல்லாம் இன்று முக்கியமான இடத்தைப் பெறுகின்றன. Trial & error போல், விழுந்தால் மாங்காய் என்று முயற்சி செய்வதையெல்லாம் யாரும் விரும்புவதில்லை. திட்டமிடுவதற்கு எவ்வளவு நேரம் வேண்டுமானாலும் எடுததுக்கொள். ஆனால் களத்தில் இறங்கிவிட்டால், கணநேரத்தில் வேலையை கச்சிதமாக முடித்துவிடு. இதுதான் இன்றைய காலத்தின் சூத்திரம், மந்திரம், etc.,

டேட்டா சயின்டிஸ்ட் & டேட்டா இன்ஜினீயரிங். இவை இரண்டும் பிரபலமான பிக் டேட்டா பதவிகள். இரண்டையும் ஒன்றாக்கி குழப்பிவிட்டார்கள். குழப்பம் இருந்தால் பிரச்னையில்லை, தெளிவுபடுத்திவிடலாம். ஆனால், இரண்டையும் செய்யக்கூடிய ஆட்கள் வேண்டும் என்று நினைப்பதுதான் தவறு. காரணம், இரண்டும் முற்றிலும் வேறானவை. பொறுப்புகள், அனுபவம், திறமை, செய்ய வேண்டிய பணிகள் என எந்த விஷயத்திலும் இரண்டையும் ஒப்பிடவே முடியாது. டேட்டா இன்ஜினீயரிங்கில் ஆர்வமுள்ளவர்களுக்கு டேட்டா சயின்ஸ் பற்றிய புரிதல் இருக்கலாம். ஆனால் டேட்டாவை தாண்டி மற்றவை பற்றி தெரிந்துவைத்திருக்க வாய்ப்பில்லை. டேட்டா சயின்டிஸ்ட்டாக இருப்பவர்களுக்கு டேட்டா உலகத்தைத் தாண்டிய பார்வை தேவை. SME என்னும் சப்ஜெக்ட் மேட்டர் எக்ஸ்பெர்ட்டாக இருந்தாக வேண்டும்.

நடைமுறையில் இவையெல்லாம் பின்பற்றப்படுவதில்லை. சில இடங்களில், டேட்டா சயின்டிஸ்ட் நிபுணர், டேட்டா இன்ஜினீயரிங் செய்ய வேண்டிய பரிதாபச் சூழலும் இருப்பது உண்மை. டேட்டா இன்ஜினீயரை டேட்டா ப்ராஸஸிங் பணிகளுக்கும், டேட்டா தொடர்பான ஆய்வுகளுக்கு டேட்டா சயின்டிஸ்ட்டை பயன்படுத்திக்கொள்வதுதான் சரியானதாக இருககும். ஒரு பெரிய நிறுவனத்தின் அங்கமாகப் பார்க்கும்போது, இரண்டு பொறுப்புகளுமே ஒருவரையொருவர் மட்டுமல்ல, ஏனையவர்களையும் சார்ந்திருக்கவேண்டி இருப்பதால், டேட்டா மேனேஜ்மெண்ட் என்பது சவலான விஷயமாகிறது.

சரி, டேட்டா சயின்டிஸ்ட் என்னவெல்லாம் செய்யவேண்டி இருக்கும்? சிக்கலான பிஸினெஸ் பிரச்னைகளுக்குத் தீர்வு தந்தாக வேண்டும். சரியான கணக்கீடுகள், அப்ரோச் தேவை. அவற்றையெல்லாம்விட தீர்வுகள், நிறுவனத்தின் நிதி வருவாயைப் பெருக்க வேண்டும். நிறுவனத்தின் செயல்பாடுகளை மேம்படுத்த வேண்டும். அதற்கேற்ற கணக்கீடுகள், புள்ளிவிவரங்களில் கைதேர்ந்தவராக இருக்க வேண்டும். கணிதத்திலும், புள்ளியியலிலும் ஆர்வமுள்ளவர்களுக்கு பிக் டேட்டா உலகம் ரத்தினக் கம்பள வரவேற்பு அளிக்கிறது என்பதில் சந்தேகமில்லை.

டேட்டா சயின்டிஸ்ட், இயந்திர கற்றல் முறையைப் (machine learning) பயன்படுத்தி செயல்பாடுகளை மேம்படுத்தலாம். நவீன உத்திகள் அவசியம். தரவுத் தொகுப்பின் (data sets) குணங்களை வரையறுக்க வேண்டும். அதன் மீதான கட்டுப்பாடுகள், எந்த எல்லை வரை நம்மால் அவற்றை பயன்படுத்த முடியும் என்பது போன்ற கணிப்புகளை மேற்கொள்ள வேண்டும். டேட்டா கிடங்கில் ஏதாவது அசம்பாவிதம் ஏற்பட்டால் அவற்றைக் கையாளுவது, வேறு ஏதாவது மாற்றுத் திட்டங்களை அமலுக்குக் கொண்டுவர முடியுமா என்பதையெல்லாம் கணிக்கும் அளவுக்குத் தொலைநோக்குப் பார்வை வேண்டும். பிஸினெஸ் வேல்யூ அடிஷன் என்பார்கள். மதிப்பைக் கூட்டுவதற்கான தொலைநோக்குப் பார்வை, கணிக்கும் திறன் இவையெல்லாம் இருந்தால் மட்டுமே கையில் உள்ள டேட்டாவை ஆய்வு செய்து, தரவுகளைத் தயார் செய்ய முடியும்.

சரி, டேட்டா இன்ஜினீயரிங் பக்கம் வருவோம். இன்ஜினீயர் என்னவெல்லாம் செய்தாக வேண்டும்? பிக் டேட்டா கட்டமைப்பு மென்பொருள்களை பிஸினெஸ் பயன்பாட்டுக்கு ஏற்றபடி பயன்படுத்தத் தெரிய வேண்டும். அதற்கு பிக் டேட்டா சம்பந்தப்பட்ட அனைத்து டூல்களைப் பற்றியும் குறைந்தபட்ச அறிவு வேண்டும். ஹடூப், மேப் ரெட்யூஸ் போன்ற ஃபிரேம்வொர்க்கை பயன்பாட்டுக்கு ஏற்றபடி பயன்படுத்தத் தெரிய வேண்டும். டேட்டாபேஸ் டிசைன், அப்ளிகேஷன் இயங்குவிதம் பற்றி புரிந்துவைத்திருக்க வேண்டும். அப்ளிகேஷனுக்கு ஏற்றபடியான பிக் டேட்டா டூலை நிறுவத் தெரிய வேண்டும். ஒப்பிட்டுப் பார்க்க வேண்டும். ஸ்பார்க்கில் உள்ள குறைபாடுகள், கேஸ்ஸென்ட்ராவில் உள்ள சாதகமான அம்சங்கள் பற்றிய பார்வை அவசியம். ETL பற்றி ஆழமான பயிற்சி வேண்டும். ஒரு டேட்டாபேஸில் உள்ள டேட்டாவை வேறொன்றுக்கு மாற்றவும், அதை தரவிறக்கவும் தேர்ச்சி பெற்றிருக்க வேண்டும்.

டேட்டா இன்ஜினீயர், ஒரு பிக் டேட்டா கட்டமைப்பை வடிவமைக்கிறார். வடிவமைப்பதுடன், டேட்டாவை வெவ்வேறு இடங்களிலிருந்து பெற்று ஒருங்கிணைக்க வேண்டும். டேட்டாவை உள்ளீடு செய்வதும், வெளியே பெற்றுத்தருவதற்கான Query எழுதுவதும், டேட்டாவை நிர்வகிப்பதும் அவரது முக்கியமான பணி. பவர்பாயிண்ட்டில் ஏராளமான ஐடியாக்கள் தரப்படலாம். ஆனால், நிறுவனத்தின் ஈகோசிஸ்டத்தை மேம்படுத்த, களத்தில் இறங்கி பணியாற்றுபவர்கள் இவர்கள்தான். அதில் உள்ள சிக்கல்களும், சவால்களும் இவர்களுக்குத்தான் தெரியும். அவற்றையெல்லாம் கவனமாகப் பதிவுசெய்து, டேட்டா சயின்டிஸ்டுகளிடம் தர வேண்டியதும் இவர்களது பணிதான். ஆனால், எத்தனை பேர் இதைச் செய்கிறார்கள் என்பதுதான் கேள்விக்குறி!

(தொடரும்)

Tags : பிக் டேட்டா டேட்டாபேஸ் தொழில்நுட்பம் கம்ப்யூட்டர் ஜாவா புரோக்ராமிங் டேட்டா சயின்ஸ் இன்ஜினீயர் big data database engineer data science technology java

More from the section

19. ஸ்கீமா என்னும் எனிமா!
18. ஹடூப் என்னும் அணைக்கட்டு
17. ஜிஎப்எஸ் என்னும் ஜீசஸ்!
15. கிருஷ்ணா, ராமா சேவா!
14. ஷார்ப்பான ஷார்ட்