Enable Javscript for better performance
22. டிஸ்கவரி இன்ஃபர்மேடிக்ஸ்- Dinamani

சுடச்சுட

    
    1

     

    கருப்புத் துணியால் கண்ணைக் கட்டி காரில் உட்காரவைத்ததும், ரஜினி மனத்துக்குள் எண்ண ஆரம்பித்துவிடுகிறார். 1, 2, 3, 4, 5, ... 100 தாண்டியதும், கார் இடதுபுறம் திரும்புவதை மனத்தில் குறித்து வைத்துக்கொள்கிறார். போகும் வழியில், எங்கேயோ ஒரு நிறுவனத்தில் ராட்சத இயந்திரங்கள் இயங்கும் ஒலி காதில் விழுகிறது. அதையும் கவனிக்கிறார். வலதுபுறம் திரும்பும் கார், சற்று தூரம் நேராகச் சென்று இடதுபுறம் திரும்புவதை உடல் அசைவதிலிருந்து கண்டுகொள்கிறார். ஏதோ ஒரு தேவாலயத்திலிருந்து மணியோசை எழுகிறது. அதையும் கவனிக்கிறார்.

    மறுபடியும் கிளம்பிய இடத்துக்கு ரஜினியை அழைத்துவந்து, நடுரோட்டில் இறக்கிவிடுகிறார்கள். சுற்றிலும் கான்கிரீட் காடுகள். சட்டென்று ஒரு டாக்ஸியை அழைத்து, கர்ச்சீப்பால் கண்ணைக் கட்டிக்கொண்டு, போகுமிடத்தைச் சொல்லிக்கொண்டே வருகிறார். ஒருவழியாக இடத்தைக் கண்டுபிடித்து, ஸ்ரீதேவியை அடைத்துவைத்திருக்கும் இடத்தை உறுதிப்படுத்திக்கொண்டு உற்சாகமாக எட்டு மாடிப்படிகளைத் தாவி ஏறி, ஸ்டைலாக நின்றபடி கதவைத் தட்டுகிறார். ப்ரியா படத்தின் கிளைமாக்ஸ்!

    சுஜாதாவின் ப்ரியா நாவல், படமாக எடுக்கப்பட்டபோது, நாவலின் ஆதார சுருதியான இந்தக் காட்சியைச் சிதைக்காமல் கவனமாக எடுத்திருப்பார்கள். மொழி தெரியாத, திக்கு தெரியாத தேசத்தில் கடத்தப்பட்ட கதாநாயகியை மீட்பதற்காக கதாநாயகன் மேற்கொள்ளும் புத்திசாலித்தனமான வழிகளாக சுஜாதா சுட்டிக்காட்டியிருப்பதை, நாம் சற்று உன்னிப்பாகக் கவனிக்கவேண்டி இருக்கிறது.

    ப்ரியாவில் மட்டுமல்ல, பிக் டேட்டாவிலும் இதுதான் நடக்கிறது. இங்கே சர்வ வல்லமை படைத்த சிஸ்டம், ரஜினியாக இருந்து அனைத்தையும் மின்னலாகச் சேமித்து வைத்துக்கொள்கிறது. கண்ணைக் கட்டினாலும் சிஸ்டத்திடமிருந்து எதுவும் தப்ப முடியாது. முதலில் 100 எண்ணிக்கை, பின்னர் இடதுபுறம் திரும்புதல், இயந்திரங்களின் ஒலி, தேவாலய ஒலி.. இவையெல்லாம்தான் மாதிரிகள்.

    மாதிரிகளை அறிதல் (Pattern recognition) என்பது டேட்டா சயின்ஸில் முக்கியமான விஷயம். வெவ்வேறு மாதிரிகளை ஒன்றாக, வரிசையாக அடுக்கிவைப்பது. வரிசைக்கிரமமாக அடுக்கிவைப்பதன் மூலம் அவற்றின் தொடர்ச்சியையும் நாம் சேமிக்கிறோம். பின்னர் அதை முன்வைத்து, பல்வேறு டேட்டா ஆய்வுகளைச் செய்வதற்கும் அதுவே பெரிதும் துணை புரிகிறது.

    ப்ரியா கிளைமாக்ஸில் ரஜினி செய்வதும் அதுதான், டேட்டாபேஸ் சிஸ்டம் செய்வதும் அதுதான். கண்ணைக் கட்டி, கான்கிரீட் காட்டில் விட்டாலும், உள்ளுணர்வை விழிப்பாக வைத்திருந்து, கேட்ட ஒலிகளை நினைவுக்குக் கொண்டுவந்து, இடது - வலது வித்தியாசங்களை உணர்ந்து, அதை அப்படியே reproduce செய்வதன் மூலமாக, தேடிய இடத்தை ரஜினியால் அடைய முடிந்தது.

    பேட்டர்ன் என்பது முக்கியமானது. தகவல்களை எந்த பேட்டர்னில் சேமித்து வைப்பது. அதுவே முதல் படி. இதுதான், காலப்போக்கில் வளர்ந்து, ஒரு பெரும் துறையாக வளர்ந்திருக்கிறது.  Data Mining என்னும் தகவல் சுரங்கம். பிக் டேட்டா உலகில் இதுவே பெரிய தரவுச் சுரங்கம், சுருக்கமாகசு சொன்னால் தங்கச் சுரங்கம்!

    2003. அமெரிக்காவின் பால்டிமோர் நகரத்தில் உள்ள ஒரு பல்கலைக் கழகத்தில் விரிவுரையாளராகப் பணியாற்றிவந்த வில்லியம் அகரேஸிக்கு ஒரு யோசனை உதித்தது.  எத்தனை காலம்தான் தகவல்களை ஒரே மாதிரியாக அடுக்கி வைத்துக்கொண்டே இருப்பது? தகவல்களுக்கு இடையேயான தொடர்பு அறுபடும்போது, தட்டுத் தடுமாறவேண்டி இருக்கிறதே.  அதுகூட பரவாயில்லை. தரவுச் சுரங்கம் கையில் இருந்தாலும், சரியான தகவல்களை, சரியான நேரத்தில் வெளிக்கொணருவதில் எத்தனை காலம்தான் ஒரே மாதிரியான அணுகுமுறையை இன்னும் நம்பிக்கொண்டிருப்பது? அதே எக்ஸல் ஷீட், அதே புள்ளிவிவர பார்முலாக்கள். சின்ன தகவலைப் பெற மணிக்கணக்கிலா காத்திருப்பது? 

    கணக்கீட்டு முறையில் நிறைய மாற்றங்களைக் கொண்டு வர வேண்டியது அவசியம் என்பதை வில்லியம் அகரேஸி உணர்ந்துகொண்டார். பேட்டர்னை புரிந்துகொள்வது மட்டுமல்ல, மெஷின் லேர்னிங் என்னும் சுயகற்றல் மூலமாக எந்நேரமும் தகவல்களைப் பெற்று, சேமித்தாக வேண்டும். கூடவே, எந்தவிதமான வடிவம் (semantic processing) என்பதையும் நம்முடைய தேவைக்கேற்ப மாற்றிக்கொள்ள வேண்டும்.  X, Y, Z என மூன்று வெவ்வேறு காரணிகளையும் சரியாக்க் கணித்தால் மட்டுமே, மூன்றும் சந்திக்கும் புள்ளியைத் தெளிவாக வரையறை செய்யமுடியும் என்பதைப் புரிந்துகொண்டார். இவை அனைத்தையும் உள்ளடக்கிய ஒரு சொல்லை அறிமுகப்படுத்தினார். அதுதான் டிஸ்கவரி இன்ஃபர்மேடிக்ஸ் (Discovery Informatics).

    வில்லியம் அகரேஸி முன்வைத்த டிஸ்கவரி இன்பர்மேடிக்ஸ் என்பது மூன்று முக்கியமான பகுதிகளை உள்ளடக்கியது. 1. டேட்டா மைனிங் (Data Mining) 2. மெஷின் லேர்னிங் (Machine Learning) 3. சீமேன்டிக் பிராசசிங் (Semantic Processing). இவை மூன்றுக்கும் தேவையான கோடிக்கணக்கான தகவல்களை எப்படிச் சேமிப்பது என்பது பற்றியெல்லாம் வில்லியம் கவலைப்படவில்லை. ஆனால், எப்படியாவது சேமித்தாக வேண்டும் என்பதில் உறுதியாக இருந்தார். அப்படிச் சேமித்தால் மட்டும் இவை மூன்றும் சாத்தியப்படும். தகவல் ஆய்வு (Data Analytics) என்பது முழுமை பெறும் என்று நம்பினார்.

    வில்லியம் முன்வைக்கும் விஷயம் சாத்தியமில்லாத விஷயம் என்றுதான் அப்போதைய டேட்டாபேஸ் உலகம் நினைத்தது. 2003-ல் மொபைல் உலகம் அறிமுகமான நேரம். அப்போதைய தொழில்நுட்பத்தைப் பயன்படுத்தி, பெரிய அளவிலான டேட்டா ஸ்டோரேஜ் தொகுப்புகளை உருவாக்குவது என்பது கஷ்டமான காரியமாகத்தான் இருந்தது. ஆனால், காலப்போக்கில் அவரது கனவு நனவானது. இன்று, டிஸ்கவரி இன்ஃபர்மேடிக்ஸ் என்னும் சொல்லாடல், டேட்டா அனாலடிக்ஸ் துறையில் பல புரட்சிகளை ஏற்படுத்தியிருக்கிறது.

    டிஸ்கவரி இன்ஃபர்மேடிக்ஸ் (Discovery Informatics), ஏராளமான நவீன புள்ளிவிவர முறைகளை (Statistical Techniques) அறிமுகப்படுத்தியது. இதனால் பணிகள் வேகமாக நடந்தேறின. அத்துடன், பெறப்படும் தகவலின் துல்லியமும் உறுதி செய்யப்பட்டது. குறிப்பாக, இரண்டு விஷயங்கள் நடந்தேறின. 1. வரும் டேட்டாவை நேரடியாகப் பயன்படுத்திக்கொள்வது 2. டேட்டாவுக்கு இடையேயான ஏராளமான தொடர்புகளையும், அவை மாறும் தன்மையையும் சேமிப்பது.

    அளவை ஆராய்வது (Quantitative Analysis) - இது மிகவும் பிரபலமான, பரவலாக அனைவராலும் மேற்கொள்ளப்படும் ஆய்வு. எத்தனை பேட்டர்ன் மாதிரிகள் கண்டறியப்பட்டன, அவற்றுள் எத்தனை மாதிரிகள் ஒத்துப்போகின்றன, எத்தனை முரணாக இருக்கின்றன என்பதை ஆய்வு செய்வது. ஆனால், இதற்கு ஏராளமான மாதிரிகள் தேவைப்படும். எந்த அளவுக்கு அதிகமான மாதிரிகள் கிடைக்கிறதோ அதற்கேற்ப துல்லியம் அமைந்திருக்கும். ஆய்வின் முடிவு பெரும்பாலும் எண்ணிக்கையில் இருக்கும் என்பதால், நம்மால் தெளிவாக ஒரு முடிவுக்கு வர முடியும்.

    உதாரணத்துக்கு, ஒரு நகரத்தில் ஐஸ்கிரீம் விற்பனை என்பது தட்பவெப்ப சூழலைப் பொறுத்தது. 5 டிகிரி வெப்பம் அதிகரிக்கும்போது, ஐஸ்கிரீம் விற்பனை குறிப்பிட்ட சதவீதம் அதிகரிக்கலாம். எத்தனை சதவீதம் என்பதைக் கண்டறிவதற்குத்தான் இந்த ஆய்வு. இதற்கு என்னவெல்லாம் தேவைப்படுகிறது? சம்பந்தப்பட்ட நகரத்தில் கடந்த 25 ஆண்டுகளில் நிகழ்ந்த தட்பவெட்ப மாறுதல்களும், அதன்மூலம் ஐஸ்கிரீம் விற்பனையும், நடைபெற்ற ஏற்ற, இறக்கங்களும் தேவைப்படும். இவையெல்லாம் கிடைத்துவிட்டால், நடப்பாண்டில் ஐஸ்கிரீம் விற்பனை எப்படி இருக்கும் என்பதை எளிதாகக் கண்டுபிடித்துவிடலாம்.

    தரத்தை ஆராய்வது (Qualitative Analysis) - இது முந்தைய ஆய்வுக்கு முற்றிலும் நேர்மாறானது. எண்ணிக்கை அடிப்படையில் முடிவு அமையாது. எனினும் டிரெண்ட் என்பதை வெளிக்காட்டும். உதாரணத்துக்கு மே மாத ஐஸ்கிரீம் விற்பனையோடு ஒப்பிடும்போது, ஏப்ரல் மாதத்தில் குறைந்திருக்கிறது. எந்த அளவுக்குக் குறைந்திருக்கிறது என்பதைப் பற்றியெல்லாம் ஆய்வில் வராது.

    தரவுச் சுரங்கம் (Data Mining) என்பது நாம் ஏற்கெனவே சொன்னதுபோல் தகவல் சுரங்கம். பிக் டேட்டா உலகில் தரவுச் சுரங்கம் என்றாலே பெருமளவு தகவல்களைச் சேகரித்து, சேமிப்பது. ஆட்டோமேஷன், ஆர்டிபீஷியல் இன்டெலிஜென்ஸ் என பல்துறை சம்பந்தப்பட்ட ஏரியா இது. புள்ளிவிவர ஆய்வு (Statistical Analysis) இல்லாத துறைகள் இல்லை.  ஆங்கிலேயர் காலத்து இந்தியா முதல் இணைய இந்தியா வரை எல்லா இடங்களிலும் புள்ளிவிவரங்களை அடிப்படையாகக் கொண்ட ஆய்வுகள் உண்டு. Regression, Correlation, A/B testing பற்றியெல்லாம் விளக்கத் தேவையில்லை. வானிலை முதல் தேர்தல் கருத்துக் கணிப்பு வரை ஏராளமான இடங்களில் பயன்பாட்டில் இருப்பவைதான்.

    பொருள் சார்ந்த ஆய்வு (Semantic Analysis), விஷுவல் ஆய்வு (Visual Analysis), மெஷின் லேர்னிங் (Machine Learning), தொகுப்பு (clustering), வகைப்பாடு (classification) என்று ஏராளமான ஆய்வு முறைகள் உண்டு. ஒரு சிலவற்றை விரிவாக பார்ப்போம். அதற்கு முன்னதாக, டேட்டா அனாலிடிக்ஸ் ஏன் முக்கியத்துவம் பெற்றுவருகிறது என்பதைப் பார்த்துவிடுவோம்.

    டேட்டா அனாலிடிக்ஸின் அவசியம் பற்றி எல்லோருக்கும் தெரியும். தொழில்நுட்பச் சந்தையில், அனாலிடிக்ஸ் அப்ளிகேஷன் ஏராளமானவை கொட்டிக்கிடக்கின்றன. SAS, R, Python, Hive, Spark, Tableau என்று சொல்லிக்கொண்டே போகலாம். பல்வேறு துறைகளில் இவை இன்று பயன்பாட்டில் இருக்கின்றன. துறைகளைப் பொறுத்து, அவற்றின் பயன்பாட்டைப் பொறுத்து, தகவல்களின் பாதுகாப்பு பற்றிய விஷயங்களைக் கருத்தில் கொண்டு இவை பயன்பாட்டில் எடுத்துக்கொள்ளப்படுகின்றன.

    இவை அனைத்தையும் கற்றுத் தேற வேண்டிய அவசியமில்லை. டேட்டா சயின்ஸ் அப்ளிகேஷன் எப்படிச் செயல்படுகின்றன; எந்த அளவுக்கு நம்முடைய நிறுவனப் பணிகளுக்கு உதவியாகவும், அதேசமயம் நடைமுறைகளை எளிமைப்படுத்தவும் உதவியாக இருக்கின்றன என்பதைப் புரிந்துகொண்டாலே போதுமானது.  காரணம், எல்லா நிறுவனங்களும், எப்போதும் இவற்றைப் பயன்படுத்துவதில்லை. தேவைப்பட்டால், தனியொரு புராஜெக்டாக தயார் செய்து, மற்றவர்களிடம் கொடுத்து, பணியை முடிக்கவே நினைக்கிறார்கள். சுருக்கமாகச் சொன்னால், சென்ஸிடிவான டேட்டாவை வைத்திருக்க நிறுவனங்கள் தயாராக இல்லை. காரணம், வேறன்ன? பாதுகாப்புக் குளறுபடிகள்தான்.

    (தொடரும்)

    • அதிகம்
      படிக்கப்பட்டவை
    • அதிகம் இ-மெயில் செய்யப்பட்டவை
    google_play app_store
    kattana sevai