ডেটা সায়েন্টিস্ট হওয়ার প্রস্ততি

ডেটা সায়েন্স এখন হট টপিক। ডেটা সায়েন্টিস্ট-দের জব মার্কেটে অনেক ডিম্যান্ড। বিদেশের মতো বাংলাদেশে ডেটা সায়েন্সের ব্যবহার এখনো সেরকমভাবে শুরু না হলেও ভেতরে ভেতরে তার প্রস্ততি চলছে। মার্কেটের দিকে তাকালেই আমরা সেটি আন্দাজ করতে পারি। বিশেষ করে তরুণ উদ্যোক্তা, ইন্টারনেট-ভিত্তিক ব্যবসা প্রসারের চিন্তাভাবনা, সরকারের সদিচ্ছা এবং তরুণ মন্ত্রী ও উপদেষ্টাদের ডিজিটাল বাংলাদেশ গড়ার প্রচেষ্টায় পজিটিভলি কাজ করা এবং সর্বোপরি ইন্টারনেট ব্যবহারকারিদের এক্সপোনেনশিয়াল বৃদ্ধি অচিরেই আমাদের ব্যবসা, বাণিজ্য, মার্কেটিংকে এমনভাবে বদলে দেবে যা আমরা এই মুহূর্তে অনেকেই বিশ্বাস করতে পারছিনা।

যে কারণে নিকট ভবিষ্যতে আমাদের অনেক ডেটা সায়েন্টিস্ট দরকার হবে। দেশের চাহিদা মেটাতে আমাদের নিজেদের মধ্যে থেকেই সেই স্থান পুরণ করতে হবে। আমার কাছে অনেকেই প্রশ্ন করে কিভাবে ডেটা সায়েন্টিস্ট হওয়া যায়। আমি কথোপকথনের মাধ্যমে পুরো প্রসেসটার একটা সারাংশ দেয়ার চেষ্টা করেছি। বিস্তারিত জানতে পুরো লেখাটি পড়ার আহবান জানাচ্ছি।

ডেটা সায়েন্টিস্ট হতে চাই

ভাল কথা। কিন্তু শুরুতেই বলে নেই ডেটা সায়েন্টিস্ট হতে চাইলেও সবাই শেষ পর্যন্ত ডেটা সায়েন্টিস্ট হতে পারবেন না। এর মূল কারণ হলো সবাই শেষ পর্যন্ত উৎসাহ ধরে রাখতে পারবেন না এবং যতটা পরিশ্রম দরকার হবে ততটা পরিশ্রম করতে পারবে না। একটুও বাড়িয়ে বলছি না। মোটিভেশন ধরে রাখতে পারা অনেকের জন্য সম্ভব হবে না কেননা বাংলাদেশে এখনো জব মার্কটে ডেটা সায়েন্টিস্ট নামে কোন পদ নেই। তবে অচিরেই আসবে বলে আমি অনুমান করি। সে পর্যন্ত যদি মোটিভেশন ধরে রাখতে পারেন তাহলে সম্ভব হতে পারে।

  • ডেটা সায়েন্টিস্ট হওয়ার শর্টকাট রাস্তাটা একটু দেখিয়ে দেন

–ডেটা সায়েন্টিস্ট হওয়ার একটাই শর্টকাট রাস্তা আছে। ইচ্ছাশক্তি আর পরিশ্রম করার মানসিকতা।

  • আমি ডেটা সায়েন্টিস্ট হতে চাই। তিন মাসে কি ডেটা সায়েন্টিস্ট হওয়া সম্ভব?

– না, সম্ভব না। তবে চেষ্টা আর অধ্যাবসায়ের মাধ্যমে স্বল্প সময়ে কিছু দক্ষতা অর্জন করা সম্ভব যা আপনাকে ডেটা সায়েন্টিস্ট হতে সহায়তা করবে।

  • কিন্তু ইন্টারনেটে তিন মাসের বুটক্যাম্প আছে দেখছি

– ট্রাই করে দেখেন। ওই তিন মাসে যা করাবে তা তিন বছরের সমান। যারা এই লাইনে অলরেডি কাজ করছে তাদের জন্য এগুলো কাজে দিতে পারে।

  • ডেটা সায়েন্টিস্ট হতে চাই কিন্তু পরিসংখ্যানের কিছুই জানি না

– ডেটা সায়েন্স-এর ৯৯ ভাগই স্ট্যাটিসটিক্স। বেশীর ভাগ কাজের জন্য পরিসংখ্যানের বেসিক জ্ঞান থাকতে হবে। তবে মডেলিং এবং মেশিন লারনিং এর জন্য এডভান্সড পরিসংখ্যানের জ্ঞান থাকলে ভালো হবে।

  • কম্পিউটার প্রোগ্রামিং জানতে হবে? 

– প্রোগ্রামিং ছাড়া ডেটা সায়েন্সের কাজ করা অনেকটা পরাটা বানানো জানেন না তাই দোকান থেকে পরাটা কিনে খাওয়ার মতো। কোম্পানি আপনাকে হায়ার করবে পরাটা বানানোর জন্য। অতএব পরাটা বানানো জানতে হবে। সাথে ডিম ভাজিও করা লাগবে।ডিম ভাজির ব্যাপারটা বোঝা গেছে? না বুঝলে বলি – ডেটা সায়েন্টিস্টদের কাজ শুধু প্রথাগত প্রোগ্রামিং বা প্রথাগত পরিসংখ্যানের ব্যবহার নয়। তার চেয়েও একটু বেশী কিছু। যার জন্য লাগবে কৌতূহল আর কমন সেন্স।

  • দুনিয়া সম্পর্কে কোন খবর রাখি না কিন্তু ডেটা সায়েন্টিস্ট হতে চাই

– ডেটার দুনিয়া সম্পর্কে খবরা-খবর রাখতে হবে। ডেটা সায়েন্স দ্রুত পরিবর্তনশীল একটি বিষয়। এখানে প্রতিনিয়ত নতুন জিনিস যোগ হচ্ছে। তাই বাজারে টিকে থাকতে হলে নিজেকে সবসময় আপডেটেড রাখতে হবে। আজকের ডেটা সায়েন্স কালেকই পুরনো হয়ে যেতে পারে। প্রথাগত শিক্ষা আপনাকে একটা পর্যায়ে নিয়ে যাবে। বাকীটুকু আপনাকেই এগিয়ে নিতে হবে।

  • সব চাই কিন্তু পরিশ্রম করতে ইচ্ছে করে না, খালি ফেইসবুক করতে ইচ্ছে করে ভালো করে ঘুমানোর জন্যেও পরিশ্রম লাগে। আরেকটু ভেবে দেখুন, পরিশ্রম করতে রাজী আছেন কিনা।

– ঠিক আছে। আর কী লাগবে?

  • আর যা যা লাগবে সে সম্পর্কে এই পোস্ট থেকে একটা ধারণা পাওয়া যাবে।

– আচ্ছা, আমি রাজী

  • চলুন তাহলে

অল্পকথায়– যাদের ইচ্ছাশক্তি প্রবল, ধৈর্য্য অসীম, কৌতূহল অদম্য, শুধু তাদের জন্য এই ফিল্ড।

ডেটা সায়েন্স ফিল্ডে কাজের ধরন যদি আমরা পর্যালোচনা করি তাহলে দেখতে পাব এখানে ডেটা নিয়ে কাজ করতে হয়। তার অর্থ পরিসংখ্যানের ভালো বুনিয়াদ লাগবে। ডেটা নিয়ে যেহেতু কাজ করতে হয় সেজন্য স্ট্যাটিসটিক্যাল প্রোগ্রামিংও জানা থাকতে হবে। কম্পিউটার সায়েন্স জানা থাকতে হবে এমন নয়, তবে জেনারেল পারপাস প্রোগ্রামিং-এর অভিজ্ঞতা থাকলে দ্রুত অন্য একটি ল্যাংগুয়েজ শেখা সহজ হয়। তাছাড়া অধিকাংশ ক্ষেত্রে কোড অল্প কিছু পরিবর্তন করে নতুন প্রজেক্টে কাজে লাগানো যায়। এতে করে সময় বাঁচে। এটা করার জন্য অন্যের লেখা কোড বোঝার মতো দক্ষতা অর্জন করতে হবে। সেক্ষেত্রে কম্পিউটার সায়েন্সের ব্যাকগ্রাউন্ড অবশ্যই কাজে দেবে। মনে রাখা দরকার যে ডেটা সায়েন্সের বড় অংশই পরিসংখ্যান আর কম্পিউটার প্রোগ্রামিং আর হ্যাকিং স্কিল।

ডেটা সায়েন্টিস্ট হওয়ার ৭টি ধাপ

যদি গুগল করেন how to become a data scientist,  অনেক সাইট পাবেন যেখানে ধাপগুলো বলা আছে। এদের মধ্যে সবচেয়ে কম্প্রিহেনসিভ তালিকা দিয়েছে ডেটা ক্যাম্প। আমি তাদের মডেলটি আমার মতো করে লিখছি। ইনফোগ্রাফ দেখতে চাইলে সরাসরি তাদের সাইটে দেখা যাবে।

সংক্ষেপে ৭টি ধাপ নিম্নরূপ।

১. পরিসংখ্যান, গণিত ও মেশিন লারনিংএর পাঠ

২. প্রোগ্রামিং শেখা

৩. ডেটাবেইজ সম্পর্কে ধারণা রাখা

৪. ডেটা ম্যানিপুলেশন, ক্লিনিং ও ভিজুয়ালাইজেশন

৫. ছোট ডেটা থেকে বিগ ডেটা নিয়ে কাজ করা শেখা

৬. ছোট ছোট প্রজেক্টের মাধ্যমে বাস্তব কাজের অভিজ্ঞতা অর্জন করা

৭. নিজেকে আপডেটেড রাখা এবং ডেটা সায়েন্স কমিউনিটিতে যুক্ত থাকা

বিস্তারিত দিচ্ছি।

১. পরিসংখ্যান, গণিত ও মেশিন লারনিংএর পাঠ

আপনি পরিসংখ্যানের ছাত্র হলে এই অংশটুকু স্কিপ করতে পারেন। যদি পুরানো টপিকগুলো ঝালাই করার দরকার হয় তাহলে নিচের সূত্রগুলো রিভিউ করে নিতে পারেন।

পরিসংখ্যানের প্রাথমিক পাঠের জন্য ইউডাসিটির এই কোর্সটি দেখা যাবে। বাংলায় পরিসংখ্যানের একেবারে প্রাথমিক লেভেলের এই পাঠ নিতে পারেন। পরিসংখ্যানের প্রাথমিক ধারণা এবং রিগ্রশনের ধারণা নিতে হবে। তারপর মেশিন লারনিং-এ যেতে হবে। মেশিন লারনিংএর অনেকগুলো কোর্স অনলাইনে আছে। ফ্রি। তাদের মধ্যে স্ট্যানফোর্ডের এই কোর্সটি দিয়ে শুরু করা যেতে পারে।

বাংলায় পাইথন দিয়ে মেশিন লারনিং এর একটা ভালো বই পাওয়া যাবে এখানে।

মেশিন লারনিং শিখতে সবচেয়ে বেশী সময় ব্যয় হবে। ওভারল ধারণা নিতে কমপক্ষে ৩ মাস সময় ব্যয় করতে হবে। কারো কারো আরে বেশী সময় লাগতে পারে।

২. প্রোগ্রামিং

মূলত স্ট্যাটিসটিক্যাল প্রোগ্রামিং জানতে হবে। এর জন্য R বা SAS বা Python এর যে কোনটি কিংবা একাধিক ল্যাঙ্গুয়েজ সম্পর্কে জ্ঞান নিতে হবে।  যারা ইতোমধ্যেই পরিসংখ্যান শিখেছেন এবং R বা SAS এর সাথে পরিচিত তারা এগুলো রিভিউ করে নিবেন। আর নতুন ল্যাঙ্গুয়েজ শিখতে চাইলে পাইথন শেখার পরামর্শ দিবো।

R শেখার অসংখ্য সাইট আছে। যেটা ভালো লাগে সেটা দিয়ে শিখে নিন। ট্রাই-আর নামে একটা সাইট আছে সেটা কোডস্কুল পরিচালনা করে। ওদের লিংক http://tryr.codeschool.com/

Python শেখার জন্য সেরকম অনেক সাইট আছে। গুগলের একটা সাইট হল https://developers.google.com/edu/python/

SAS শেখার জন্য ওদের সাইটে কিছু ভিডিও আছে। আর বাংলায় স্যাস-এর একটা কোর্স শিক্ষক ডট কম সাইটে আছে।

ব্যক্তিগতভাবে আমি ওপেন সোর্স এবং ফ্রি সফটওয়্যার পছন্দ করি। তবে কমার্শিয়াল সফটওয়্যারের মধ্যে অন্যতম হল স্যাস। আমেরিকায় হেল্থকেয়ার এবং ফাইন্যানশিয়াল অর্গানাইজেশনে স্যাস ব্যবহার করে। আমার কাছ স্ট্যাকচারড ডেটার ম্যানেজমেন্ট এবং প্রসেসিং এর জন্য স্যাস পছন্দ। আর মডেলিং এর জন্য R পছন্দের।

৩. ডেটাবেইজ সম্পর্কে ধারণা রাখা

ডেটা সায়েন্টিস্টদের কাজের প্রথম ধাপ হলো ডেটাবেইজ থেকে ডেটাকে কোয়েরি করে এনে তারপর কাজ করা। ডেটাবেইজে ম্যাসিভ এমাউন্ট অব ডেটা স্টোর করা থাকে। কোন একটি নির্দিষ্ট বিজনেজ কোশ্চেন উত্তর করতে সব ডেটার দরকার হয়না। শুধু দরকারি ভ্যারিয়েবলগুলোকে নিয়ে মূল ডেটার একটা সাবসেট নিয়ে কাজ করা হয়। সেজন্যই কোয়েরি ল্যাংগুয়েজ জানতে হয়।

SQL হলো structured query language. এটি আমার মতে দুনিয়ার সবচেয়ে সহজ ল্যাংগুয়েজ। খুবই সহজ। যে কেউই এর লজিকটি একবার বুঝে উঠলে এই ল্যাংগুয়েজ নিয়ে কাজ করা তার জন্য একদম পানির মতো। আপনাকে মাস্টার হতে হবে না। ধারণা থাকলেই কাজ চালাতে পারবেন। তবে এফিশিয়েন্ট কোয়েরি কিভাবে লিখতে হয় সেটার জন্য একটু বেশী করে পড়াশুনা করতে হবে যেটি দরকার মত করে নিতে হবে।

SQL কে সিকুয়েল বলে। সম্ভবত দ্রুত বলার জন্য এভাবে বলা হয়। তবে এসকিউএল বললেও সেটা ভুল বলা হবে না।

সিকুয়েল শেখার অনেক সাইটের মধ্যে http://www.sqlcourse.com/ দেখতে পারেন।

৪. ডেটা ম্যানিপুলেশন, ক্লিনিং ও ভিজুয়ালাইজেশন

ডেটা কোয়েরি করার পর সেটাকে সাইজ করতে হবে। এটাকে বলে ডেটা প্রিপারেশন বা ক্লিনিং। কিভাবে ক্লিন করতে হবে সেটা নির্ভর করবে কী প্রশ্নের উত্তর খোঁজা হচ্ছে তার উপর। আগে থেকে এসব স্থির করা থাকলে ডেটা ক্লিনিং এ সময় কম নষ্ট হয়। আমার অভিজ্ঞতার আলোকে দেখেছি ডেটা ক্লিনিং এর কোন নির্দিষ্ট নিয়ম বা প্রথা নেই। এটি পুরোপুরি অভিজ্ঞতানির্ভর এবং প্রজেক্ট নির্ভর। নির্দিষ্ট একটি প্রজেক্টের জন্য ধাপগুলো আপনাকেই বের করতে হবে।

ডেটা ক্লিনিং কে আবার ডেটা মানজিং (data munging) ও বলে। বিশেষ করে ডেটা সায়েন্স ফিল্ডের লোকজন এই শব্দ ব্যবহার করে। পরিসংখ্যানবিদরা হয়তো এই শব্দের সাথে পরিচিত নন।

R দিয়ে ডেটা ক্লিনিং এর জন্য দুইটা জনপ্রিয় প্যাকেজ আছে। সেগুলো হলো dplyr এবং data.table

অনলাইনে এদের টিউটোরিয়াল পাওয়া যায়। তবে সবচেয়ে ভালো হয় এগুলো নিয়ে নিজে নাড়াচাড়া করে শিখে নেয়া। উপরের লিংক থেকে প্যাকেজগুলোর ভিনিয়েট থেকেও কাজ শুরু করার মতো তথ্য পাওয়া যাবে।

ডেটা ভিজুয়ালাইজেশনের জন্য ggviz প্যাকেজ আছে। আর কমার্শিয়াল সফটওয়্যারের মধ্যে ট্যাবলো (Tableau) খুবই জনপ্রিয়। এদের ফ্রি ভারশনও আছে সেটাকে বলে কমিউনিটি এডিশন। আমি সবাইকে এই সফটওয়্যার সম্পর্কে ধারণা নেয়ার পরামর্শ দেই। ট্যাবলো একটি অতি জনপ্রিয় সফটওয়্যার যেটি ইন্ডাস্ট্রিতে ব্যাপকভাবে ব্যবহৃত হয়। এটি শেখা থাকলে আপনার রেজুমে অনেক শক্ত হবে।

৫. ছোট ডেটা থেকে বিগ ডেটা নিয়ে কাজ করা শেখা

ডেটা সায়েন্টিস্টদের প্রায়ই অনেক বড় বড় ডেটা নিয়ে কাজ করতে হয়। কত বড় ডেটা হলে সেটাকে বিগ ডেটা বলা যায় তার কোন সংজ্ঞা নেই। তবে যে ডেটা সাধারণ কনজিউমার লেভেলের কম্পিউটারে দিয়ে এনালাইজ করা যায় না সেই ডেটাকে বিগ ডেটা বলা যায়। একটি ৩ গিগাবাইট ডেটা আপনার ল্যাপটপে নিয়ে কাজ করা সহজ হবে না। এমনকি আপনার ১৬ গিগা ড়্যাম থাকলেও। আর ১০ গিগা বা তারচে বড় ডেটা খুবই কমন। সেগুলো সাধারণ কম্পিউটারের মেমরিতেই ফিট করবে না।

তো বিগ ডেটার জন্য আমাদের অন্যরকম সলুশন দরকার হয়। সহজ করে বলা যায় আপনি যে কোড লিখেছেন সেই কোডটিকে আরো বড় ডেটার উপর চালানোর জন্য অনেক সময় পরিবর্তন করে নিতে হয়। সেটা নির্ভর করে এভেইলেবল সফটওয়্যারের উপর এবং কোন ধরনের টুল ব্যবহার করছেন তার উপর। বিগ ডেটার জন্য হাডুপ (Hadoop) এবং ম্যাপরিডিউস একসময় খুব জনপ্রিয় ছিল। এখন আরো দ্রুত গতির সলুশন এসেছে। সেরকম একটি হলো স্পার্ক (Spark) - যেটি এপাচে'র প্রজেক্ট (Apache).

স্পার্ক ফ্রেমওয়ার্কে R এবং Python দুটো দিয়েই কাজ করা যায়। স্পার্ক এর R API হলো SparkR এবং পাইথন API হলো PySpark. আপনি যেটাতে স্বচ্ছন্দ বোধ করেন সেটি নিয়ে কাজ করবেন। স্পার্ক নিয়ে পরবর্তীতে বিস্তারিত লেখার ইচ্ছে আছে।

আরেকটি পাওয়ারফুল প্রজেক্ট আছে সেটি হলো H20. ওদের সাইট হলো h20.ai সময় করে দেখে নিতে পারেন। ইউটিউবে অনেক টিউটোরিয়াল আছে।

৬. ছোট ছোট প্রজেক্টের মাধ্যমে বাস্তব কাজের অভিজ্ঞতা অর্জন করা

এ পর্যন্ত যদি পড়ে থাকেন তাহলে বুঝতে পারছেন কত দ্রুত আপনাকে কতকিছু শিখতে হবে। এত কিছু শেখার পর আপনাকে জব মার্কেটে নামতে হবে। নামার আগে আপনাকে একটি পোর্টফোলিও তৈরী করতে হবে যেখানে আপনি কী কী কাজ করতে পারেন তার প্রোটোটাইপ উদাহরণ হিসেবে রাখতে হবে।

এই ধাপটিতে আমি মেন্টর করার চেষ্টা করবো। আপনি আগ্রহী হলে আমার সাথে যোগাযোগ রাখুন। শিঘ্রই কিছু ছোট প্রজেক্ট প্রকাশ করবো যেখানে আপনি টুলগুলো ব্যবহার করার চর্চা করতে পারবেন।

৭. নিজেকে আপডেটেড রাখা এবং ডেটা সায়েন্স কমিউনিটিতে যুক্ত থাকা

শেষ কথা হলো শেখার কোন শেষ নেই। টেকনলজি দ্রুত পরিবর্তনশীল। সময়ের সাথে তাই আপনাকেও থাকতে হবে আপডেটেড। নিজেকে আপডেটেড রাখার সবচেয়ে সহজ উপায় হলো এসব টুল নিয়ে প্রতিনিয়ত কাজ করা এবং সেটা অন্যকে শেখানো। শেখানোর মাধ্যমে নিজের শিক্ষা পূর্ণ হয়।

আশা করি আমি আগ্রহী ছাত্র-ছাত্রীদের সাথে পাবো।

দীর্ঘ পোস্ট পড়ার জন্য অনেক ধন্যবাদ।

Principal Data Scientist

I support pharmaceutical companies to generate real world evidence (RWE) from real world data (RWD). The easiest way to get a response from me is to leave a comment down below. For career advice, please use email. Opinion expressed here are my own.

comments powered by Disqus

Related