data-job-interview

คุณอาจจะรู้สึกตื่นเต้นทุกครั้งที่ต้องสัมภาษณ์งาน เพราะงานในสาย Data ต้องผ่านการทดสอบที่ต้องอาศัยความรู้ทางด้านคณิตศาสตร์, การเขียนโปรแกรม และความสามารถในการวิเคราะห์ข้อมูลในคราวเดียวกัน

หนึ่งในสิ่งที่เหล่าบริษัทในยุคปัจจุบันเลือกที่จะทดสอบคุณสมบัติของผู้สมัครงานสาย Data คือการทำ Case Interview โดยเฉพาะการสัมภาษณ์งานสาย Data ที่เป็น Data Analyst และ Business Intelligence

Case Interview หรือ Case studies Interview ในสายงาน Data เป็นอย่างไร ?

Case Interview ของสายงาน Data มีความคล้ายคลึงกับการทำ Case Interview ของสายงาน Consulting ที่ ๆ คุณจะได้รับโจทย์ทางธุรกิจ พร้อมทั้ง Dataset เพื่อให้คุณลองวิเคราะห์ Insight จาก Data เพื่อมานำเสนอออกมาเป็น Business Insight ที่มีประโยชน์ต่อธุรกิจ รูปแบบส่วนใหญ่จะเป็นการส่งโจทย์เป็น Take home assignment ให้คุณกลับไปทำที่บ้าน แล้วนำมานำเสนอตอนสัมภาษณ์งาน

Airbnb : home assignment

ตัวอย่างโจทย์ Data analytic ของตำแหน่ง Data scientist บริษัท Airbnb

จากที่เราได้คุยกับ Senior Data Analyst หลาย ๆ คน เราพบว่าผู้สมัครงานสาย Data หลายคนที่เป็น Entry หรือ Mid level มักจะผิดพลาดบางเรื่องในตอนทำ Case Interview ทำให้พลาดโอกาสในการทำงานไปอย่างน่าเสียดาย

ทางเราจึงได้สรุปรวบรวมออกมาเป็น เทคนิคง่าย ๆ 5 ข้อเพื่อให้คุณสามารถทำโจทย์ Case Interview ได้ผ่านฉลุยและได้ทำงานที่คุณใฝ่ฝันไว้

1. ก่อนออกแบบการนำเสนอข้อมูลต้องคำนึงถึงว่า Audience ของเรา คือใคร ?

ออกแบบผลลัพธ์ให้ตรงกับบทบาทของผู้ฟังตามที่โจทย์กำหนด

แล้ว Audience ไม่ใช่ HR หรือ Team lead ที่กำลังสัมภาษณ์งานเราอยู่หรอ ?

ถึงแม้ว่าการสัมภาษณ์งานแบบ Case interview จะมี HR หรือ Team lead ที่จะส่งโจทย์พร้อม Dataset มา แต่จริง ๆ แล้วในโจทย์มักจะบอกจุดมุ่งหมายคร่าว ๆ ว่าโจทย์นี้ทำเพื่อนำเสนอใครเช่น นำเสนอต่อทีม R&D ซึ่งในบางครั้งโจทย์จะเลือกบอกอ้อม ๆ เช่น บทสรุปผู้บริหารรายงานประจำปี ดังนั้นผู้ฟังก็จะเป็นคนจากฝ่ายบริหาร

ความแตกต่างระหว่างผู้ฟังสองแบบข้างต้นคือรูปแบบการนำเสนอ หากผู้ฟังเป็นฝ่ายบริหารควรนำเสนอเป็นข้อสรุปแล้วค่อยให้รายละเอียดข้อมูล (Top-down approach) จะเหมาะสมมากกว่าการเล่าแบบให้รายละเอียดแล้วค่อยสรุป (Bottom-up approach)

2. กำหนด Objective ให้ชัดเจน และตั้งคำถามแบบ Follow-up questions

คำนึงถึงเป้าหมายและให้ความสำคัญกับการตั้งคำถามต่อเนื่องเพื่อเข้าถึง Business Insight

ในบริษัทหลาย ๆ ที่ที่มีโจทย์ Case Interview มักจะพ่วง Objective ที่อยู่ใน Guideline question อยู่แล้ว ซึ่งสิ่งที่เหล่าผู้สมัครงานมักทำคือแปลงข้อมูลเป็นกราฟแล้วเล่าทีละประเด็น ๆ โดยไม่ได้พยายามสรุปใจความสำคัญของแต่ละกราฟออกมา สิ่งที่จะช่วยทำให้งานน่าสนใจขึ้นคือการกลับไปดูที่ Objective ของโจทย์และตั้งคำถามกับ Dataset ใหม่ให้เป็นคำถามต่อเนื่อง เช่น Objective คือบริษัทเรียนออนไลน์อยากหาลูกค้าใหม่ เราอาจจะเริ่มจากตั้งคำถามว่า “ปัจจุบันคอร์สเรียนไหนเป็นที่นิยม ?”

ลองพล็อตกราฟออกมา หากพบว่าคอร์สเรียน Basic AI มียอดขายสูงที่สุด ลองตั้งคำถามต่อเนื่องสำหรับ Insight นี้ดูเช่น

  • คอร์สเรียน Basic AI มียอดขายสูงแบบนี้ตั้งแต่เมื่อไหร่กัน ? (วิเคราะห์ Time series)
  • คอร์สเรียน Basic AI เป็นสินค้าที่ขายดีก็ต่อเมื่ออยู่ในช่วงปิดเทอมใหญ่รึเปล่า ? (วิเคราะห์ Seasonal time series)
  • ใครคือผู้เรียน Basic AI ? (วิเคราะห์ Clustering / RFM model)
  • อีกนานแค่ไหนที่ผู้เรียนคอร์ส AI จะเป็นลูกค้าที่ Exit ? (วิเคราะห์ Churn rate)

การต่อยอดคำถามแบบนี้จะพาเราไปสู่ Insight ที่น่าสนใจในธุรกิจ ซึ่งหากลองใช้หลักการสถิติในการช่วยหาคำตอบและประยุกต์การใช้กราฟในการช่วยให้มองเห็นข้อมูลได้ชัดเจนขึ้น

อยากมาทำงานสาย Data ใช่มั้ย?

เรามี Workshop Data Interview ที่จะช่วยคุณเตรียมพร้อมสำหรับการสัมภาษณ์งาน ผ่านการทำ Case Interview

3. ระวังความน่าเชื่อถือในการทำความสะอาดข้อมูล

การทำความสะอาดข้อมูลอย่างรอบคอบทำให้ผลลัพธ์น่าเชื่อถือ

กว่าจะมาเป็นเนื้อหาที่พร้อมนำเสนอ ต้องมีการทำความสะอาดข้อมูลให้พร้อมใช้งานซึ่งกระบวนการนี้ควรทำสองช่วงคือ ช่วงแรกก่อนจะเริ่มทำการวิเคราะห์ข้อมูลต้องสำรวจข้อมูลก่อนเรียกว่า Data understanding ซึ่งขั้นตอนนี้จะจัดการข้อมูลเท่าที่จะนำไปใช้ และอีกช่วงนึงคือขณะที่วิเคราะห์ข้อมูล หากต้องการใช้ข้อมูลเพิ่มก็ทำความสะอาดข้อมูล (Cleansing) ที่เรามองข้ามไปหรือจัดการแปลงข้อมูล (Transformation) ให้อยู่ในรูปแบบที่พร้อมใช้งาน

ตัวอย่างข้อผิดพลาดในการทำความสะอาดข้อมูลที่พบบ่อย

จัดการ Missing value ใน Data type แบบ Continuous แบบผิด ๆ ด้วยการใส่ศูนย์ การใส่ศูนย์จะทำให้การกระจายตัวผิดเพี้ยน เช่น ข้อมูลค่าใช้จ่ายของทั้ง 100 ครัวเรือนแต่บางครัวเรือนไม่มีบันทึกค่าใช้จ่ายจึงใส่ค่าใช้จ่ายเป็นศูนย์ (หรือไม่ได้กรอกข้อมูลมา) ผลคือจะทำให้ค่าเฉลี่ย (Mean) ของค่าใช้จ่ายครัวเรือนทั้งหมดอาจจะต่ำกว่าความเป็นจริง ทำให้ช่วงความแปรปรวน (Variance) อาจจะสูงเกินความเป็นจริง

เลือกวิธีการ Join table ผิดทำให้ข้อมูลสำคัญหายไป ถ้าเราต้องการรู้รายรับใน Supermarket ทั้งหมดแต่มีข้อมูล 2 ชุดคือข้อมูลลูกค้าสมาชิกและข้อมูลขาย (Sale transection) การเชื่อมตารางที่ผิดจะทำให้ข้อมูลแสดงเฉพาะรายรับสมาชิกแทนที่จะเป็นรายรับทั้งหมด ข้อเสียที่ชัดเจนเลยคือถ้าเผลอใช้การเชื่อมตารางนี้กับโจทย์ต่อเนื่องข้ออื่น ๆ ที่ถามถึงลูกค้าทั่วไปที่ไม่ใช่แค่ลูกค้าสมาชิกจะไม่สามารถดูข้อมูลได้

จัดการข้อมูลค่าผิดปกติ (Outlier) ได้ไม่เหมาะสม อย่างการลบ (Remove), แทนที่ (Replace) ตัวแปรที่ผิดหลักสถิติเช่น ชุดข้อมูลอายุของผู้ป่วยเบาหวานประจำเดือน 2565 ณ โรงพยาบาลแห่งหนึ่งมีค่าอายุผิดปกติที่ 155 ปี การตัดสินใจว่าจะเป็นอายุ 15 ปีหรือ 55 ปี ทำได้ยาก การเลือกลบค่าผิดปกตินี้ก็ทำให้ข้อมูลหาย ในกรณีนี้การแทนที่ค่าผิดปกติด้วยค่าแนวโน้มเข้าสู่ส่วนกลาง (Mean, Mode, Median) จะเหมาะที่สุดเพราะข้อมูลไม่หายและไม่คลาดเคลื่อน

ไม่ได้ทำให้ข้อมูลเป็นรูปแบบเดียวกัน (Data standardization) ทำให้เราได้ผลการวิเคราะห์ข้อมูลที่ไม่มีคุณภาพ กรณีแรกข้อมูลที่เป็นชนิดข้อความ เช่นชื่อจังหวัดเดียวกันแต่เก็บมาหลายแบบเช่น กรุงเทพมหานคร กรุงเทพฯ กรุงเทพ กทม. ดังนั้นควรเลือกชื่อใดชื่อหนึ่งเพื่อให้รายงานทำให้ชื่อจังหวัดที่เขียนหลายแบบเป็นกลุ่มเดียว ใช้ชื่อเดียวกัน อีกกรณีคือข้อมูลที่เป็นตัวเลขเช่น สภาพอากาศบางแถวเป็น (°C) บางแถวเป็น (°F) สามารถทำให้ข้อมูลเป็นมาตรฐานเดียวกันด้วย Normal distribution ซึ่งวิธีนี้เหมาะกับข้อมูลที่อยู่ในรูปแบบกราฟระฆังคว่ำแบบในตัวอย่าง หรือจะประยุกต์กับข้อมูลความสูง รายได้ก็สามารถทำได้เช่นเดียวกัน

ไม่อ่าน Metadata description ก่อนเริ่มวิเคราะห์ข้อมูล ถ้าพลาดขั้นตอนนี้จะทำให้เราขาดความเข้าใจเนื้อหา ทำให้เสียเวลากับการจัดการข้อมูลนานเกินไป ตัวอย่างเช่น ชุดข้อมูลเกี่ยวกับที่อยู่ของผู้สมัครงาน หากไม่อ่านรายละเอียดเพิ่ม เราอาจจะสับสนระหว่างที่อยู่ที่ติดต่อได้ กับที่อยู่ตามทะเบียนบ้านผิดไป ซึ่งส่งผลต่อการวิเคราะห์ข้อมูล (หากเจอ Metadata ที่กำกวม เราควรจะสอบถามเจ้าของข้อมูลเพื่อยืนยันความเข้าใจอีกที)

4. อย่ามองข้ามความสำคัญของการศึกษาธุรกิจในบริษัทที่กำลังไปสัมภาษณ์ (Business sense)

ศึกษาเป้าหมายธุรกิจของบริษัทที่จะเข้าสัมภาษณ์

ข้อนี้สำคัญมากเพราะการเข้าใจว่าบริษัทที่เรากำลังสัมภาษณ์นั้น ทำธุรกิจอะไร เป้าหมายของธุรกิจโฟกัสที่อะไร ทำให้เรามีมุมมองในการวิเคราะห์ข้อมูลที่ใกล้เคียงความเป็นจริงมากขึ้น ข้อมูลที่เรานำเสนอจะเป็นข้อมูลที่มีประโยชน์ต่อทีม

ตัวอย่างของการมี Business sense ที่ดีเช่น

การหาความถี่ของข้อมูล Date & Time อาจมีความสำคัญต่อบางธุรกิจ ในขณะที่บางธุรกิจอาจจะใช้แค่ข้อมูล Date เพื่อดูความถี่รายสัปดาห์, เดือน, ปีก็เพียงพอ

บางธุรกิจอาจจะมีลักษณะเป็นธุรกิจตามฤดูกาลดังนั้นการวิเคราะห์ช่วงเวลาแบบ life-timing อาจจะทำให้เราด่วนสรุปว่าข้อมูลมีการเติบโตเพิ่มขึ้น/ลดลงแบบเส้นตรง แต่ถ้าลองทดสอบความผันผวนตามช่วงเวลา (seasonal) อาจจะได้ผลลัพธ์ที่จะส่งผลต่อ Business insight ที่ต่างกัน

ความไม่คุ้นเคยกับธุรกิจอาจทำให้มองข้ามตัวแปรที่สำคัญเช่น มีโจทย์ให้ผู้สัมภาษณ์ทำการวิเคราะห์ระบบ Ticket management ซึ่งก็คือเครื่องมือที่ช่วยให้ผู้ใช้งานเว็บไซต์ แอปพลิเคชั่น อื่น ๆ รายงานปัญหาการใช้งานแล้วจะมี Help desk เข้ามารับรู้และช่วยแก้ปัญหา แต่ในชุดข้อมูลนั้นมีตัวแปรของชนิด Hosting ที่ลูกค้าใช้งานด้วย ซึ่งผู้สัมภาษณ์ต้องหาข้อมูลเพิ่มว่า Hosting คืออะไร มีความสำคัญต่อธุรกิจอย่างไร ? เพื่อที่จะนำตัวแปรเข้ามาวิเคราะห์ได้อย่างตรงประเด็น

รู้จักเครื่องมือทางสถิติที่ช่วยให้การวิเคราะห์เหมาะสมกับธุรกิจ เช่นชุดข้อมูลการซื้อสินค้าใน Supermarket สามารถหาความสัมพันธ์ของการซื้อสินค้าร่วมกันเพื่อทำโปรโปรชั่นสินค้าร่วมรายการได้ด้วย Market Basket Analysis ซึ่งก็คือการประยุกต์ใช้ Association rule จากบทเรียน Machine learning นั่นเอง

นอกจากนี้หากรักที่จะเป็น Data worker จริง ๆ อาจจะต้องเข้าใจกระบวนการใช้ข้อมูลในองค์กรด้วยว่า ในหลาย ๆ ครั้งก็มีอุปสรรคหลาย ๆ อย่างซึ่งเราเคยเขียนใน 3 อุปสรรคสำคัญหากจะตัดสินใจด้วยข้อมูล ข้อสรุปจากหนังสือ Creating a Data Driven Organization

5. ทบทวนทฤษฎีและสถิติเบื้องต้นให้แม่นยำ

แม่นยำในทฤษฎีสถิติเบื้องต้น

การเรียนสถิติและการเขียน Coding ไม่เหมือนการทำงาน ความไม่แม่นยำของทฤษฎี และการเลือกสถิติที่ผิด อาจทำให้เราแปลความหมายของข้อมูลผิดไปด้วย

แม้หลายครั้งเราใส่ใจทั้งการหาข้อมูลเกี่ยวกับบริษัทเป็นอย่างดี การระมัดระวังการจัดการข้อมูล การตั้งคำถามกับข้อมูลและธุรกิจด้วยความเป็นไปได้มากที่สุด แต่การไม่ได้ประยุกต์การใช้สถิติให้เหมาะสมทำให้การสื่อสารของเราผิดไปเลย มาลองดูตัวอย่างการใช้ทฤษฎีและสถิติเบื้องต้นไม่แม่นยำที่เจอบ่อย ๆ กัน

เลือกใช้ค่าสถิติทดสอบไม่ดี เช่นเลือกใช้เฉลี่ย (Mean) ของชุดข้อมูลในการตอบคำถามทันทีโดยไม่ทดสอบค่าความแปรปรวนก่อน

กำหนดชนิดของตัวแปร (Data type) ให้เหมาะสม เช่นข้อมูลที่เป็นตัวเลขควรตัดสินใจทำให้เป็นจำนวนเต็มหรือเป็นทศนิยมดีหรือไม่ขึ้นอยู่กับหน่วยที่นับ เช่นข้อมูลที่เป็นจำนวนเงินการทำให้เป็นเลขทศนิยมก็ทำให้ข้อมูลมีความแม่นยำขึ้นแต่ในขณะเดียวกันถ้าเป็นหน่วยวัดอื่นอาจทำให้การแปลความหมายข้อมูลดูแปลก ๆ ได้ เช่น เด็กจำนวน 12.4 คน

การสื่อสารด้วยปริมาณเพื่อทำให้ความรู้สึกผู้ฟังโน้มเอียงเช่น คำว่ามากที่สุด น้อยที่สุดโดยที่ไม่ได้ตรวจสอบสัดส่วนก่อน เช่นเปรียบเทียบประเทศสหรัฐอเมริกามีจำนวนผู้เสียชีวิตจากโควิด-19 มากกว่าประเทศไทย หากสนใจเรื่องการรายงานข้อมูลเกี่ยวกับโควิด-19 เราขอแนะนำให้อ่าน สรุปเบื้องหลัง 6 ตัวชี้วัดสำคัญที่เห็นในรายงาน COVID-19

สุดท้ายนี้อย่าลืมว่าสิ่งที่บริษัทคาดหวังจากคนทำงานข้อมูลเมื่อเข้าไปทำงานแล้ว ไม่ใช่แค่การดึงข้อมูลออกมาใส่รายงานเหมือนในอดีต แต่เป็นการหา Actionable Insight โดยใช้ข้อมูลเป็นสารตั้งต้น เพราะ

Data doesn’t say anything. Humans say things.

Andrea Jones-Rooy, Professor of data science, NYU

แหล่งอ้างอิง

ภาพประกอบจาก Image by rawpixel.com on Freepik