ปรึกษา Data Mining
Data Mining 4124305 • Chapter 01

บทที่ 1 แนะนำเหมืองข้อมูลเบื้องต้น

เริ่มต้นเข้าใจ Data Mining อย่างเป็นระบบ ตั้งแต่ข้อมูลรอบตัวเรา ความหมาย กระบวนการ เทคนิคสำคัญ ตัวอย่างการประยุกต์ใช้ และจริยธรรมข้อมูล เพื่อเตรียมพร้อมก่อนเข้าสู่บทเรียนเชิงเทคนิคในบทถัดไป

12 หัวข้อครอบคลุมพื้นฐาน Data Mining
5 เทคนิคClassification, Clustering, Association, Prediction, Anomaly
พร้อมต่อยอดสู่ Python, ML และ Dashboard

หลังเรียนบทนี้ ผู้เรียนจะเข้าใจ

  • ความแตกต่างระหว่าง Data, Information และ Knowledge
  • เหตุผลที่องค์กรต้องใช้ Data Mining
  • ขั้นตอนหลักตั้งแต่เตรียมข้อมูลจนถึงนำเสนอผลลัพธ์
  • ตัวอย่างการใช้ข้อมูลอย่างปลอดภัยและมีจริยธรรม
เนื้อหาจัดลำดับแบบบทเรียน
มีภาพประกอบและขั้นตอน
ต่อเนื่องสู่ Python/ML
คำนึงถึงจริยธรรมข้อมูล

ภาพรวมบทเรียน

บทที่ 1 เป็นบทนำสำหรับผู้เริ่มต้นเรียนรู้ เหมืองข้อมูล (Data Mining) โดยอธิบายว่าเหตุใดข้อมูลจำนวนมากจึงมีคุณค่า และเราจะใช้กระบวนการทางสถิติ ฐานข้อมูล และ Machine Learning เพื่อค้นหาความรู้ที่ซ่อนอยู่ในข้อมูลได้อย่างไร

Data Mining Data → Knowledge CRISP-DM Machine Learning Ethics & Privacy
เป้าหมาย: เข้าใจความหมายและประโยชน์ของ Data Mining
ทักษะ: อธิบายขั้นตอนการเปลี่ยนข้อมูลดิบให้เป็นความรู้
การประยุกต์: ยกตัวอย่างการใช้ Data Mining ในธุรกิจ การศึกษา และ IoT
จริยธรรม: ระบุข้อควรระวังด้านข้อมูลส่วนบุคคลและอคติของข้อมูล
Data
ข้อมูลดิบ
Preparation
เตรียมข้อมูล
Mining
ค้นหารูปแบบ
Knowledge
ความรู้
ภาพที่ 1.1 กระบวนการเปลี่ยนข้อมูลดิบให้กลายเป็นความรู้ที่นำไปใช้ตัดสินใจ

1.1 ข้อมูลรอบตัวเรา

ในชีวิตประจำวัน เราสร้างข้อมูลจำนวนมากจากการซื้อสินค้า การค้นหาข้อมูลบนเว็บไซต์ การใช้โทรศัพท์มือถือ การเรียนออนไลน์ การใช้บัตรเครดิต การสั่งอาหาร การโพสต์บนสื่อสังคมออนไลน์ และการใช้อุปกรณ์ IoT ข้อมูลเหล่านี้สะท้อนพฤติกรรม ความต้องการ และแนวโน้มที่สามารถนำไปวิเคราะห์ต่อได้

ข้อมูลธุรกรรม

ใบเสร็จ การซื้อสินค้า การชำระเงิน และรายการสั่งซื้อออนไลน์

ข้อมูลดิจิทัล

การคลิก การค้นหา การเข้าชมเว็บไซต์ และการใช้งานแอปพลิเคชัน

ข้อมูลผู้ใช้

ข้อมูลสมาชิก ประวัติการเรียน พฤติกรรมลูกค้า และความคิดเห็น

ข้อมูลเซ็นเซอร์

อุณหภูมิ ความชื้น สัญญาณ IoT และข้อมูลจากเครื่องจักร

1.2 เหมืองข้อมูลคืออะไร?

เหมืองข้อมูล (Data Mining) คือกระบวนการวิเคราะห์ข้อมูลจำนวนมาก เพื่อค้นหา รูปแบบ ความสัมพันธ์ แนวโน้ม ความผิดปกติ หรือความรู้ใหม่ ที่ซ่อนอยู่ในข้อมูล โดยใช้เครื่องมือจากฐานข้อมูล สถิติ คณิตศาสตร์ การเรียนรู้ของเครื่อง และการแสดงผลข้อมูล

เปรียบเทียบง่าย ๆ

ฐานข้อมูลช่วยให้เรา “เก็บและค้นหา” ข้อมูลได้ แต่ Data Mining ช่วยให้เรา “ค้นพบความรู้ใหม่” เช่น ลูกค้ากลุ่มใดมีแนวโน้มซื้อสินค้าใด ผู้เรียนกลุ่มใดเสี่ยงสอบไม่ผ่าน หรือธุรกรรมแบบใดอาจผิดปกติ

1.3 จาก Data ไปสู่ Information และ Knowledge

การทำเหมืองข้อมูลไม่ได้เริ่มและจบที่ข้อมูลดิบ แต่เป็นการยกระดับข้อมูลให้กลายเป็นสารสนเทศและความรู้ที่นำไปใช้ได้จริง

ระดับความหมายตัวอย่าง
Dataข้อมูลดิบที่ยังไม่ตีความรายการซื้อสินค้า 1,000 รายการ
Informationข้อมูลที่สรุปหรือจัดระเบียบแล้วสินค้าขายดีที่สุด 10 อันดับ
Knowledgeความรู้หรือรูปแบบที่นำไปตัดสินใจได้ลูกค้าที่ซื้อกาแฟมักซื้อขนมปังร่วมด้วย

1.4 ทำไมจึงต้องมีเหมืองข้อมูล?

องค์กรจำนวนมากมีข้อมูลมากขึ้นเรื่อย ๆ แต่ข้อมูลจำนวนมากไม่ได้สร้างคุณค่าโดยอัตโนมัติ Data Mining ช่วยสกัดคุณค่าจากข้อมูลเพื่อสนับสนุนการตัดสินใจ ลดความเสี่ยง และค้นหาโอกาสใหม่

  • ค้นหารูปแบบที่มนุษย์อาจมองไม่เห็นจากข้อมูลขนาดใหญ่
  • ช่วยทำนายเหตุการณ์ในอนาคต เช่น ยอดขายหรือความเสี่ยง
  • ช่วยจัดกลุ่มลูกค้า ผู้เรียน หรือผู้ใช้ตามพฤติกรรม
  • ช่วยตรวจจับความผิดปกติ เช่น การทุจริตหรือสัญญาณระบบผิดปกติ
  • ช่วยให้การตัดสินใจมีหลักฐานจากข้อมูล ไม่ใช่เพียงความรู้สึก

1.5 วิวัฒนาการของ Data Mining

Data Mining พัฒนามาจากการจัดเก็บข้อมูล การเข้าถึงข้อมูล คลังข้อมูล และการใช้แบบจำลองเชิงสถิติ/การเรียนรู้ของเครื่องเพื่อค้นพบความรู้

1960

Data Collection

เริ่มเก็บข้อมูลด้วยระบบคอมพิวเตอร์

1980

Data Access

เข้าถึงและสืบค้นข้อมูลได้ดีขึ้น

1990

Data Warehouse

รวมข้อมูลเพื่อวิเคราะห์ระยะยาว

2000+

Data Mining

ค้นพบความรู้และสร้างโมเดล

ภาพที่ 1.2 วิวัฒนาการจากการเก็บข้อมูลสู่การทำเหมืองข้อมูล

1.6 วัตถุประสงค์และเป้าหมายของเหมืองข้อมูล

Discover

ค้นพบรูปแบบ ความสัมพันธ์ หรือกฎที่ซ่อนอยู่ในข้อมูล

Predict

ทำนายแนวโน้มหรือผลลัพธ์ในอนาคตจากข้อมูลในอดีต

Segment

จัดกลุ่มข้อมูล เช่น ลูกค้า ผู้เรียน หรือพฤติกรรมการใช้งาน

Detect

ตรวจจับความผิดปกติ ความเสี่ยง หรือเหตุการณ์ที่ควรเฝ้าระวัง

1.7 กระบวนการทำเหมืองข้อมูล

กระบวนการทำเหมืองข้อมูลมักประกอบด้วยหลายขั้นตอนที่เชื่อมโยงกัน ตั้งแต่การเตรียมข้อมูลจนถึงการนำเสนอความรู้ที่ค้นพบ

Data Cleaning

แก้ไขข้อมูลผิดพลาด ค่าว่าง ข้อมูลซ้ำ และข้อมูลรบกวน

Data Integration

รวมข้อมูลจากหลายแหล่งให้เป็นชุดข้อมูลเดียว

Data Selection / Transformation

เลือกและแปลงข้อมูลให้อยู่ในรูปแบบที่เหมาะสม

Data Mining

ใช้เทคนิคเพื่อค้นหารูปแบบ ความสัมพันธ์ หรือโมเดล

Evaluation & Representation

ประเมินผลและนำเสนอความรู้ด้วยกราฟ ตาราง รายงาน หรือ Dashboard

1.8 แหล่งข้อมูลสำหรับการทำ Data Mining

ข้อมูลอาจมาจากระบบภายในองค์กร ไฟล์เอกสาร เว็บไซต์ Social Media อุปกรณ์ IoT หรือฐานข้อมูลสาธารณะ การเลือกแหล่งข้อมูลต้องคำนึงถึงคุณภาพ ความน่าเชื่อถือ ความทันสมัย และสิทธิ์ในการใช้งานข้อมูล

แหล่งข้อมูลตัวอย่างข้อควรพิจารณา
Databaseระบบขายสินค้า ระบบสมาชิกโครงสร้างชัดเจน แต่ต้องเข้าใจความหมายคอลัมน์
Data Warehouseคลังข้อมูลยอดขายหลายปีเหมาะกับการวิเคราะห์ระยะยาว
Web / Social Mediaคอมเมนต์ โพสต์ การคลิกข้อมูลหลากหลาย ต้องระวัง PDPA/ความเป็นส่วนตัว
IoT Sensorอุณหภูมิ ความชื้น การเคลื่อนไหวต้องจัดการ noise และข้อมูลขาดหาย

1.9 ส่วนประกอบของระบบเหมืองข้อมูล

  • Data Sources: แหล่งข้อมูล เช่น Database, Data Warehouse, Web, Sensor
  • Data Mining Engine: ส่วนประมวลผลด้วยอัลกอริทึม เช่น Classification, Clustering, Association
  • Pattern Evaluation: ประเมินว่ารูปแบบที่พบมีความน่าสนใจและใช้ได้จริงหรือไม่
  • Knowledge Base: ความรู้เฉพาะด้านที่ช่วยตีความผลลัพธ์
  • User Interface: ส่วนติดต่อผู้ใช้สำหรับดูผลลัพธ์และสื่อสารข้อมูล

1.10 เทคนิคสำคัญในการทำเหมืองข้อมูล

Classification

จำแนกข้อมูลเป็นกลุ่มที่รู้ล่วงหน้า เช่น ผ่าน/ไม่ผ่าน Spam/Not Spam

Clustering

จัดกลุ่มข้อมูลที่คล้ายกันโดยไม่มี Label ล่วงหน้า เช่น แบ่งกลุ่มลูกค้า

Association Rule

ค้นหาความสัมพันธ์ของรายการที่เกิดร่วมกัน เช่น ขนมปัง → นม

Prediction

ทำนายค่าหรือแนวโน้ม เช่น ยอดขาย ราคาสินค้า หรือความเสี่ยง

1.11 ตัวอย่างการประยุกต์ใช้ Data Mining

การตลาด

วิเคราะห์กลุ่มลูกค้า ทำนายการตอบสนองต่อโปรโมชัน และแนะนำสินค้า

การเงิน

ตรวจจับการทุจริต ประเมินความเสี่ยงสินเชื่อ และวิเคราะห์ธุรกรรม

การศึกษา

วิเคราะห์ผู้เรียน คาดการณ์ความเสี่ยงสอบไม่ผ่าน และปรับการเรียนรู้เฉพาะบุคคล

สุขภาพ

ช่วยคัดกรองโรค วิเคราะห์ปัจจัยเสี่ยง และติดตามแนวโน้มสุขภาพ

IoT และเกษตร

วิเคราะห์ข้อมูลเซ็นเซอร์เพื่อควบคุมสภาพแวดล้อมและพยากรณ์ผลผลิต

เว็บไซต์

วิเคราะห์พฤติกรรมผู้ใช้ ปรับ UX และออกแบบระบบแนะนำเนื้อหา

1.12 ข้อควรระวังและจริยธรรมข้อมูล

การทำเหมืองข้อมูลต้องคำนึงถึงความเป็นส่วนตัว ความปลอดภัย ความถูกต้องของข้อมูล และการตีความผลลัพธ์อย่างระมัดระวัง เพราะข้อมูลที่ไม่ครบถ้วนหรือมีอคติอาจนำไปสู่ข้อสรุปที่ผิดพลาด

ประเด็นสำคัญ

  • ควรใช้ข้อมูลเท่าที่จำเป็นและได้รับอนุญาต
  • ควรลดการระบุตัวตนของบุคคล เช่น ลบชื่อ เบอร์โทร หรือเลขประจำตัว
  • ควรตรวจสอบอคติของข้อมูลและโมเดล
  • ควรอธิบายผลลัพธ์ด้วยภาษาที่ไม่เกินจริง

ต้องการนำ Data Mining ไปใช้กับงานจริง?

Siam2Dev ช่วยออกแบบโจทย์ เตรียมข้อมูล สร้างโมเดล Machine Learning และทำ Dashboard สำหรับงานวิจัย ธุรกิจ และการเรียนการสอน

แบบฝึกหัดท้ายบท

  1. อธิบายความหมายของ Data Mining และเปรียบเทียบกับการ Query ฐานข้อมูลทั่วไป
  2. ยกตัวอย่างข้อมูลรอบตัวเรา 5 แหล่ง และอธิบายว่านำไปใช้วิเคราะห์อะไรได้บ้าง
  3. อธิบายความแตกต่างระหว่าง Data, Information และ Knowledge พร้อมตัวอย่าง
  4. อธิบายกระบวนการ Data Cleaning, Integration, Selection, Transformation และ Mining
  5. ยกตัวอย่างปัญหาที่เหมาะกับ Classification, Clustering และ Association Rule อย่างละ 2 ตัวอย่าง
  6. อธิบายข้อควรระวังด้านจริยธรรมเมื่อใช้ข้อมูลผู้ใช้จากเว็บไซต์หรือ Social Media

สรุปบทที่ 1

Data Mining คือกระบวนการค้นหาความรู้จากข้อมูลจำนวนมาก โดยเริ่มจากการเข้าใจข้อมูล เตรียมข้อมูล เลือกเทคนิค วิเคราะห์ ประเมิน และนำเสนอผลลัพธ์ให้ใช้ตัดสินใจได้จริง บทนี้เป็นพื้นฐานสำคัญก่อนเข้าสู่บทที่ 2 เรื่องความรู้พื้นฐานของเหมืองข้อมูล

อ่านต่อ

เรียนต่อเนื้อหาเหมืองข้อมูลตามลำดับ

ต่อยอดจากบทนำไปสู่พื้นฐาน Data Mining การเตรียมข้อมูล สถิติ และเทคนิค Machine Learning

FAQ

คำถามที่พบบ่อยเกี่ยวกับบทที่ 1

สรุปคำถามสำคัญสำหรับผู้เริ่มต้นเรียน Data Mining และผู้ที่ต้องการนำไปใช้ในงานจริง

การ Query ใช้ค้นหาข้อมูลตามเงื่อนไขที่กำหนดไว้ล่วงหน้า ส่วน Data Mining มุ่งค้นหารูปแบบ ความสัมพันธ์ หรือความรู้ใหม่ที่ซ่อนอยู่ในข้อมูลจำนวนมาก

ควรเรียนก่อน เพราะบทนี้วางพื้นฐานด้านความหมาย กระบวนการ เทคนิค และจริยธรรมข้อมูล ซึ่งจำเป็นต่อการเข้าใจบทที่ 2–9

ใช้ได้ โดยเริ่มจากโจทย์เล็ก ๆ เช่น วิเคราะห์ยอดขาย แบ่งกลุ่มลูกค้า ทำนายผลการเรียน หรือวิเคราะห์ข้อมูลจากเซ็นเซอร์ IoT แล้วค่อยพัฒนาต่อยอดเป็น Dashboard หรือระบบสนับสนุนการตัดสินใจ

บทที่ 1 ยังไม่จำเป็นต้องเขียน Python ได้ เพราะเน้นแนวคิดและภาพรวม ส่วนการลงมือเขียนโปรแกรมจะค่อย ๆ เพิ่มในบทถัดไป