บทที่ 1 แนะนำเหมืองข้อมูลเบื้องต้น | Data Mining

ภาพรวมบทเรียน

บทที่ 1 เป็นบทนำสำหรับผู้เริ่มต้นเรียนรู้ เหมืองข้อมูล (Data Mining) โดยอธิบายว่าเหตุใดข้อมูลจำนวนมากจึงมีคุณค่า และเราจะใช้กระบวนการทางสถิติ ฐานข้อมูล และ Machine Learning เพื่อค้นหาความรู้ที่ซ่อนอยู่ในข้อมูลได้อย่างไร

Data Mining Data → Knowledge CRISP-DM Machine Learning Ethics & Privacy

เป้าหมาย: เข้าใจความหมายและประโยชน์ของ Data Mining

ทักษะ: อธิบายขั้นตอนการเปลี่ยนข้อมูลดิบให้เป็นความรู้

การประยุกต์: ยกตัวอย่างการใช้ Data Mining ในธุรกิจ การศึกษา และ IoT

จริยธรรม: ระบุข้อควรระวังด้านข้อมูลส่วนบุคคลและอคติของข้อมูล

Data
ข้อมูลดิบ

Preparation
เตรียมข้อมูล

Mining
ค้นหารูปแบบ

Knowledge
ความรู้

ภาพที่ 1.1 กระบวนการเปลี่ยนข้อมูลดิบให้กลายเป็นความรู้ที่นำไปใช้ตัดสินใจ

1.1 ข้อมูลรอบตัวเรา

ในชีวิตประจำวัน เราสร้างข้อมูลจำนวนมากจากการซื้อสินค้า การค้นหาข้อมูลบนเว็บไซต์ การใช้โทรศัพท์มือถือ การเรียนออนไลน์ การใช้บัตรเครดิต การสั่งอาหาร การโพสต์บนสื่อสังคมออนไลน์ และการใช้อุปกรณ์ IoT ข้อมูลเหล่านี้สะท้อนพฤติกรรม ความต้องการ และแนวโน้มที่สามารถนำไปวิเคราะห์ต่อได้

ข้อมูลธุรกรรม

ใบเสร็จ การซื้อสินค้า การชำระเงิน และรายการสั่งซื้อออนไลน์

ข้อมูลดิจิทัล

การคลิก การค้นหา การเข้าชมเว็บไซต์ และการใช้งานแอปพลิเคชัน

ข้อมูลผู้ใช้

ข้อมูลสมาชิก ประวัติการเรียน พฤติกรรมลูกค้า และความคิดเห็น

ข้อมูลเซ็นเซอร์

อุณหภูมิ ความชื้น สัญญาณ IoT และข้อมูลจากเครื่องจักร

1.2 เหมืองข้อมูลคืออะไร?

เหมืองข้อมูล (Data Mining) คือกระบวนการวิเคราะห์ข้อมูลจำนวนมาก เพื่อค้นหา รูปแบบ ความสัมพันธ์ แนวโน้ม ความผิดปกติ หรือความรู้ใหม่ ที่ซ่อนอยู่ในข้อมูล โดยใช้เครื่องมือจากฐานข้อมูล สถิติ คณิตศาสตร์ การเรียนรู้ของเครื่อง และการแสดงผลข้อมูล

เปรียบเทียบง่าย ๆ

ฐานข้อมูลช่วยให้เรา “เก็บและค้นหา” ข้อมูลได้ แต่ Data Mining ช่วยให้เรา “ค้นพบความรู้ใหม่” เช่น ลูกค้ากลุ่มใดมีแนวโน้มซื้อสินค้าใด ผู้เรียนกลุ่มใดเสี่ยงสอบไม่ผ่าน หรือธุรกรรมแบบใดอาจผิดปกติ

1.3 จาก Data ไปสู่ Information และ Knowledge

การทำเหมืองข้อมูลไม่ได้เริ่มและจบที่ข้อมูลดิบ แต่เป็นการยกระดับข้อมูลให้กลายเป็นสารสนเทศและความรู้ที่นำไปใช้ได้จริง

ระดับ	ความหมาย	ตัวอย่าง
Data	ข้อมูลดิบที่ยังไม่ตีความ	รายการซื้อสินค้า 1,000 รายการ
Information	ข้อมูลที่สรุปหรือจัดระเบียบแล้ว	สินค้าขายดีที่สุด 10 อันดับ
Knowledge	ความรู้หรือรูปแบบที่นำไปตัดสินใจได้	ลูกค้าที่ซื้อกาแฟมักซื้อขนมปังร่วมด้วย

1.4 ทำไมจึงต้องมีเหมืองข้อมูล?

องค์กรจำนวนมากมีข้อมูลมากขึ้นเรื่อย ๆ แต่ข้อมูลจำนวนมากไม่ได้สร้างคุณค่าโดยอัตโนมัติ Data Mining ช่วยสกัดคุณค่าจากข้อมูลเพื่อสนับสนุนการตัดสินใจ ลดความเสี่ยง และค้นหาโอกาสใหม่

ค้นหารูปแบบที่มนุษย์อาจมองไม่เห็นจากข้อมูลขนาดใหญ่
ช่วยทำนายเหตุการณ์ในอนาคต เช่น ยอดขายหรือความเสี่ยง
ช่วยจัดกลุ่มลูกค้า ผู้เรียน หรือผู้ใช้ตามพฤติกรรม
ช่วยตรวจจับความผิดปกติ เช่น การทุจริตหรือสัญญาณระบบผิดปกติ
ช่วยให้การตัดสินใจมีหลักฐานจากข้อมูล ไม่ใช่เพียงความรู้สึก

1.5 วิวัฒนาการของ Data Mining

Data Mining พัฒนามาจากการจัดเก็บข้อมูล การเข้าถึงข้อมูล คลังข้อมูล และการใช้แบบจำลองเชิงสถิติ/การเรียนรู้ของเครื่องเพื่อค้นพบความรู้

1960

Data Collection

เริ่มเก็บข้อมูลด้วยระบบคอมพิวเตอร์

1980

Data Access

เข้าถึงและสืบค้นข้อมูลได้ดีขึ้น

1990

Data Warehouse

รวมข้อมูลเพื่อวิเคราะห์ระยะยาว

2000+

Data Mining

ค้นพบความรู้และสร้างโมเดล

ภาพที่ 1.2 วิวัฒนาการจากการเก็บข้อมูลสู่การทำเหมืองข้อมูล

1.6 วัตถุประสงค์และเป้าหมายของเหมืองข้อมูล

Discover

ค้นพบรูปแบบ ความสัมพันธ์ หรือกฎที่ซ่อนอยู่ในข้อมูล

Predict

ทำนายแนวโน้มหรือผลลัพธ์ในอนาคตจากข้อมูลในอดีต

Segment

จัดกลุ่มข้อมูล เช่น ลูกค้า ผู้เรียน หรือพฤติกรรมการใช้งาน

Detect

ตรวจจับความผิดปกติ ความเสี่ยง หรือเหตุการณ์ที่ควรเฝ้าระวัง

1.7 กระบวนการทำเหมืองข้อมูล

กระบวนการทำเหมืองข้อมูลมักประกอบด้วยหลายขั้นตอนที่เชื่อมโยงกัน ตั้งแต่การเตรียมข้อมูลจนถึงการนำเสนอความรู้ที่ค้นพบ

Data Cleaning

แก้ไขข้อมูลผิดพลาด ค่าว่าง ข้อมูลซ้ำ และข้อมูลรบกวน

Data Integration

รวมข้อมูลจากหลายแหล่งให้เป็นชุดข้อมูลเดียว

Data Selection / Transformation

เลือกและแปลงข้อมูลให้อยู่ในรูปแบบที่เหมาะสม

Data Mining

ใช้เทคนิคเพื่อค้นหารูปแบบ ความสัมพันธ์ หรือโมเดล

Evaluation & Representation

ประเมินผลและนำเสนอความรู้ด้วยกราฟ ตาราง รายงาน หรือ Dashboard

1.8 แหล่งข้อมูลสำหรับการทำ Data Mining

ข้อมูลอาจมาจากระบบภายในองค์กร ไฟล์เอกสาร เว็บไซต์ Social Media อุปกรณ์ IoT หรือฐานข้อมูลสาธารณะ การเลือกแหล่งข้อมูลต้องคำนึงถึงคุณภาพ ความน่าเชื่อถือ ความทันสมัย และสิทธิ์ในการใช้งานข้อมูล

แหล่งข้อมูล	ตัวอย่าง	ข้อควรพิจารณา
Database	ระบบขายสินค้า ระบบสมาชิก	โครงสร้างชัดเจน แต่ต้องเข้าใจความหมายคอลัมน์
Data Warehouse	คลังข้อมูลยอดขายหลายปี	เหมาะกับการวิเคราะห์ระยะยาว
Web / Social Media	คอมเมนต์ โพสต์ การคลิก	ข้อมูลหลากหลาย ต้องระวัง PDPA/ความเป็นส่วนตัว
IoT Sensor	อุณหภูมิ ความชื้น การเคลื่อนไหว	ต้องจัดการ noise และข้อมูลขาดหาย

1.9 ส่วนประกอบของระบบเหมืองข้อมูล

Data Sources: แหล่งข้อมูล เช่น Database, Data Warehouse, Web, Sensor
Data Mining Engine: ส่วนประมวลผลด้วยอัลกอริทึม เช่น Classification, Clustering, Association
Pattern Evaluation: ประเมินว่ารูปแบบที่พบมีความน่าสนใจและใช้ได้จริงหรือไม่
Knowledge Base: ความรู้เฉพาะด้านที่ช่วยตีความผลลัพธ์
User Interface: ส่วนติดต่อผู้ใช้สำหรับดูผลลัพธ์และสื่อสารข้อมูล

1.10 เทคนิคสำคัญในการทำเหมืองข้อมูล

Classification

จำแนกข้อมูลเป็นกลุ่มที่รู้ล่วงหน้า เช่น ผ่าน/ไม่ผ่าน Spam/Not Spam

Clustering

จัดกลุ่มข้อมูลที่คล้ายกันโดยไม่มี Label ล่วงหน้า เช่น แบ่งกลุ่มลูกค้า

Association Rule

ค้นหาความสัมพันธ์ของรายการที่เกิดร่วมกัน เช่น ขนมปัง → นม

Prediction

ทำนายค่าหรือแนวโน้ม เช่น ยอดขาย ราคาสินค้า หรือความเสี่ยง

1.11 ตัวอย่างการประยุกต์ใช้ Data Mining

การตลาด

วิเคราะห์กลุ่มลูกค้า ทำนายการตอบสนองต่อโปรโมชัน และแนะนำสินค้า

การเงิน

ตรวจจับการทุจริต ประเมินความเสี่ยงสินเชื่อ และวิเคราะห์ธุรกรรม

การศึกษา

วิเคราะห์ผู้เรียน คาดการณ์ความเสี่ยงสอบไม่ผ่าน และปรับการเรียนรู้เฉพาะบุคคล

สุขภาพ

ช่วยคัดกรองโรค วิเคราะห์ปัจจัยเสี่ยง และติดตามแนวโน้มสุขภาพ

IoT และเกษตร

วิเคราะห์ข้อมูลเซ็นเซอร์เพื่อควบคุมสภาพแวดล้อมและพยากรณ์ผลผลิต

เว็บไซต์

วิเคราะห์พฤติกรรมผู้ใช้ ปรับ UX และออกแบบระบบแนะนำเนื้อหา

1.12 ข้อควรระวังและจริยธรรมข้อมูล

การทำเหมืองข้อมูลต้องคำนึงถึงความเป็นส่วนตัว ความปลอดภัย ความถูกต้องของข้อมูล และการตีความผลลัพธ์อย่างระมัดระวัง เพราะข้อมูลที่ไม่ครบถ้วนหรือมีอคติอาจนำไปสู่ข้อสรุปที่ผิดพลาด

ประเด็นสำคัญ

ควรใช้ข้อมูลเท่าที่จำเป็นและได้รับอนุญาต
ควรลดการระบุตัวตนของบุคคล เช่น ลบชื่อ เบอร์โทร หรือเลขประจำตัว
ควรตรวจสอบอคติของข้อมูลและโมเดล
ควรอธิบายผลลัพธ์ด้วยภาษาที่ไม่เกินจริง

ต้องการนำ Data Mining ไปใช้กับงานจริง?

Siam2Dev ช่วยออกแบบโจทย์ เตรียมข้อมูล สร้างโมเดล Machine Learning และทำ Dashboard สำหรับงานวิจัย ธุรกิจ และการเรียนการสอน

ปรึกษาฟรีผ่าน LINE

แบบฝึกหัดท้ายบท

อธิบายความหมายของ Data Mining และเปรียบเทียบกับการ Query ฐานข้อมูลทั่วไป
ยกตัวอย่างข้อมูลรอบตัวเรา 5 แหล่ง และอธิบายว่านำไปใช้วิเคราะห์อะไรได้บ้าง
อธิบายความแตกต่างระหว่าง Data, Information และ Knowledge พร้อมตัวอย่าง
อธิบายกระบวนการ Data Cleaning, Integration, Selection, Transformation และ Mining
ยกตัวอย่างปัญหาที่เหมาะกับ Classification, Clustering และ Association Rule อย่างละ 2 ตัวอย่าง
อธิบายข้อควรระวังด้านจริยธรรมเมื่อใช้ข้อมูลผู้ใช้จากเว็บไซต์หรือ Social Media

สรุปบทที่ 1

Data Mining คือกระบวนการค้นหาความรู้จากข้อมูลจำนวนมาก โดยเริ่มจากการเข้าใจข้อมูล เตรียมข้อมูล เลือกเทคนิค วิเคราะห์ ประเมิน และนำเสนอผลลัพธ์ให้ใช้ตัดสินใจได้จริง บทนี้เป็นพื้นฐานสำคัญก่อนเข้าสู่บทที่ 2 เรื่องความรู้พื้นฐานของเหมืองข้อมูล

กลับหน้ารวมบทเรียน อ่านบทที่ 2

ภาพรวมบทเรียน

1.1 ข้อมูลรอบตัวเรา

ข้อมูลธุรกรรม

ข้อมูลดิจิทัล

ข้อมูลผู้ใช้

ข้อมูลเซ็นเซอร์

1.2 เหมืองข้อมูลคืออะไร?

เปรียบเทียบง่าย ๆ

1.3 จาก Data ไปสู่ Information และ Knowledge

1.4 ทำไมจึงต้องมีเหมืองข้อมูล?

1.5 วิวัฒนาการของ Data Mining

Data Collection

Data Access

Data Warehouse

Data Mining

1.6 วัตถุประสงค์และเป้าหมายของเหมืองข้อมูล

Discover

Predict

Segment

Detect

1.7 กระบวนการทำเหมืองข้อมูล

Data Cleaning

Data Integration

Data Selection / Transformation

Data Mining

Evaluation & Representation

1.8 แหล่งข้อมูลสำหรับการทำ Data Mining

1.9 ส่วนประกอบของระบบเหมืองข้อมูล

1.10 เทคนิคสำคัญในการทำเหมืองข้อมูล

Classification

Clustering

Association Rule

Prediction

1.11 ตัวอย่างการประยุกต์ใช้ Data Mining

การตลาด

การเงิน

การศึกษา

สุขภาพ

IoT และเกษตร

เว็บไซต์

1.12 ข้อควรระวังและจริยธรรมข้อมูล

ประเด็นสำคัญ

ต้องการนำ Data Mining ไปใช้กับงานจริง?

แบบฝึกหัดท้ายบท

สรุปบทที่ 1

เรียนต่อเนื้อหาเหมืองข้อมูลตามลำดับ

บทที่ 2 พื้นฐานเหมืองข้อมูล

บทที่ 3 การเตรียมข้อมูล

บทที่ 4 เทคนิคเชิงสถิติ

บทที่ 5 กฎความสัมพันธ์

คำถามที่พบบ่อยเกี่ยวกับบทที่ 1

Data Mining ต่างจากการ Query ฐานข้อมูลอย่างไร?

ผู้เริ่มต้นควรเรียนบทนี้ก่อนบทอื่นหรือไม่?

Data Mining ใช้กับงานวิจัยและธุรกิจขนาดเล็กได้หรือไม่?

ต้องเขียน Python เป็นก่อนเรียนบทนี้ไหม?