ขนาดของกลุ่มตัวอย่างส่งผลต่อประสิทธิภาพของอัลกอริธึม ID3 อย่างไร? - บล็อก

โย่ ว่าไงทุกคน! ฉันเป็นผู้จำหน่ายอัลกอริทึม ID3 และฉันได้ติดต่อกับ ID3 มาระยะหนึ่งแล้ว วันนี้ ฉันอยากจะพูดคุยเกี่ยวกับว่าขนาดตัวอย่างส่งผลต่อประสิทธิภาพของอัลกอริทึม ID3 อย่างไร

อัลกอริธึม ID3 คืออะไร?

ก่อนอื่น เรามาดูกันว่าอัลกอริธึม ID3 คืออะไร ID3 ซึ่งย่อมาจาก Iterative Dichotomiser 3 เป็นอัลกอริทึมการเรียนรู้แบบต้นไม้สำหรับการตัดสินใจ ใช้เพื่อสร้างแผนผังการตัดสินใจจากชุดข้อมูล แนวคิดหลักที่อยู่เบื้องหลังคือการเลือกแอตทริบิวต์ที่ดีที่สุดในแต่ละโหนดของแผนผังเพื่อแยกข้อมูลตามข้อมูลที่ได้รับ ข้อมูลที่ได้รับจะวัดว่า "ความไม่แน่นอน" จะถูกลบออกไปมากน้อยเพียงใดเมื่อเราแบ่งข้อมูลโดยใช้คุณลักษณะเฉพาะ

ผลกระทบของขนาดตัวอย่างขนาดเล็ก

ฟิตเกิน

ปัญหาที่ใหญ่ที่สุดประการหนึ่งเกี่ยวกับขนาดตัวอย่างที่น้อยในอัลกอริทึม ID3 ก็คือการติดตั้งมากเกินไป เมื่อคุณมีตัวอย่างจำนวนน้อย แผนผังการตัดสินใจที่สร้างโดย ID3 อาจลงเอยเฉพาะเจาะจงเกินไปสำหรับข้อมูลที่กำหนด ตัวอย่างเช่น สมมติว่าเรากำลังสร้างแผนผังการตัดสินใจเพื่อคาดการณ์ว่ารถยนต์มีแนวโน้มที่จะได้รับความนิยมหรือไม่ โดยพิจารณาจากคุณลักษณะต่างๆ เช่น กำลังเครื่องยนต์ ประสิทธิภาพการใช้เชื้อเพลิง และพื้นที่ภายใน หากขนาดตัวอย่างของเรามีขนาดเล็ก แผนผังการตัดสินใจอาจสร้างสาขาที่มีความเฉพาะเจาะจงมากสำหรับรถยนต์ไม่กี่คันในกลุ่มตัวอย่างของเรา

สมมติว่าเรามีข้อมูลของรถยนต์สองสามคันเท่านั้น2016 โฟล์คสวาเกน Tiguan 300TSI อัตโนมัติ 2WD Comfort Editionและ2023 โบรา 280TSI DSG รุ่นท็อป. โครงสร้างการตัดสินใจอาจสร้างกฎที่เกี่ยวข้องกับสองรุ่นนี้เท่านั้น และจะใช้ไม่ได้ผลดีเมื่อเราพยายามคาดเดาความนิยมของรถคันอื่น

การติดตั้งมากเกินไปหมายความว่าโมเดลทำงานได้ดีกับข้อมูลการฝึกอบรม (ตัวอย่างเล็กๆ ที่เราใช้ในการสร้างแผนผัง) แต่จะล้มเหลวอย่างน่าสังเวชเมื่อพูดถึงข้อมูลใหม่ที่มองไม่เห็น กล่าวอีกนัยหนึ่ง แผนผังการตัดสินใจนั้น "ปรับ" ให้เข้ากับลักษณะเฉพาะของกลุ่มตัวอย่างเล็กๆ น้อยๆ มากเกินไป และไม่สามารถสรุปได้ดีนัก

การเลือกคุณสมบัติที่ไม่น่าเชื่อถือ

ด้วยขนาดตัวอย่างที่น้อย การคำนวณข้อมูลที่ได้รับอาจไม่น่าเชื่อถือ ข้อมูลที่ได้รับจะใช้ในการตัดสินใจว่าจะแยกคุณลักษณะใดที่แต่ละโหนดของแผนผังการตัดสินใจ แต่เมื่อตัวอย่างมีขนาดเล็ก ความถี่ของค่าคุณลักษณะที่แตกต่างกันอาจไม่แม่นยำถึงการกระจายตัวในโลกแห่งความเป็นจริง

ตัวอย่างเช่น หากในชุดข้อมูลรถยนต์ขนาดเล็กของเรา รถยนต์ส่วนใหญ่ที่มีเครื่องยนต์บางประเภทได้รับความนิยมโดยบังเอิญ อัลกอริธึม ID3 อาจคิดว่าเครื่องยนต์ประเภทนี้เป็นปัจจัยสำคัญต่อความนิยม แต่ในความเป็นจริงอาจเป็นเรื่องบังเอิญเนื่องจากขนาดตัวอย่างมีขนาดเล็ก สิ่งนี้สามารถนำไปสู่แผนผังการตัดสินใจที่ตัดสินใจผิดพลาดและมีผลงานไม่ดี

ประโยชน์ของตัวอย่างขนาดใหญ่

ลักษณะทั่วไป

ข้อดีที่สำคัญที่สุดประการหนึ่งของตัวอย่างขนาดใหญ่คือลักษณะทั่วไปที่ดีขึ้น เมื่อเรามีตัวอย่างจำนวนมาก แผนผังการตัดสินใจที่สร้างโดย ID3 มีแนวโน้มที่จะจับรูปแบบที่ซ่อนอยู่ในข้อมูลมากกว่าสัญญาณรบกวน เช่นถ้าเรามีข้อมูลรถยนต์หลายพันคันรวมทั้ง2016 โฟล์คสวาเกน Tiguan 300TSI อัตโนมัติ 2WD Comfort Edition,Public2023 T - ROC สำรวจเพลง 300TSI DSG Two Drive Starlight Editionและอื่นๆ อีกมากมาย ต้นไม้การตัดสินใจสามารถเรียนรู้กฎเกณฑ์ที่เข้มงวดมากขึ้นเกี่ยวกับสิ่งที่ทำให้รถยนต์เป็นที่นิยม

กฎเหล่านี้จะใช้ได้กับรถยนต์หลากหลายประเภท ไม่ใช่แค่กฎที่อยู่ในชุดฝึกซ้อมเท่านั้น ดังนั้น เมื่อเราใช้แผนผังการตัดสินใจเพื่อคาดการณ์ความนิยมของรถยนต์ใหม่ ก็มีแนวโน้มที่จะให้ผลลัพธ์ที่แม่นยำมากขึ้น

การเลือกคุณสมบัติที่เสถียร

ขนาดตัวอย่างที่ใหญ่ยังนำไปสู่การเลือกแอตทริบิวต์ที่มีเสถียรภาพมากขึ้นอีกด้วย การคำนวณการรับข้อมูลมีความน่าเชื่อถือมากขึ้น เนื่องจากความถี่ของค่าแอททริบิวต์ใกล้กับการกระจายในโลกแห่งความเป็นจริงมากขึ้น ซึ่งหมายความว่าอัลกอริธึม ID3 สามารถเลือกคุณลักษณะที่เกี่ยวข้องมากที่สุดเพื่อแยกในแต่ละโหนดของแผนผังการตัดสินใจ

ตัวอย่างเช่น หากในชุดข้อมูลรถยนต์ขนาดใหญ่ เราพบว่าประสิทธิภาพการใช้เชื้อเพลิงมีความสัมพันธ์อย่างต่อเนื่องกับความนิยมของรถยนต์ อัลกอริธึม ID3 จะสามารถระบุความสัมพันธ์นี้ได้อย่างถูกต้อง และใช้ประสิทธิภาพการใช้เชื้อเพลิงเป็นคุณลักษณะการแยกที่สำคัญในแผนผังการตัดสินใจ

การค้นหาขนาดตัวอย่างที่เหมาะสม

ตอนนี้ คุณอาจจะกำลังคิดว่า "เอาล่ะ ขนาดตัวอย่างใหญ่ก็เยี่ยมมาก ตัวอย่างของฉันควรใหญ่ขนาดไหน" ไม่มีใครที่ขนาดพอดี ทั้งหมดนี้ตอบโจทย์ได้ ขนาดตัวอย่างที่เหมาะสมขึ้นอยู่กับปัจจัยหลายประการ เช่น จำนวนคุณลักษณะในชุดข้อมูล ความซับซ้อนของความสัมพันธ์ระหว่างคุณลักษณะและตัวแปรเป้าหมาย และปริมาณสัญญาณรบกวนในข้อมูล

2016 Volkswagen Tiguan 300TSI Automatic 2WD Comfort Edition suppliers

หลักการทั่วไปคือ หากชุดข้อมูลของคุณมีแอตทริบิวต์จำนวนมากหรือมีความสัมพันธ์ที่ซับซ้อนระหว่างตัวแปร คุณอาจต้องมีขนาดตัวอย่างที่ใหญ่ขึ้น ในทางกลับกัน หากความสัมพันธ์ค่อนข้างง่าย ขนาดตัวอย่างที่เล็กลงก็อาจจะเพียงพอ

คุณยังสามารถใช้เทคนิคต่างๆ เช่น การตรวจสอบความถูกต้องข้าม เพื่อประเมินว่าอัลกอริทึม ID3 ของคุณจะทำงานได้ดีเพียงใดกับขนาดตัวอย่างที่แตกต่างกัน การตรวจสอบความถูกต้องข้ามเกี่ยวข้องกับการแยกข้อมูลของคุณออกเป็นหลายชุดย่อย โดยใช้ชุดย่อยบางส่วนสำหรับการฝึกอบรมและชุดอื่นๆ สำหรับการทดสอบ การทำเช่นนี้ซ้ำๆ กับขนาดตัวอย่างที่แตกต่างกัน จะทำให้คุณทราบได้ว่าขนาดตัวอย่างใดให้ประสิทธิภาพดีที่สุด

ในทางปฏิบัติในฐานะผู้ขาย ID3

ในฐานะผู้จำหน่ายอัลกอริทึม ID3 ฉันมักจะทำงานร่วมกับไคลเอนต์ที่มีขนาดตัวอย่างต่างกันในชุดข้อมูลของตน ฉันจำลูกค้ารายหนึ่งที่พยายามคาดการณ์การเปลี่ยนใจของลูกค้าให้กับบริษัทโทรคมนาคมแห่งหนึ่ง ในตอนแรกพวกเขามีขนาดตัวอย่างที่ค่อนข้างเล็ก และแบบจำลองที่ใช้ ID3 ที่พวกเขาสร้างขึ้นนั้นมีการติดตั้งมากเกินไป โครงสร้างการตัดสินใจกำลังสร้างกฎที่เฉพาะเจาะจงโดยอิงจากลูกค้าเพียงไม่กี่รายในชุดข้อมูล และจะไม่ถูกต้องเมื่อนำไปใช้กับลูกค้าใหม่

ฉันแนะนำให้พวกเขารวบรวมข้อมูลเพิ่มเติมเพื่อเพิ่มขนาดตัวอย่าง เมื่อพวกเขาทำเช่นนั้น ประสิทธิภาพของอัลกอริธึม ID3 ก็ดีขึ้นอย่างมาก โครงสร้างการตัดสินใจสามารถเรียนรู้กฎทั่วไปเพิ่มเติมเกี่ยวกับการเลิกใช้งานของลูกค้า และความแม่นยำในการคาดการณ์ข้อมูลใหม่ก็เพิ่มขึ้นอย่างมาก

บทสรุปและการเรียกร้องให้ดำเนินการ

โดยสรุป ขนาดตัวอย่างมีผลกระทบอย่างมากต่อประสิทธิภาพของอัลกอริทึม ID3 ขนาดตัวอย่างที่เล็กอาจนำไปสู่การพอดีมากเกินไปและการเลือกแอตทริบิวต์ที่ไม่น่าเชื่อถือ ในขณะที่ขนาดตัวอย่างที่ใหญ่โดยทั่วไปจะส่งผลให้มีภาพรวมที่ดีขึ้นและประสิทธิภาพของโมเดลมีความเสถียรมากขึ้น

หากคุณกำลังจัดการกับข้อมูลและคิดที่จะใช้อัลกอริธึม ID3 การใส่ใจกับขนาดตัวอย่างของคุณเป็นสิ่งสำคัญ และหากคุณกำลังดิ้นรนเพื่อให้ได้ประสิทธิภาพที่ดีที่สุดจากรุ่นที่ใช้ ID3 ของคุณ อย่าลังเลที่จะติดต่อเรา ในฐานะผู้จำหน่าย ID3 ที่มีประสบการณ์ ฉันสามารถช่วยคุณปรับขนาดตัวอย่างของคุณให้เหมาะสมและใช้ประโยชน์จากอัลกอริธึม ID3 ให้เกิดประโยชน์สูงสุด มาพูดคุยเกี่ยวกับวิธีที่เราสามารถทำงานร่วมกันเพื่อปรับปรุงโครงการการวิเคราะห์ข้อมูลของคุณ

อ้างอิง

มิทเชลล์, TM (1997) การเรียนรู้ของเครื่อง แมคกรอว์ - ฮิลล์
ควินแลน เจอาร์ (1986) การเหนี่ยวนำแผนผังการตัดสินใจ การเรียนรู้ของเครื่อง 1(1) 81 - 106