การแบ่งประเภทข้อมูล

จากวิกิพีเดีย สารานุกรมเสรี

ในวิทยาการคอมพิวเตอร์, การแบ่งประเภทข้อมูล (data classification) เป็นปัญหาพื้นฐานของการเรียนรู้แบบมีผู้สอน โดยปัญหาคือการทำนายประเภทของวัตถุจากคุณสมบัติต่าง ๆ ของวัตถุ ซึ่งการเรียนรู้แบบมีผู้สอนจะสร้างฟังก์ชันเชื่อมโยง ระหว่างคุณสมบัติของวัตถุ กับประเภทของวัตถุจากตัวอย่างสอน แล้วจึงใช้ฟังก์ชันนี้ทำนายประเภทของวัตถุที่ไม่เคยพบ เครื่องมือหรือขั้นตอนวิธีที่ใช้สำหรับการแบ่งประเภทข้อมูลเช่น โครงข่ายประสาทเทียม ต้นไมตัดสินใจ

[แก้] นิยามของปัญหา

กำหนดตัวอย่างสอน E = \{(x_1,y_1),(x_2,y_2),\dots,(x_n,y_n)\} ให้ xi เป็นเวกเตอร์แสดงคุณสมบัติของวัตถุ ซึ่ง x_i \in A_1 \times A_2 \times \cdots \times A_m โดยที่ Ai เป็นเซตจำกัดระบุคุณสมบัติ และ y \in C เป็นประเภทของวัตถุ ซึ่งกำหนดไว้ในเซตจำกัด C ต้องการหาฟังก์ชัน f(x) ซึ่งให้ค่า y จากเวกเตอร์ x ที่กำหนด โดยที่ความผิดพลาดของการทำนายตัวอย่างสอนมีค่าน้อยที่สุด หรือมีค่า e น้อยที่สุด โดยกำหนด e = \sum_{i=1}^{n} t(f(x_i),y_i) ซึ่ง t(a,b) = \begin{cases}0, \mbox{if } a=b \\ 1,  \mbox{if }a \neq b \end{cases}


  การแบ่งประเภทข้อมูล เป็นบทความเกี่ยวกับ คอมพิวเตอร์ อุปกรณ์คอมพิวเตอร์ หรือ เครือข่าย ที่ยังไม่สมบูรณ์ ต้องการตรวจสอบ เพิ่มเนื้อหา หรือเพิ่มแหล่งอ้างอิง คุณสามารถช่วยเพิ่มเติมหรือแก้ไข เพื่อให้สมบูรณ์มากขึ้น
ข้อมูลเกี่ยวกับ การแบ่งประเภทข้อมูล ในภาษาอื่น สามารถหาอ่านได้จากเมนู ภาษาอื่น ๆ ด้านซ้ายมือ