Tuesday, August 01, 2006

data mining

เริ่มกันเลย data mining เป็นการขุดเอาความรู้ออกจากข้อมูล ลองคิดดูว่าถ้าเรามีข้อมูลจำนวนมาก แต่เราไม่สามารถรู้อะไรได้เลยจากข้อมูลที่เรามีอยู่ ก็เหมือนว่าข้อมูลเรานั้นไม่มีค่าอะไร

association rule คืออะไร
association rule คือกฏของความสัมพันธ์ ในสิ่งต่างๆๆ ย่อมมีความสัมพันธืกัน ข้อมูลบางอย่างบางชนิดก็มีความสัมพันธ์กันเช่นกัน เช่น ปัญหาที่เราเรียกว่า "market-basket" เป็นปัญหาที่เราหาความสัมพันธ์ของสินค้าที่อยู่ในตระกร้าของลุกค้าว่า เมื่อลูกค้าคนหนึ่งๆ ซื้อสินค้าชนิกนึงไปแล้ว ลูกค้ามีโอกาสที่จะซื้อสินค้าอีกชนิดนึงด้วย

เราเริ่มด้วยค่าที่เรียกว่า ค่า support
support คือ ค่าที่เป็นตัวบงบอกว่าสอนค้านั้นๆ หรือสิ่งของนั้นๆ มีความถี่มากน้อยเพียงใด ถ้าพูดถึงในกรณีการซื้อสินค้าก็พูดได้ว่าสินค้าชนิดนั้นๆ ถูกซื้อไปมากน้อยแค่ไหน ซึ่งค่า support นี้เราสามารถคำนวนได้จาก สมการดังนี้
S(X) = |T เป็นสมาชิกใน D และ X เป็นสับเซตของเซต T|/|D|
ซึ่ง D คือ {T1,T2,...,Tn} และ T คือ trransaction หนึ่งๆ
และอีกค่าหนึ่งที่เราใช้กัยยั่นก็คือค่าที่เรียกว่าค่า confident หรือเป็นไทยว่า ค่าความเชื่อมั่น
C(X,Y) = S(X U Y)/S(X)

Algorithm ที่ใช้ในการหา Frequent Itemsets
โดยทั่วไปแล้วจะมีหลาย Algorithim เช่น
1. AprioriTid Algorithm
2. AprioriHybrid Algorithm
3. AIS (Agrawal Imielinski Swami) Algorithm
4. DHP (Direct Hashing and Pruning)
ซึ่ง Algo ที่กล่าวๆ มานี้นล้วนมีพื้นฐานมาจา่กการนำ Algorithm Apriori ไปปรับปรุง

No comments: