مقالات و پایان نامه ها

دانلود تحقیق در مورد ، For، ، End، cluster، خیدو

اسفند ۲۱, ۱۳۹۶

function:
J=∑∑∥xj-ci

2
K

choose randomly k of our points as partition centers.
-3 For m=1 to number of centers do
For n=1 to number of data do
Distance [m, n]

compute the distance between every data point[n] on the set with center[m]
End For
End For
4-Assign each point to the nearest cluster center.
For i=1 to number of centers do
Update the cluster center positions by using the following formula:
ci=


||
End For
If the cluster centers change, Then repeat the process from 3 Else finish the process of k means clustering algorithm and get the partition’s members and centroids.
شکل 1. الگوریتم برچسبگذاری اولیه داده ها
آماده سازی داده ها (گسسته سازی)
پس از برچسبگذاری دادهها، در گام بعد از طبقه بندی بیزی سـاد ه درخـت افـزوده1 بهـره بـرده میشود. این طبقه بند شکل توسعهیافته بیزی ساده است که اجازه می دهد ویژگـی هـا بـه صـورتدرخت با هم ارتباط داشته باشند. برای استفاده از این الگوریتم، ابتدا بایـد گسسـته سـازی داده هـاصورت گیرد. برای گسستهسازی دادهها از تابع گسستهساز2 در نرمافزار R استفاده شده است کـهاز توزیع خی دو کمک می گیرد. الگوریتم خیدو به صورت خودکار مقادیر حـد آسـتانه ای را تعیـینمی کند و به طور صحیح و دقیق مجموعه داده های عددی را گسستهسازی مـی کنـد . پارامترهـایتابع عبارت اند از مجموعه دادهها، آلفا و دلتا که بهترتیب داده ها، سطح معناداری و حداکثر میـزانناسازگاری در مجموعه داده را نشان می دهند.
الگوریتم خیدو بر مبنای توزیع خیدو رفتار میکند. ابتدا برای همه ویژگی هـای عـددی کـه گسسته سازی شده اند، با یک سطح معنادار بالا آغاز می گردد و تمام متغیرها بر اسـاس مقدار شـان ذخیره می شوند. در مرحله نخست، مقدار خی دو برای هر زوج بازه مجاور محاسبه میشود. گفتنی است که قبل از انجام گسستهسازی، هر متغیر را به عنوان یک بازه در نظر میگیرد که فقط همان متغیر به آن بازه تعلق دارد. در پیاده سازی مرحله دو، بازههای مجاور با کمتـرین مقـدار خـی دو را
ــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــ
1 .Tree Augmented Naïve Bayesian (TAN)
2. Discretization
ادغام می کند و فرایند ادغام ادامه می یابد تا اینکه مقدار خی دو همه زوج بازه های مجاور، بزرگ تر از سطح معناداری ای شود که ابتدا مشخص شده است. این فرایند با سطح معنادار کاهش یافته ای ادامه می یابد تا با افزایش تدریجی میزان ناسازگاری به یک مقدار مطابق با شرط حـداکثری دلتـابرسد (لیو و سشنو، 1995). شکل 2 الگوریتم استفاده شده برای گسستهسـازی داده هـا را در ایـنپژوهش نمایش می دهد.

Algorithm: Discretization
Chi2 Function (att – attribute) Phase 1:

.5
While (InConCheck (data) < ) do /Function InConCheck() returns an inconsistency rate found in the discretized data/
For each numeric att do
Sort (att, data)
Chi-sq-init (att, data)
While (Merge (data)) do/Function Merge () returns true or false depending on whether the concerned attribute is merged or not/
Chi-sq-calculation (att, data)
End While End For
0 ←