مقایسه و بررسی روش های خوشه بندی اسناد(داکیومنت)

توضیحات محصول

مقاله ترجمه شده :مقایسه و بررسی روش های خوشه بندی اسناد(داکیومنت)

چکیده فارسی :

این مقاله به بررسی نتایج حاصل از مطالعات تجربی روش های متداول خوشه بندی اسناد(داکیومنت) می پردازد. به خصوص در این مقاله، دو روش اصلی خوشه بندی داکیومنت به نام های خوشه‌بندي سلسله مراتبي متراکم و روش k-mean را بررسی و مقایسه می کنیم. (در روش k-means از الگوریتم استانداردk و متغیر آن وbisecting K-means استفاده کرده ایم). خوشه بندی سلسله مراتبی اغلب به عنوان روش خوشه بندی با کیفیت بهتر به تصویر کشیده می شود، اما به دلیل پیچیدگی های زمانی كوادراتيك یا درجه دوم آن محدودیت هایی هم دارد. در مقابل، روش k-means و متغیرهای آن دارای پیچیدگی های زمانی بصورت خطی است اما خوشه های درجه دوم و پایین تری بوجود می آورد. برخی مواقع، روش سلسله مراتبی و k-means به منظور دست یابی به بهترین روش با هم ترکیب می شوند. با این حال، نتایج بدست آمده از تحقیق ما حاکی از این است که روش k-meansbisecting بهتر از استاندارد k-means است و بهتر و مناسب تر از روش سلسله مراتبی است که ما معیارهای ارزیابی خوشه را آزمایش کردیم. توضیحاتی برای این نتایج بدست آمده داریم که مبتنی بر تجزیه و تحلیل جزئییات الگوریتم خوشه بندی و ماهیت داده های داکیومنت ارائه شده است.

چکیده انگلیسی:

This paper presents the results of an experimental study of some common document clustering techniques. In particular, we compare the two main approaches to document clustering, agglomerative hierarchical clustering and K-means. (For K-means we used a “standard” K-means algorithm and a variant of K-means, “bisecting” K-means.) Hierarchical clustering is often portrayed as the better quality clustering approach, but is limited because of its quadratic time complexity. In contrast, K-means and its variants have a time complexity which is linear in the number of documents, but are thought to produce inferior clusters. Sometimes K-means and agglomerative hierarchical approaches are combined so as to “get the best of both worlds.” However, our results indicate that the bisecting K-means technique is better than the standard K-means approach and as good or better than the hierarchical approaches that we tested for a variety of cluster evaluation metrics. We propose an explanation for these results that is based on an analysis of the specifics of the clustering algorithms and the nature of document data.


 

خرید این محصول

 
 زرین پال   
 
 

خواهشمنداست در صورت عدم دریافت فایل به با یادداشت کردن کد رهگیری و مراجعه به بخش پیگیری سفارش ها با زدن کد رهگیری فایل خود را مجددا دریافت کنید در غیر این صورت جهت هر گونه مشکل با شماره ذیل پیامک و یا تلگرام بدید

پشتيباني 24 ساعته (پيامك و تلگرام)

09189431367 

امکان پرداخت با کلیه کارت های عضو شتاب میسر است


 

سوالات و نظر شما در مورد این محصول