
مقاله طراحی و پیاده سازی Document clustering توزيع شده بر پايه MapReduce
فرمت فایل دانلودی: .zipفرمت فایل اصلی: docx
تعداد صفحات: 7
حجم فایل: 231
چکيده:
در اين مقاله ما توضيح ميدهيم که Document Clustering براي مجموعه هاي بزرگ بوسيله Map-Reduce چگونه ميتواند به طور موثر اجرا شود. Hadoop یک چارچوب مناسب و انعطاف پذیر برای محاسبات توزیع شده خوشه ای از ماشین آلات کالا پياده سازي و فراهم می کند. در اين مقاله طراحی و پیاده سازی tfidf و الگوریتم K-Means در Map Reduce ارائه شده است. از همه مهمتر، کارایی و اثربخشی از الگوریتم بهبود یافته است و در نهایت، ما در مورد برخي نتايج بحث های مرتبطي خواهيم داشت.
واژه هاي مرتبط : Map-Reduce, tfidf, K-Means clustering
مقدمه :
با توسعه سریع اینترنت، حجم عظیمی از اسناد باید در یک زمان کوتاه پردازش شود. تحقیق در وب کاوی در مورد روش مقیاس پذیر و قابل انطباق با اسناد جمعی تمرکز دارد [1]. ذخیره سازی و محاسبات جرم داده های اسناد در یک سیستم توزیع شده یک روش جایگزین است [2]. در محاسبات توزیع شده، مشکل تقسيم وظایف است، به طوري که هر کدام توسط یک کامپیوتر حل شود. با این حال، بسیاری از مشکلات مانند برنامه ریزی کار، تحمل خطا و ارتباط بین دستگاه برای برنامه نویسان با تجربه کم، با سیستم موازی و توزیع شده بسیار مشکل است. در این مقاله ما تجربه ها و یافته های Document Clustering را بر اساس Map-Reduce توصیف می کنيم. Map-Reduce [3] ، یک چارچوب است که برنامه نویسان تنها نیاز به مشخص نمودن تابع Map و Reduce دارند تا وظيفه هاي بزرگ را به صورت موازي در مورد خوشه هاي بزرگ بر روي ماشین آلات کالا اجرا نمايند. در مرحله پيش پردازش سند ، ما يک الگوريتم تکرار شونده براي محاسبه وزن tfidf در Map-Reduce به منظور ارزیابی مهم بودن یک دوره براي یک سند در یک مجموعه طراحي ميکنيم. سپس يک Mean Cluster در Map Reduce اجرا مي شود تا تمام اسناد رو به k خوشه تقسيم کند که هر سند متعلق به يک خوشه با همين معنا است. از همه مهمتر، در می یابیم که نادیده گرفتن شرایط با بالاترین فرکانس سند نمی تواند سرعت الگوریتم ما در Map-Reduce را بهبود ببخشد ، اما دقت خوشه سند را کمی بهبود مي بخشد. آزمایش نشان می دهد که روش مار رشد تقریبا خطی در زمان مورد نیاز در حال اجرا با افزایش اندازه مجموعه برای مجموعه هاي حاوی چند ده هزار سند خواهد داشت.
مقاله طراحی و پیاده سازی Document clustering توزيع شده بر پايه MapReduce
فرمت فایل دانلودی: .zip
فرمت فایل اصلی: docx
تعداد صفحات: 7
حجم فایل: 231
دانلود ترجمه مقاله طراحی و پیاده سازی Document clustering توزيع شده بر پايه MapReduce ؛ مقاله ای برای رشته کامپیوتر و فناوری اطلاعات و کاربرد آن در رشته مدیریت است که در 7 صفحه برای دانلود شما ترجمه شده است.
چکيده:
در اين مقاله ما توضيح ميدهيم که Document Clustering براي مجموعه هاي بزرگ بوسيله Map-Reduceچگونه ميتواند به طور موثر اجرا شود. Hadoop یک چارچوب مناسب و انعطاف پذیر برای محاسبات توزیع شده خوشه ای از ماشین آلات کالا پياده سازي و فراهم می کند. در اين مقاله طراحی و پیاده سازی tfidf و الگوریتم K-Means در Map Reduce ارائه شده است. از همه مهمتر، کارایی و اثربخشی از الگوریتم بهبود یافته است و در نهایت، ما در مورد برخي نتايج بحث های مرتبطي خواهيم داشت.
واژه هاي مرتبط : Map-Reduce, tfidf, K-Means clustering
مقدمه :
با توسعه سریع اینترنت، حجم عظیمی از اسناد باید در یک زمان کوتاه پردازش شود. تحقیق در وب کاوی در مورد روش مقیاس پذیر و قابل انطباق با اسناد جمعی تمرکز دارد [1]. ذخیره سازی و محاسبات جرم داده های اسناد در یک سیستم توزیع شده یک روش جایگزین است [2]. در محاسبات توزیع شده، مشکل تقسيم وظایف است، به طوري که هر کدام توسط یک کامپیوتر حل شود. با این حال، بسیاری از مشکلات مانند برنامه ریزی کار، تحمل خطا و ارتباط بیندستگاه برای برنامه نویسان با تجربه کم، با سیستم موازی و توزیع شده بسیار مشکل است. در این مقاله ما تجربه ها و یافته های Document Clustering را بر اساس Map-Reduce توصیف می کنيم. Map-Reduce [3] ، یک چارچوب است که برنامه نویسان تنها نیاز به مشخص نمودن تابع Map و Reduce دارند تا وظيفه هاي بزرگ را به صورت موازي در مورد خوشه هاي بزرگ بر روي ماشین آلات کالا اجرا نمايند. در مرحله پيش پردازش سند ، ما يک الگوريتم تکرار شونده براي محاسبه وزن tfidf در Map-Reduce به منظور ارزیابی مهم بودن یک دوره براي یک سند در یک مجموعه طراحي ميکنيم. سپس يک Mean Cluster در Map Reduce اجرا مي شود تا تمام اسناد رو به k خوشه تقسيم کند که هر سند متعلق به يک خوشه با همين معنا است. از همه مهمتر، در می یابیم که نادیده گرفتنشرایط با بالاترین فرکانس سند نمی تواند سرعت الگوریتم ما در Map-Reduce را بهبود ببخشد ، اما دقت خوشه سندرا کمی بهبود مي بخشد. آزمایش نشان می دهد که روش مار رشد تقریبا خطی در زمان مورد نیاز در حال اجرا باافزایش اندازه مجموعه برای مجموعه هاي حاوی چند ده هزار سند خواهد داشت.
برچسب ها : مقاله طراحی و پیاده سازی document clustering,دانلود مقاله طراحی و پیاده سازی document clustering,تحقیق طراحی و پیاده سازی document clustering,دانلود تحقیق طراحی و پیاده سازی document clustering,تحقیق طراحی document clustering,تحقیق پیاده سازی document clustering,مقاله طراحی document clustering,مقاله پیاده سازی document clustering
| | لینک ثابت | نسخه قابل چاپ | | امتیاز : | | اشتراک گذاری : |
