با توجه به سرعت روزافزون تولید اطلاعات و همچنین وجود نیازمندی تبدیل اطلاعات به دانش، نیاز به الگوریتمهای دادهکاوی به شدت لمس میشود. خوشهبندی یکی از تکنیکهای دادهکاوی است و توسعه آن سبب پیشرفت در جهت فهم بیشتر محیط پیرامون میشود. در این مقاله، راهکاری پویا و مقیاس More
با توجه به سرعت روزافزون تولید اطلاعات و همچنین وجود نیازمندی تبدیل اطلاعات به دانش، نیاز به الگوریتمهای دادهکاوی به شدت لمس میشود. خوشهبندی یکی از تکنیکهای دادهکاوی است و توسعه آن سبب پیشرفت در جهت فهم بیشتر محیط پیرامون میشود. در این مقاله، راهکاری پویا و مقیاسپذیر برای خوشهبندی دادههای ترکیبی با ابعاد کلان به همراه نقصان در دادهها ارائه گردیده است. به علت هدفگذاری حوزه کلاندادهها، راهکار پیشنهادی به صورت توزیعشده، دادهها را پردازش میکند. در این راهکار از ادغام معیارهای فاصله رایج با مفهوم نزدیکترین همسایگی مشترک و همچنین به کارگیری نوعی از کدگذاری هندسی بهره برده شده است. همچنین روشی برای ترمیم دادههای از دست رفته در مجموعه داده نیز در آن در نظر گرفته شده است.
با بهرهگیری از تکنیکهای موازیسازی و توزیع پردازش فیمابین گرههای متعدد میتوان به مقیاسپذیری و تسریع دست یافت. الگوریتم پیشنهادی نیزاز این روشها به جهت دستیابی به این مهم بهره میبرد. ارزیابی این راهکار بر اساس معیارهای سرعت، دقت و حافظه مصرفی با مقایسه با دیگر موارد انجام میشود.
Manuscript profile
Nashriyyah -i Muhandisi -i Barq va Muhandisi -i Kampyutar -i Iran
,
Issue70,Year,
Spring
2019
تشخیص دادههای پرت به عنوان یک حوزه تحقیق در دادهکاوی و یادگیری ماشین بوده و یک گام مهم در پیشپردازش دادهها به حساب میآید. در این مقاله یک روش بدون پارامتر به منظور تشخیص دادههای پرت مبتنی بر نزدیکی به نام NPOD ارائه شده است. رهیافت ارائهشده، ترکیبی از روشهای مبت More
تشخیص دادههای پرت به عنوان یک حوزه تحقیق در دادهکاوی و یادگیری ماشین بوده و یک گام مهم در پیشپردازش دادهها به حساب میآید. در این مقاله یک روش بدون پارامتر به منظور تشخیص دادههای پرت مبتنی بر نزدیکی به نام NPOD ارائه شده است. رهیافت ارائهشده، ترکیبی از روشهای مبتنی بر فاصله و مبتنی بر چگالی بوده و توانایی تشخیص پرتها را به صورت سراسری و محلی دارد. این روش نیاز به تعیین هیچ یک از پارامترهای شعاع همسایگی، حد آستانه نقاط موجود در شعاع همسایگی و پارامتر نزدیکترین همسایگی ندارد. NPOD برای تشخیص دادههای پرت، یک روش جدید نمرهدهی ارائه میدهد. ارزیابی نتایج بر روی مجموعه دادههای UCI نشان میدهد که این الگوریتم با وجود بدون پارامتر بودنش، عملکردی قابل رقابت با روشهای پیشین و در بعضی مواقع بهترین عملکرد را دارد.
Manuscript profile
با توجه به سرعت روزافزون تولید اطلاعات و نیاز تبدیل اطلاعات به دانش، روشهای یادگیری ماشین قدیمی دیگر پاسخگو نیستند. هنگام استفاده از طبقهبندیها با روشهای یادگیری ماشین قدیمی، به ویژه استفاده از طبقهبندیهای ذاتاً تنبل مانند روش k- نزدیکترین همسایگی (KNN)، عملیات ط More
با توجه به سرعت روزافزون تولید اطلاعات و نیاز تبدیل اطلاعات به دانش، روشهای یادگیری ماشین قدیمی دیگر پاسخگو نیستند. هنگام استفاده از طبقهبندیها با روشهای یادگیری ماشین قدیمی، به ویژه استفاده از طبقهبندیهای ذاتاً تنبل مانند روش k- نزدیکترین همسایگی (KNN)، عملیات طبقهبندی دادههای حجیم بسیار کند است.
نزدیکترین همسایگی به دلیل سادگی و دقت عملی که ارائه میدهد یک روش محبوب در زمینه طبقهبندی دادهها میباشد. روش پیشنهادی مبتنی بر مرتبسازی بردارهای ویژگی دادههای آموزشی در یک درخت جستجوی دودویی است تا طبقهبندی دادههای بزرگ را با استفاده از روش نزدیکترین همسایگی تسریع بخشد. این کار با استفاده از یافتن تقریبی دو دورترین داده محلی در هر گره درخت انجام میشود. این دو داده به عنوان معیار برای تقسیم دادههای موجود در گره فعلی بین دو گروه، مورد استفاده قرار میگیرند. مجموعه دادههای موجود در هر گره بر اساس شباهت آنها به این دو داده، به فرزند چپ یا راست گره فعلی تخصیص داده میشوند. نتایج آزمایشهای متعدد انجامشده بر روی مجموعه دادههای مختلف از مخزن UCI، میزان دقت خوب با توجه به زمان اجرای کم روش پیشنهادی را نشان میدهد.
Manuscript profile
Rimag
Rimag is an integrated platform to accomplish all scientific journal requirements such as submission, evaluation, reviewing, editing, DOI assignment and publishing in the web.