دوشنبه 14 اردیبهشت 1405

روش تازه دانشمند جهان اسلام برای تحلیل بهتر داده‌ها

به گزارش خبرنگار مهر، نشست‌های «استپ» (STEP) در رویداد جایزه مصطفی (ص) با هدف اشتراک‌گذاری دانش میان دانشمندان مسلمان برگزار می‌شود. استپ دهم، میزبان چهره‌های بین‌المللی برجسته‌ای بود که دستاوردهایشان در مرزهای دانش حرکت می‌کند. از جمله این چهره‌ها، «علی اس. هادی» (Ali S. Hadi)، دانشمند مصری، استاد ممتاز دانشگاه آمریکایی قاهره بود.

دکتر علی اس. هادی از پژوهشگران برجسته حوزه آمار با سابقه تدریس و پژوهش در دانشگاه‌های معتبر بین‌المللی، از جمله دانشگاه آمریکایی بیروت، استاد بازنشسته افتخاری دانشگاه کرنل و دانشگاه آمریکایی قاهره به شمار می‌رود.

حوزه فعالیت علمی وی شامل آمار پیشرفته، تحلیل داده و روش‌های آماری کاربردی است و تاکنون آثار علمی متعددی در این زمینه منتشر کرده است. یکی از حوزه هایی که این دانشمند بر آن مسلط است، داده‌های پرت (داده ای است که در فاصله ی غیرعادی از بقیه مقادیر داده در یک نمونه ی تصادفی از یک جمعیت مشاهده می شود) است.

این دانشمند جهان اسلام در گفتگو با خبرنگار مهر، در پاسخ به این پرسش که چرا تکیه بر یک آستانه مشخص (crisp cutoff) برای تشخیص داده‌های پرت همیشه قابل اعتماد نیست، اظهار کرد: داده‌های پرت یکی از چالش‌های اصلی در فرآیند جمع‌آوری و تحلیل داده‌ها هستند، چرا که معمولاً در هر مجموعه داده، مقادیری وجود دارند که به شکل محسوسی با اکثریت داده‌ها متفاوت‌اند.

وی برای توضیح این موضوع مثال زد و گفت: اگر داده‌های مربوط به درآمد افراد را جمع‌آوری کنید، ممکن است ناگهان با فردی مانند بیل گیتس مواجه شوید؛ در چنین شرایطی، او یک داده پرت محسوب می‌شود، زیرا فاصله معناداری با سایر داده‌ها دارد.

هادی با اشاره به تمرکز پژوهش‌های خود بر داده‌های چندمتغیره گفت: در این نوع داده‌ها، برخلاف تحلیل تک‌متغیره، با مجموعه‌ای از متغیرها سروکار داریم و همین مسئله شناسایی داده‌های پرت را پیچیده‌تر می‌کند. داده‌ها را می‌توان در یک، دو یا سه بعد ترسیم کرد، اما در ابعاد بالاتر، این کار عملاً دشوار می‌شود و ناچاریم به روش‌های عددی تکیه کنیم.

این دانشمند جهان اسلام افزود: برخی داده‌های پرت در مرز میان داده‌های عادی و غیرعادی قرار دارند؛ بنابراین اگر بخواهیم با یک نقطه آستانه مشخص درباره آن‌ها تصمیم بگیریم، احتمال خطا افزایش می‌یابد. به همین دلیل از منطق فازی (Fuzzy Logic) استفاده می‌کنیم تا میزان پرت بودن داده‌ها را به‌صورت تدریجی و در بازه‌ای بین صفر تا یک تعیین کنیم. هرچه این مقدار به یک نزدیک‌تر باشد، احتمال پرت بودن داده بیشتر است.

هادی درباره مزیت روش‌های فازی نسبت به الگوریتم کلاسیک BACON توضیح داد: الگوریتم BACON در نسخه اصلی خود مبتنی بر منطق قطعی (crisp) است، اما ما آن را به نسخه توسعه‌یافته‌ای با عنوان Fuzzy BACON ارتقا دادیم. در این مدل، داده‌ها صرفاً به دو دسته پرت و غیرپرت تقسیم نمی‌شوند، بلکه داده‌هایی که در ناحیه مرزی قرار دارند، در یک محدوده فازی ارزیابی می‌شوند.

وی با بیان اینکه مدل‌های قطعی در واقع حالت خاصی از مدل‌های فازی هستند، گفت: اگر پارامتر فازی فقط صفر یا یک باشد، عملاً همان مدل قطعی را داریم، اما زمانی که این پارامتر در بازه بین صفر و یک قرار می‌گیرد، مدل فازی شکل می‌گیرد و امکان تحلیل دقیق‌تر داده‌های مرزی فراهم می‌شود.

این استاد آمار در تشریح تفاوت تجربی میان Fuzzy BACON و نسخه کلاسیک آن اظهار کرد: در مدل کلاسیک، یک آستانه ثابت وجود دارد و داده‌ها یا پرت هستند یا نیستند؛ اما در مدل فازی، یک محدوده تعریف می‌شود که در آن، میزان اطمینان نسبت به پرت بودن داده‌ها به‌صورت تدریجی سنجیده می‌شود.

هادی همچنین به کاربرد این روش در انواع مختلف داده‌ها اشاره کرد و گفت: نسخه اولیه BACON عمدتاً برای داده‌های عددی طراحی شده بود، اما روش‌های جدید امکان تحلیل همزمان داده‌های عددی و دسته‌ای (categorical) را نیز فراهم کرده‌اند و این موضوع دامنه کاربرد آن را گسترده‌تر کرده است.

استاد ممتاز دانشگاه آمریکایی قاهره در بخش دیگری از این گفت‌وگو، به تازه‌ترین پژوهش‌های خود در حوزه خوشه‌بندی (Clustering) اشاره کرد و گفت: یکی از پروژه‌های اخیرم بر اندازه‌گیری فاصله میان خوشه‌های داده متمرکز است. در تحلیل خوشه‌ای، پرسش اصلی این است که چگونه می‌توان فاصله میان خوشه‌ها را به شکلی دقیق اندازه‌گیری کرد.

او افزود: تاکنون روش‌های مختلفی برای سنجش فاصله پیشنهاد شده، اما جدیدترین رویکرد، استفاده از «فاصله بیضوی» (Elliptical Distance) است. برخلاف فاصله اقلیدسی که بر فرض برابری واریانس‌ها و استقلال متغیرها استوار است، فاصله بیضوی این محدودیت‌ها را در نظر نمی‌گیرد و شرایط واقعی‌تر داده‌ها را منعکس می‌کند.

هادی در پایان با تشریح مزیت روش پیشنهادی خود گفت: این روش دو مسئله مهم را پوشش می‌دهد؛ نخست تفاوت واحدهای اندازه‌گیری و واریانس متغیرها، و دوم وابستگی میان متغیرها. در روش‌های کلاسیک، متغیرهایی با واریانس بالا می‌توانند بر تحلیل غلبه کنند و همچنین وابستگی میان متغیرها نادیده گرفته می‌شود، اما روش پیشنهادی ما این محدودیت‌ها را برطرف کرده و دقت تحلیل خوشه‌ای را به شکل محسوسی افزایش می‌دهد.

آخرین اخبار

آتش‌سوزی در یک مجتمع تجاری مشهد

مدیر روابط عمومی سازمان آتش‌نشانی مشهد از اعزام...

ترمز افزایش قیمت‌ها دربازار مرغ کشیده می شود/ عرضه مرغ گرم بزودی در بخشهایی از استان تهران

به گزارش خبرآنلاین، حشمت‌الله عسگری اظهار کرد: در یک ماه...

سه پیش‌نیاز حزب بارزانی برای همکاری با دولت الزیدی

طبق گزارشی از خبرآنلاین، «محما خلیل»، یکی از اعضای...

29سال خاطره از مردی که همه رفتارهایش منحصر به خودش بود

متن یادداشت دکتر رسول جعفریان را می خوانید: ...

طراحی داخلی چگونه به افزایش ماندگاری برند هتل کمک می‌کند؟

آفتاب‌‌نیوز : با توجه به اینکه طراحی...

رفلاکس بارداری؛ از فشار رحم تا تغییرات هورمونی

پایگاه خبری تحلیلی انتخاب (Entekhab.ir) : مهر:...

واژگونی مینی‌بوس سرویس کارکنان در تهران همراه با ۱۵ نفر مصدوم

آفتاب‌‌نیوز : اورژانس تهران اعلام کرد:حوالی ساعت...

ارسال یک سیگنال مهم به بازار خودرو/ ریزش شدید قیمت خودرو در راه است؟

به گزارش خبرگزاری خبرآنلاین، فرشاد مقیمی در...

تصادف زنجیره‌ای در اتوبان قم

تصادف زنجیره‌ای در اتوبان قم - کاشان که...

اسحاق دار به عراقچی چه گفت؟

به گزارش خبرآنلاین، "محمد اسحاق دار"، معاون نخست وزیر...

از میدان تا رسانه؛ نقش فناوری نرم رسانه در روایتگری جنگ

خبرگزاری مهر، فاطمه کریمی دردشتی: در جهان معاصر، رسانه...

وزیر راه و شهرسازی وارد قم شد

آفتاب‌‌نیوز : فرزانه صادق وزیر راه و...

هاآرتص: نتانیاهو از میدان خارج می‌شود؛ اما اسرائیل به همراه او به نابودی می‌رسد

به نقل از خبرآنلاین، روزنامه هاآرتص یادداشت‌های «کارولینا لاندسمان»...

چگونه بفهمیم مشترک پرمصرف یا کم مصرف برق هستیم؟/ نحوه محاسبه برق مشترکان

به گزارش خبرآنلاین،وزارت نیرو همواره به موضوع تعرفه‌های برق...

قلعه‌نویی در حیرت؛ کاپیتان ملی‌پوش نیز به دام دلهره علی قلی‌زاده افتاد

همچنان که جامعه فوتبال ایران از مصدومیت جدی علی...

قیمت روغن موتور ۳۰ درصد بالا رفت

به گزارش خبرآنلاین،سلمان اسماعیلی دبیرکل انجمن پالایشگاه‌های روغن‌سازی ایران...

هشدار مهم بانک مرکزی به خریداران ارز/ مراقب این اتفاق باشید

به کزارش خبرگزاری خبرآنلاین، بانک مرکزی در اطلاعیه‌ای اعلام...

سناتور آمریکایی: وضعیت کنونی از زمان شروع جنگ علیه ایران به مراتب وخیم‌تر است

به گزارش خبرآنلاین، «جک رید» سناتور ارشد دموکرات و...

واکنش تند پکن به سفر مخفیانه رئیس‌جمهور تایوان

به گزارش خبرآنلاین، سفر ناگهانی و از پیش اعلام...

لپ‌تاپ‌هایمان خاموش است/اساتید برای دسترسی به اینترنت در صف می‌ایستند

آفتاب‌‌نیوز : علیرضا استقامتی در گفت‌وگو با...

تاثیر مصرف روزانه مولتی ویتامین ها در کُندشدن روند پیری

پایگاه خبری تحلیلی انتخاب (Entekhab.ir) : مهر:...

تبلیغات متنی