به گزارش خبرنگار مهر، نشستهای «استپ» (STEP) در رویداد جایزه مصطفی (ص) با هدف اشتراکگذاری دانش میان دانشمندان مسلمان برگزار میشود. استپ دهم، میزبان چهرههای بینالمللی برجستهای بود که دستاوردهایشان در مرزهای دانش حرکت میکند. از جمله این چهرهها، «علی اس. هادی» (Ali S. Hadi)، دانشمند مصری، استاد ممتاز دانشگاه آمریکایی قاهره بود.
دکتر علی اس. هادی از پژوهشگران برجسته حوزه آمار با سابقه تدریس و پژوهش در دانشگاههای معتبر بینالمللی، از جمله دانشگاه آمریکایی بیروت، استاد بازنشسته افتخاری دانشگاه کرنل و دانشگاه آمریکایی قاهره به شمار میرود.
حوزه فعالیت علمی وی شامل آمار پیشرفته، تحلیل داده و روشهای آماری کاربردی است و تاکنون آثار علمی متعددی در این زمینه منتشر کرده است. یکی از حوزه هایی که این دانشمند بر آن مسلط است، دادههای پرت (داده ای است که در فاصله ی غیرعادی از بقیه مقادیر داده در یک نمونه ی تصادفی از یک جمعیت مشاهده می شود) است.
این دانشمند جهان اسلام در گفتگو با خبرنگار مهر، در پاسخ به این پرسش که چرا تکیه بر یک آستانه مشخص (crisp cutoff) برای تشخیص دادههای پرت همیشه قابل اعتماد نیست، اظهار کرد: دادههای پرت یکی از چالشهای اصلی در فرآیند جمعآوری و تحلیل دادهها هستند، چرا که معمولاً در هر مجموعه داده، مقادیری وجود دارند که به شکل محسوسی با اکثریت دادهها متفاوتاند.
وی برای توضیح این موضوع مثال زد و گفت: اگر دادههای مربوط به درآمد افراد را جمعآوری کنید، ممکن است ناگهان با فردی مانند بیل گیتس مواجه شوید؛ در چنین شرایطی، او یک داده پرت محسوب میشود، زیرا فاصله معناداری با سایر دادهها دارد.
هادی با اشاره به تمرکز پژوهشهای خود بر دادههای چندمتغیره گفت: در این نوع دادهها، برخلاف تحلیل تکمتغیره، با مجموعهای از متغیرها سروکار داریم و همین مسئله شناسایی دادههای پرت را پیچیدهتر میکند. دادهها را میتوان در یک، دو یا سه بعد ترسیم کرد، اما در ابعاد بالاتر، این کار عملاً دشوار میشود و ناچاریم به روشهای عددی تکیه کنیم.
این دانشمند جهان اسلام افزود: برخی دادههای پرت در مرز میان دادههای عادی و غیرعادی قرار دارند؛ بنابراین اگر بخواهیم با یک نقطه آستانه مشخص درباره آنها تصمیم بگیریم، احتمال خطا افزایش مییابد. به همین دلیل از منطق فازی (Fuzzy Logic) استفاده میکنیم تا میزان پرت بودن دادهها را بهصورت تدریجی و در بازهای بین صفر تا یک تعیین کنیم. هرچه این مقدار به یک نزدیکتر باشد، احتمال پرت بودن داده بیشتر است.
هادی درباره مزیت روشهای فازی نسبت به الگوریتم کلاسیک BACON توضیح داد: الگوریتم BACON در نسخه اصلی خود مبتنی بر منطق قطعی (crisp) است، اما ما آن را به نسخه توسعهیافتهای با عنوان Fuzzy BACON ارتقا دادیم. در این مدل، دادهها صرفاً به دو دسته پرت و غیرپرت تقسیم نمیشوند، بلکه دادههایی که در ناحیه مرزی قرار دارند، در یک محدوده فازی ارزیابی میشوند.
وی با بیان اینکه مدلهای قطعی در واقع حالت خاصی از مدلهای فازی هستند، گفت: اگر پارامتر فازی فقط صفر یا یک باشد، عملاً همان مدل قطعی را داریم، اما زمانی که این پارامتر در بازه بین صفر و یک قرار میگیرد، مدل فازی شکل میگیرد و امکان تحلیل دقیقتر دادههای مرزی فراهم میشود.
این استاد آمار در تشریح تفاوت تجربی میان Fuzzy BACON و نسخه کلاسیک آن اظهار کرد: در مدل کلاسیک، یک آستانه ثابت وجود دارد و دادهها یا پرت هستند یا نیستند؛ اما در مدل فازی، یک محدوده تعریف میشود که در آن، میزان اطمینان نسبت به پرت بودن دادهها بهصورت تدریجی سنجیده میشود.
هادی همچنین به کاربرد این روش در انواع مختلف دادهها اشاره کرد و گفت: نسخه اولیه BACON عمدتاً برای دادههای عددی طراحی شده بود، اما روشهای جدید امکان تحلیل همزمان دادههای عددی و دستهای (categorical) را نیز فراهم کردهاند و این موضوع دامنه کاربرد آن را گستردهتر کرده است.
استاد ممتاز دانشگاه آمریکایی قاهره در بخش دیگری از این گفتوگو، به تازهترین پژوهشهای خود در حوزه خوشهبندی (Clustering) اشاره کرد و گفت: یکی از پروژههای اخیرم بر اندازهگیری فاصله میان خوشههای داده متمرکز است. در تحلیل خوشهای، پرسش اصلی این است که چگونه میتوان فاصله میان خوشهها را به شکلی دقیق اندازهگیری کرد.
او افزود: تاکنون روشهای مختلفی برای سنجش فاصله پیشنهاد شده، اما جدیدترین رویکرد، استفاده از «فاصله بیضوی» (Elliptical Distance) است. برخلاف فاصله اقلیدسی که بر فرض برابری واریانسها و استقلال متغیرها استوار است، فاصله بیضوی این محدودیتها را در نظر نمیگیرد و شرایط واقعیتر دادهها را منعکس میکند.
هادی در پایان با تشریح مزیت روش پیشنهادی خود گفت: این روش دو مسئله مهم را پوشش میدهد؛ نخست تفاوت واحدهای اندازهگیری و واریانس متغیرها، و دوم وابستگی میان متغیرها. در روشهای کلاسیک، متغیرهایی با واریانس بالا میتوانند بر تحلیل غلبه کنند و همچنین وابستگی میان متغیرها نادیده گرفته میشود، اما روش پیشنهادی ما این محدودیتها را برطرف کرده و دقت تحلیل خوشهای را به شکل محسوسی افزایش میدهد.
