149,000 تومان
تعداد صفحات | 81 |
---|---|
شابک | 978-622-5572-03-4 |
فهرست
عنوان صفحه
فصـل اول 11
مقدمه 11
متدلوژی KDD 12
متدلوژی CPISP-DM 13
کلاس بندی 16
خوشه بندی 16
قواعد انجمنی 17
فصل دوم 42
DataSet 42
انواع فاصله 43
الگوریتم های خوشه بندی 44
نتیجهگیری 49
فصل سوم 51
معرفی KNIME 51
KNIME 51
طرح پروژه 57
فصل چهارم 65
تحلیل داده های تجاری 65
استخراج داده 65
الگوریتم های تحلیل داده 67
تهیه گزارش 67
فصـل پنجم 83
نتیجهگیری 83
منـابع و مآخـذ 85
در دهه¬های اخیر توانایی تولید نمودن و جمع¬آوری سریع داده¬ها از کسبوکارهای مختلف، دولت و پایگاه¬های داده¬های علمی بهصورت نمایی افزایش داشته است. این امر سبب شده تا به آنالیز، تفسیر داده¬ها تمایل بیشتری پیدا شود. داده¬کاوی تکنیک¬هایی را فراهم می¬سازد که سازمان¬ها با استفاده از آن تکنیک¬ها قادر هستند تصمیم¬گیری و نتایج بهتری از داده¬های در دسترس داشته باشند. با پیشرفت فناوری اطلاعات، داده¬کاوی بهصورت فزاینده¬ایی در حال تکامل است که می¬تواند اطلاعات و دانش مفید را از دیتابیس¬های مختلف استخراج کند(Boxall, 2017). بر اساس پیش¬بینی¬های انجامشده هر 20 ماه حجم داده¬های ذخیرهشده در سطح جهان دو برابر می¬شود. این موضوع اهمیت استخراج دانش از این حجم انبوه داده را بیان می¬کند(Longbing Cao, 2018). داده¬کاوی اکتشاف دانش و آنالیز حجم زیادی از داده¬ها برای یافتن مدل¬های معنادار و الگوهای نهفته در داده¬هاست. با در نظر گرفتن حجم زیادی از داده¬های در دسترس در مورد تقاضای آب و عوامل مؤثر بر آن، داده¬کاوی یک روش مطالعه¬ی مناسب است. داده¬کاوی را می¬توان از چهار جنبه¬ی دامنه کاربرد، نوع مسئله، جنبه¬های فنی و ابزار مورداستفاده موردبررسی قرار دارد. دامنه¬ی کاربرد حوزه خاصی است که پروژه داده¬کاوی در آن انجام می¬شود. نوع مسئله کلاس خاصی از اهداف است که پروژه داده¬کاوی با آن در ارتباط است. جنبه¬های فنی مسئله داده¬کاوی، مسائل و مشکلاتی است که هنگام کار با داده و ساخت مدل با آن¬ها روبه¬رو می¬شویم. این چالش¬ها معمولاً در پروژه¬های داده¬کاوی رخداده که برای رفع آن¬ها از متدهای گوناگون بهره گرفته. ابزار و روش¬ها نیز مشخص¬کننده تکنیکی است که در طول پروژه داده¬کاوی بهمنظور مدل¬سازی استفاده می¬شود (Al-Radaideh, 2018).
متدلوژی KDD
از دو دیدگاه مختلف می¬توان به داده¬کاوی نگریست. برخی داده¬کاوی را معادل پروسه استخراج دانش داده، تلقی می¬کنند. اما عدهای نیز داده¬کاوی را بهعنوان یک گام مهم در پروسه استخراج دانش در نظر می¬گیرند.
پاکسازی داده¬ها: بهمنظور از بین بردن خطا که بهصورت تصادفی در داده¬ها به وجود آمده است و عدم وجود ناسازگاری و اختلاف در ثبت داده¬ها لازم است ابتدا پاکسازی برای داده-ها صورت گیرد.
یکپارچهسازی داده¬ها: به مجموعه از داده¬های گردآوریشده در سازمان یا یک پدیده که به نحو مناسب دسته¬بندی و ذخیره¬سازی شده باشند، انبار داده گفته می¬شود. گاهی در پروژه-های داده¬کاوی نیاز است، از پایگاه داده¬های مختلف داده جمعآوری گردد. در این حالت پس از پاکسازی دادهها، یکپارچه کردن این داده¬ها صورت می¬گیرد و انبار داده ساخته می¬شود.
انتخاب داده¬ها: بر اساس اهداف پروژه از انبار داده ساخته شد، داده¬هایی را که استخراج دانش از آن¬ها در جهت برآورده سازی اهداف و حل مسئله هستند، انتخاب می¬گردند. انتخاب داده می¬تواند تکرار گردد؛ به این معنا که پس از مدل¬سازی و ارزیابی مدل در صورت نیاز می¬توان مجدداً از انبار داده، انتخاب داده صورت گیرد.
تبدیل داده: تبدیل داده عملی است که در ضمن آن می¬توان یک مشخصه موجود را به چندین مشخصه گسترش داد و یا از تجمیع مشخصه¬های موجود در داده¬های انتخابشده، متناسب باهدف و الگوریتم انتخاب¬شده، یک مشخصه خاص را تولید نمود، تا در الگوریتم موردنظر بهدرستی به کار گرفته و نتایج آن به نحو مطلوب به کار گرفته شود.
داده¬کاوی: در این گام که مهم¬ترین پروسه استخراج دانش است؛ با اعمال الگوریتم و یا الگوریتم¬های هوشمند، الگوهای نهفته در داده¬ها استخراج می¬شود.
ارزیابی الگو: با به¬کارگیری شاخص¬های مطلوبیت می¬توان الگوهایی که جالب هستند را انتخاب نمود. این الگوها همان دانش استخراجشده ایی هستند که ازنظر کاربر جالب و قابلاستفاده در پروژه است.
نمایش دانش: در این گام که آخرین مرحله¬ی پروسه استخراج دانش است، الگوهایی که در مرحله¬ی ارزیابی جالب تشخیص داده¬شده¬اند، با استفاده از تکنیک¬های بصری سازی و نمایش دانش به نمایش گذارده می¬شوند(J.Faraway, 2009).
در پروسه استخراج دانش چهار مرحله¬ی نخست را می¬توان بهعنوان پیش پردازندهها در نظر گرفت. پیشپردازش داده¬ها، داده¬ها را برای به¬کارگیری صحیح در الگوریتم موردنظر آماده می¬کند. مرحله داده¬کاوی ممکن است با کاربر یا یک پایگاه دانش در تعامل باشد؛ به عبارتی در این مرحله که الگوریتم داده¬کاوی تعیین می¬شود، کاربر می¬تواند بر اساس درکی که از داده¬ها و اهداف مسئله دارد، پروسه داده¬کاوی را به سمتی سوق دهد که درنهایت دانش اکتشاف شده بتواند در حل مسئله کارساز باشد. دانش استخراجشده پس از ارائه به کاربر می¬تواند در یک پایگاه دانش ذخیره شود که در مرحله¬ی بعدی یا پروژه¬های آینده استفاده شود. همانطور که بیان شد در این دیدگاه، داده¬کاوی یکی از گام¬های استخراج دانش است، به دلیل اینکه الگوریتم¬های موردنظر در این مرحله به اجرا گذارده می¬شود و الگوها استخراج می¬شوند(Giovanni Felici, 2008)، . یادگیری ماشین تلاش می¬کند با استفاده از تکرار مدل¬های ریاضی، بین فعالیت¬های خاص یا طبقه¬بندی مجموعه¬ایی از ترکیبات و ویژگی¬های آن¬ها ارتباط برقرار کند (Yosipof, Guedes, & García-Sosa, 2018)
متدلوژی CPISP-DM
یکی از متدلوژی¬های رایج و قدرتمند در انجام پروژه¬های داده¬کاوی مدل استاندارد روبه¬رو شدن فرآیندهای صنعتی به داده¬کاوی است(Ayele, 2020).
CRISP-DM توسط سه شرکت مهم و پیشرو در پروژه¬های داده¬کاوی در سال 1996 میلادی ایجاد شد. این متدلوژی بر پایه¬ی کاربرد و تجربیات واقعی چگونگی پروژه¬های داده¬کاوی است. مدل فرآیند متداول برای داده¬کاوی خلاصهایی از چرخه¬ی حیات یک پروژه داده¬کاوی را شامل می¬شود(Kristoffersen, Aremu, Blomsma, Mikalef, & Li, 2019). چرخه¬ی حیات یک پروژه داده¬کاوی از شش مرحله تشکیلشده است که وظایف و روابط بین آن¬ها در این چرخه مشخص می¬شود. در این چرخه توالی بین مراحل لزوماً مستقیم نبوده و امکان وجود حرکت رفتوبرگشت بین مراحل وجود دارد. همچین خروجی حاصل از هر مرحله تعیینکننده مرحله¬ی بعد از خود است و تا زمانی که یکراه حل به دست نیاید، این گردش خاتمه نمی¬یابد. همچنین پردازش¬های پیشین در راه¬حل¬های قبلی خود یادگیری انجام می¬دهند(Azadeh-Fard, Megahed, & Pakdil, 2019).
همان¬طور که اشاره شد متدلوژی CRISP-DM فرایند داده¬کاوی را به شش گام تقسیم می-کند. درک کسبوکار، درک داده، آماده¬سازی داده، مدلسازی، ارزیابی و اجرا( به¬کارگیری دانش بهدستآمده) شش گام این متدلوژی هستند. در ادامه توضیح مختصری از هرکدام ارائه می¬شود.
درک مسئله: درک مسئله مهم¬ترین مرحله از انجام پروژه داده¬کاوی است که در آن مسئله ازنظر نیازمندی و اهداف مورد تجزیهوتحلیل قرار می¬گیرد. درنهایت دانش موردنیاز بهصورت یک مسئله داده¬کاوی بیان می¬شود و طرح اولیه برای دستیابی به اهداف ارائه می¬شود. بهطورکلی تعیین اهداف تجاری، تعیین وضعیت، تعیین اهداف داده¬کاوی و تولید طرح پروژه در این مرحله انجام می¬شوند.
درک داده: ابتدا گردآوری و تهیه داده صورت می¬گیرد سپس کیفیت داده¬ها بررسی می¬شود. در این مرحله می¬توان تعیین زیرمجموعه¬های جالبتوجه، فرضیه¬هایی راجعه اطلاعات پنهان در داده¬ها را مشخص کرد. درک داده¬ها درصورتیکه به نحو مناسبی انجام گیرد می-تواند به دستیابی هرچه سریع¬تر و بهتر به هدف داده¬کاوی تأثیر بسزایی داشته باشد.
آماده¬سازی داده¬ها: فعالیت¬ها و ابزارهای مختلف موردنیاز در آماده¬سازی داده خام اولیه برای استفاده در ابزار مدلسازی در این مرحله قرار دارند. استفاده از جدول، نمودارها و پاک¬سازی داده در این مرحله انجام می¬شود. بهطورکلی می¬توان گفت انتخاب داده، پاکسازی داده، ساخت داده و جمع¬آوری داده در این مرحله به انجام می¬رسد. بیش از 60 درصد از زمان انجام یک پروژه داده¬کاوی بهطورمعمول برای آماده¬سازی داده اختصاص می¬یابد، که نشان از اهمیت و تأثیر بسزای داده¬ها و نحوه¬ی آماده¬سازی و انتخاب آن¬ها برای انجام پروژه داده¬کاوی و استخراج دانش از آن¬ها است.
مدلسازی: تکنیک¬های مختلف داده¬کاوی در این مرحله انتخابشده و بر رویدادههای آمادهسازی شده به کار گرفته می¬شود. در برخی مسائل امکان عقب¬گرد در این مرحله وجود دارد، درواقع امکان شکل¬دهی خاص داده¬ها برای استفاده از الگوریتم موردنظر محیا می¬شود.
ارزیابی: قبل از گسترش نهایی مدل، مهم است که کاملاً ارزیابی شوند تا اطمینان حاصل شود که مدل اهداف تعیینشدهی اولیه را برآورد می¬سازد. ارزیابی نتیجه¬ها و بازبینی فرآیندها در این گام صورت می¬گیرد.
توسعه: ساخت مدل می¬تواند دانش استخراجشده را در اختیار گذارد اما این دانش نیاز به سازماندهی دارد، تا بتواند در جهت حل مسئله استفاده شود. گام توسعه بسته به حل مسئله می¬تواند شامل تهیه گزارش برای بخش¬های مختلف یا اجرای یک فرآیند داده¬کاوی دیگر باشد. در این مرحله تحلیل¬گر بیشتر از دیدگاه مشتری به دانش استخراجشده و داده-ها می¬نگرد و در حقیقت باعث کاربردی شدن مدل توسعه دادهشده، می¬شود(Wiemer, Drowatzky, & Ihlenfeldt, 2019).
تکنیک¬های مختلف دادهکاوی: فنهای متنوعی در داده¬کاوی موجود است که الگوهای متفاوتی را تولید می¬کنند. پرکاربردترین متدهای داده¬کاوی کلاس¬بندی و خوشه¬بندی و کشف قواعد انجمنی است که اقدام به تولید الگوهای خاص خود می¬کنند. در ادامه توضیح مختصر از هرکدام ارائه می¬شود.
کلاس¬بندی
دسته¬بندی و پیشبینی دو نوع عملیات برای مدلسازی و توصیف داده¬ها و فهم و پیش¬بینی رفتار آینده آن¬ها است. داده¬های گسسته و طبقهبندی به کمک مدل¬های دستهبندی و داده¬های پیوسته به کمک مدلهای پیش¬بینی و رگرسیون مدلسازی می¬شوند. به عبارتی با استفاده از روش¬های نظارتی رابطه¬ی بین مشخصه¬های ورودی (متغیرهای مستقل) با یک یا چند مشخصه هدف (متغیرهای وابسته) کشف می¬شوند؛ که رابطه¬ی مذکور با یک ساختار تحت عنوان مدل نشان داده می¬شود. با داشتن مدل و مقادیر مربوط به مشخصه-های ورودی می¬توان مقدار مربوط به مشخصه¬های هدف را پیش¬بینی کرد. درواقع اگر داده¬ها بهصورت گسسته باشند، می¬توان مشخصه هدف را به یک یا چندطبقه از پیش تعریفشده نسبت داد و اگر داده¬ها بهصورت پیوسته باشند، مقدار پیش¬بینی برای متغیر هدف را به دست می¬آوریم. ساخت مدل یک پروسه دومرحلهای است. در مرحله اول که یادگیری نام دارد؛ با استفاده از زیرمجموعه¬ایی از داده¬ها که برچسب کلاس آن¬ها مشخص است (داده¬های آموزشی) مدلسازی انجام می¬گیرد و سپس در مرحله دوم با استفاده از مجموعه داده¬های آزمایشی، اعتبارسنجی مدل صورت می¬گیرد. خوشه¬بندی و درخت رگرسیون از مهم¬ترین و مشهورترین ابزارهای مورداستفاده در حوزه¬های مختلف تحقیقاتی هستند. در صورت عدم وجود ارتباط بین متغیرهای وابسته و مستقل، درخت رگرسیون روش قدرتمندتری برای تحلیل مسائل پیش¬بینی و کلاس¬بندی است، که بهصورت خاص در صورت وجود حجم زیادی از داده¬ها بسیار به کار گرفتهشده است. انجام کلاس¬بندی دارای الگوریتم¬های متفاوتی ازجمله؛ درخت کارت، شبکه عصبی و ماشین بردار پشتیبان و … است(Saritas & Yasar, 2019).
تعداد صفحات | 81 |
---|---|
شابک | 978-622-5572-03-4 |
.فقط مشتریانی که این محصول را خریداری کرده اند و وارد سیستم شده اند میتوانند برای این محصول دیدگاه(نظر) ارسال کنند.
نقد و بررسیها
هنوز بررسیای ثبت نشده است.