کتاب تحلیل ‏داده: ‏رویکرد ‏کاربردی

کتاب تحلیل ‏داده: ‏رویکرد ‏کاربردی

149,000 تومان

تعداد صفحات

81

شابک

978-622-5572-03-4

فهرست
عنوان صفحه
فصـل اول 11
مقدمه 11
متدلوژی KDD 12
متدلوژی CPISP-DM 13
کلاس بندی 16
خوشه بندی 16
قواعد انجمنی 17
فصل دوم 42
DataSet 42
انواع فاصله 43
الگوریتم های خوشه بندی 44
نتیجه‌گیری 49
فصل سوم 51
معرفی KNIME 51
KNIME 51
طرح پروژه 57
فصل چهارم 65
تحلیل داده های تجاری 65
استخراج داده 65
الگوریتم های تحلیل داده 67
تهیه گزارش 67
فصـل پنجم 83
نتیجه‌گیری 83
منـابع و مآخـذ 85

 

 

 

در دهه¬های اخیر توانایی تولید نمودن و جمع¬آوری سریع داده¬ها از کسب‌وکارهای مختلف، دولت و پایگاه¬های داده¬های علمی به‌صورت نمایی افزایش داشته است. این امر سبب شده تا به آنالیز، تفسیر داده¬ها تمایل بیشتری پیدا شود. داده¬کاوی تکنیک¬هایی را فراهم می¬سازد که سازمان¬ها با استفاده از آن تکنیک¬ها قادر هستند تصمیم¬گیری و نتایج بهتری از داده¬های در دسترس داشته باشند. با پیشرفت فناوری اطلاعات، داده¬کاوی به‌صورت فزاینده¬ایی در حال تکامل است که می¬تواند اطلاعات و دانش مفید را از دیتابیس¬های مختلف استخراج کند(Boxall, 2017). بر اساس پیش¬بینی¬های انجام‌شده هر 20 ماه حجم داده¬های ذخیره‌شده در سطح جهان دو برابر می¬شود. این موضوع اهمیت استخراج دانش از این حجم انبوه داده را بیان می¬کند(Longbing Cao, 2018). داده¬کاوی اکتشاف دانش و آنالیز حجم زیادی از داده¬ها برای یافتن مدل¬های معنادار و الگوهای نهفته در داده¬هاست. با در نظر گرفتن حجم زیادی از داده¬های در دسترس در مورد تقاضای آب و عوامل مؤثر بر آن، داده¬کاوی یک روش مطالعه¬ی مناسب است. داده¬کاوی را می¬توان از چهار جنبه¬ی دامنه کاربرد، نوع مسئله، جنبه¬های فنی و ابزار مورداستفاده موردبررسی قرار دارد. دامنه¬ی کاربرد حوزه خاصی است که پروژه داده¬کاوی در آن انجام می¬شود. نوع مسئله کلاس خاصی از اهداف است که پروژه داده¬کاوی با آن در ارتباط است. جنبه¬های فنی مسئله داده¬کاوی، مسائل و مشکلاتی است که هنگام کار با داده و ساخت مدل با آن¬ها روبه¬رو می¬شویم. این چالش¬ها معمولاً در پروژه¬های داده¬کاوی رخ‌داده که برای رفع آن¬ها از متدهای گوناگون بهره گرفته. ابزار و روش¬ها نیز مشخص¬کننده تکنیکی است که در طول پروژه داده¬کاوی به‌منظور مدل¬سازی استفاده می¬شود (Al-Radaideh, 2018).
متدلوژی KDD
از دو دیدگاه مختلف می¬توان به داده¬کاوی نگریست. برخی داده¬کاوی را معادل پروسه استخراج دانش داده، تلقی می¬کنند. اما عده‌ای نیز داده¬کاوی را به‌عنوان یک گام مهم در پروسه استخراج دانش در نظر می¬گیرند.
پاک‌سازی داده¬ها: به‌منظور از بین بردن خطا که به‌صورت تصادفی در داده¬ها به وجود آمده است و عدم وجود ناسازگاری و اختلاف در ثبت داده¬ها لازم است ابتدا پاک‌سازی برای داده-ها صورت گیرد.
یکپارچه‌سازی داده¬ها: به مجموعه از داده¬های گردآوری‌شده در سازمان یا یک پدیده که به نحو مناسب دسته¬بندی و ذخیره¬سازی شده باشند، انبار داده گفته می¬شود. گاهی در پروژه-های داده¬کاوی نیاز است، از پایگاه داده¬های مختلف داده جمع‌آوری گردد. در این حالت پس از پاک‌سازی داده‌ها، یکپارچه کردن این داده¬ها صورت می¬گیرد و انبار داده ساخته می¬شود.
انتخاب داده¬ها: بر اساس اهداف پروژه از انبار داده ساخته شد، داده¬هایی را که استخراج دانش از آن¬ها در جهت برآورده سازی اهداف و حل مسئله هستند، انتخاب می¬گردند. انتخاب داده می¬تواند تکرار گردد؛ به این معنا که پس از مدل¬سازی و ارزیابی مدل در صورت نیاز می¬توان مجدداً از انبار داده، انتخاب داده صورت گیرد.
تبدیل داده: تبدیل داده عملی است که در ضمن آن می¬توان یک مشخصه موجود را به چندین مشخصه گسترش داد و یا از تجمیع مشخصه¬های موجود در داده¬های انتخاب‌شده، متناسب باهدف و الگوریتم انتخاب¬شده، یک مشخصه خاص را تولید نمود، تا در الگوریتم موردنظر به‌درستی به کار گرفته و نتایج آن به نحو مطلوب به کار گرفته شود.
داده¬کاوی: در این گام که مهم¬ترین پروسه استخراج دانش است؛ با اعمال الگوریتم و یا الگوریتم¬های هوشمند، الگوهای نهفته در داده¬ها استخراج می¬شود.
ارزیابی الگو: با به¬کارگیری شاخص¬های مطلوبیت می¬توان الگوهایی که جالب هستند را انتخاب نمود. این الگوها همان دانش استخراج‌شده ایی‌ هستند که ازنظر کاربر جالب و قابل‌استفاده در پروژه است.
نمایش دانش: در این گام که آخرین مرحله¬ی پروسه استخراج دانش است، الگوهایی که در مرحله¬ی ارزیابی جالب تشخیص داده¬شده¬اند، با استفاده از تکنیک¬های بصری سازی و نمایش دانش به نمایش گذارده می¬شوند(J.Faraway, 2009).
در پروسه استخراج دانش چهار مرحله¬ی نخست را می¬توان به‌عنوان پیش پردازنده‌ها در نظر گرفت. پیش‌پردازش داده¬ها، داده¬ها را برای به¬کارگیری صحیح در الگوریتم موردنظر آماده می¬کند. مرحله داده¬کاوی ممکن است با کاربر یا یک پایگاه دانش در تعامل باشد؛ به عبارتی در این مرحله که الگوریتم داده¬کاوی تعیین می¬شود، کاربر می¬تواند بر اساس درکی که از داده¬ها و اهداف مسئله دارد، پروسه داده¬کاوی را به سمتی سوق دهد که درنهایت دانش اکتشاف شده بتواند در حل مسئله کارساز باشد. دانش استخراج‌شده پس از ارائه به کاربر می¬تواند در یک پایگاه دانش ذخیره شود که در مرحله¬ی بعدی یا پروژه¬های آینده استفاده شود. همان‌طور که بیان شد در این دیدگاه، داده¬کاوی یکی از گام¬های استخراج دانش است، به دلیل اینکه الگوریتم¬های موردنظر در این مرحله به اجرا گذارده می¬شود و الگوها استخراج می¬شوند(Giovanni Felici, 2008)، . یادگیری ماشین تلاش می¬کند با استفاده از تکرار مدل¬های ریاضی، بین فعالیت¬های خاص یا طبقه¬بندی مجموعه¬ایی از ترکیبات و ویژگی¬های آن¬ها ارتباط برقرار کند (Yosipof, Guedes, & García-Sosa, 2018)
متدلوژی CPISP-DM
یکی از متدلوژی¬های رایج و قدرتمند در انجام پروژه¬های داده¬کاوی مدل استاندارد روبه¬رو شدن فرآیندهای صنعتی به داده¬کاوی است(Ayele, 2020).
CRISP-DM توسط سه شرکت مهم و پیشرو در پروژه¬های داده¬کاوی در سال 1996 میلادی ایجاد شد. این متدلوژی بر پایه¬ی کاربرد و تجربیات واقعی چگونگی پروژه¬های داده¬کاوی است. مدل فرآیند متداول برای داده¬کاوی خلاصه‌ایی از چرخه¬ی حیات یک پروژه داده¬کاوی را شامل می¬شود(Kristoffersen, Aremu, Blomsma, Mikalef, & Li, 2019). چرخه¬ی حیات یک پروژه داده¬کاوی از شش مرحله تشکیل‌شده است که وظایف و روابط بین آن¬ها در این چرخه مشخص می¬شود. در این چرخه توالی بین مراحل لزوماً مستقیم نبوده و امکان وجود حرکت رفت‌وبرگشت بین مراحل وجود دارد. هم‌چین خروجی حاصل از هر مرحله تعیین‌کننده مرحله¬ی بعد از خود است و تا زمانی که یک‌راه حل به دست نیاید، این گردش خاتمه نمی¬یابد. همچنین پردازش¬های پیشین در راه¬حل¬های قبلی خود یادگیری انجام می¬دهند(Azadeh-Fard, Megahed, & Pakdil, 2019).
همان¬طور که اشاره شد متدلوژی CRISP-DM فرایند داده¬کاوی را به شش گام تقسیم می-کند. درک کسب‌وکار، درک داده، آماده¬سازی داده، مدل‌سازی، ارزیابی و اجرا( به¬کارگیری دانش به‌دست‌آمده) شش گام این متدلوژی هستند. در ادامه توضیح مختصری از هرکدام ارائه می¬شود.
درک مسئله:‌ درک مسئله مهم¬ترین مرحله از انجام پروژه داده¬کاوی است که در آن مسئله ازنظر نیازمندی و اهداف مورد تجزیه‌وتحلیل قرار می¬گیرد. درنهایت دانش موردنیاز به‌صورت یک مسئله داده¬کاوی بیان می¬شود و طرح اولیه برای دستیابی به اهداف ارائه می¬شود. به‌طورکلی تعیین اهداف تجاری، تعیین وضعیت، تعیین اهداف داده¬کاوی و تولید طرح پروژه در این مرحله انجام می¬شوند.
درک داده: ابتدا گردآوری و تهیه داده صورت می¬گیرد سپس کیفیت داده¬ها بررسی می¬شود. در این مرحله می¬توان تعیین زیرمجموعه¬های جالب‌توجه، فرضیه¬هایی راجعه اطلاعات پنهان در داده¬ها را مشخص کرد. درک داده¬ها درصورتی‌که به نحو مناسبی انجام گیرد می-تواند به دستیابی هرچه سریع¬تر و بهتر به هدف داده¬کاوی تأثیر بسزایی داشته باشد.
آماده¬سازی داده¬ها: فعالیت¬ها و ابزارهای مختلف موردنیاز در آماده¬سازی داده خام اولیه برای استفاده در ابزار مدل‌سازی در این مرحله قرار دارند. استفاده از جدول، نمودارها و پاک¬سازی داده در این مرحله انجام می¬شود. به‌طورکلی می¬توان گفت انتخاب داده، پاک‌سازی داده، ساخت داده و جمع¬آوری داده در این مرحله به انجام می¬رسد. بیش از 60 درصد از زمان انجام یک پروژه داده¬کاوی به‌طورمعمول برای آماده¬سازی داده اختصاص می¬یابد، که نشان از اهمیت و تأثیر بسزای داده¬ها و نحوه¬ی آماده¬سازی و انتخاب آن¬ها برای انجام پروژه داده¬کاوی و استخراج دانش از آن¬ها است.
مدل‌سازی: تکنیک¬های مختلف داده¬کاوی در این مرحله انتخاب‌شده و بر روی‌داده‌های آماده‌سازی شده به کار گرفته می¬شود. در برخی مسائل امکان عقب¬گرد در این مرحله وجود دارد، درواقع امکان شکل¬دهی خاص داده¬ها برای استفاده از الگوریتم موردنظر محیا می¬شود.
ارزیابی: قبل از گسترش نهایی مدل، مهم است که کاملاً ارزیابی شوند تا اطمینان حاصل شود که مدل اهداف تعیین‌شده‌ی اولیه را برآورد می¬سازد. ارزیابی نتیجه¬ها و بازبینی فرآیندها در این گام صورت می¬گیرد.
توسعه: ساخت مدل می¬تواند دانش استخراج‌شده را در اختیار گذارد اما این دانش نیاز به سازمان‌دهی دارد، تا بتواند در جهت حل مسئله استفاده شود. گام توسعه بسته به حل مسئله می¬تواند شامل تهیه گزارش برای بخش¬های مختلف یا اجرای یک فرآیند داده¬کاوی دیگر باشد. در این مرحله تحلیل¬گر بیشتر از دیدگاه مشتری به دانش استخراج‌شده و داده-ها می¬نگرد و در حقیقت باعث کاربردی شدن مدل توسعه داده‌شده، می¬شود(Wiemer, Drowatzky, & Ihlenfeldt, 2019).
تکنیک¬های مختلف داده‌کاوی: فن‌های متنوعی در داده¬کاوی موجود است که الگوهای متفاوتی را تولید می¬کنند. پرکاربردترین متدهای داده¬کاوی کلاس¬بندی و خوشه¬بندی و کشف قواعد انجمنی است که اقدام به تولید الگوهای خاص خود می¬کنند. در ادامه توضیح مختصر از هرکدام ارائه می¬شود.
کلاس¬بندی
دسته¬بندی و پیش‌بینی دو نوع عملیات برای مدل‌سازی و توصیف داده¬ها و فهم و پیش¬بینی رفتار آینده آن¬ها است. داده¬های گسسته و طبقه‌بندی به کمک مدل¬های دسته‌بندی و داده¬های پیوسته به کمک مدل‌های پیش¬بینی و رگرسیون مدل‌سازی می¬شوند. به عبارتی با استفاده از روش¬های نظارتی رابطه¬ی بین مشخصه¬های ورودی (متغیرهای مستقل) با یک یا چند مشخصه هدف (متغیرهای وابسته) کشف می¬شوند؛ که رابطه¬ی مذکور با یک ساختار تحت عنوان مدل نشان داده می¬شود. با داشتن مدل و مقادیر مربوط به مشخصه-های ورودی می¬توان مقدار مربوط به مشخصه¬های هدف را پیش¬بینی کرد. درواقع اگر داده¬ها به‌صورت گسسته باشند، می¬توان مشخصه هدف را به یک یا چندطبقه از پیش تعریف‌شده نسبت داد و اگر داده¬ها به‌صورت پیوسته باشند، مقدار پیش¬بینی برای متغیر هدف را به دست می¬آوریم. ساخت مدل یک پروسه دومرحله‌ای است. در مرحله اول که یادگیری نام دارد؛ با استفاده از زیرمجموعه¬ایی از داده¬ها که برچسب کلاس آن¬ها مشخص است (داده¬های آموزشی) مدل‌سازی انجام می¬گیرد و سپس در مرحله دوم با استفاده از مجموعه داده¬های آزمایشی، اعتبارسنجی مدل صورت می¬گیرد. خوشه¬بندی و درخت رگرسیون از مهم¬ترین و مشهورترین ابزارهای مورداستفاده در حوزه¬های مختلف تحقیقاتی هستند. در صورت عدم وجود ارتباط بین متغیرهای وابسته و مستقل، درخت رگرسیون روش قدرتمندتری برای تحلیل مسائل پیش¬بینی و کلاس¬بندی است، که به‌صورت خاص در صورت وجود حجم زیادی از داده¬ها بسیار به کار گرفته‌شده است. انجام کلاس¬بندی دارای الگوریتم¬های متفاوتی ازجمله؛ درخت کارت، شبکه عصبی و ماشین بردار پشتیبان و … است(Saritas & Yasar, 2019).

تعداد صفحات

81

شابک

978-622-5572-03-4

نقد و بررسی‌ها

هنوز بررسی‌ای ثبت نشده است.

.فقط مشتریانی که این محصول را خریداری کرده اند و وارد سیستم شده اند میتوانند برای این محصول دیدگاه(نظر) ارسال کنند.