چكيده :
داده كاوي عبارت است از فرآيند خودكار کشف دانش و اطلاعات از پايگاه هاي داد ه اي.
اين فرآيند تكنيك ها يي از هوش مصنوعي را بر روي مقادير زيادي داده اعمال مي كند تا روندها , الگوها و روابط مخفي را كشف كند. ابزار هاي داده كاوي براي كشف دانش يا اطلاعات از داده ها به كاربراتكا نمي كنند، بلكه فرآيند پيشگويي واقعيت ها را خود كار مي سازند. اين تكنولوژي نوظهور، اخيرًا به طورفزايند هاي در تحليل ها مورد استفاده قرار مي گيرد.
مقدمه:
امروزه با حجم عظيمي از داده ها روبرو هستيم. براي استفاده از آنها به ابزارهاي كشف دانش نياز داريم. داده كاوي به عنوان يك توانايي پيشرفته در تحليل داده و كشف دانش مورد استفاده قرار مي گيرد. داده كاوي در علوم (ستاره شناسي،…)در تجارت (تبليغات، مديريت ارتباط با مشتري،…) در وب (موتورهاي جستجو،…) در مسايل دولتي (فعاليتهاي ضد تروريستي،…) كاربرد دارد. عبارت داده كاوي شباهت به استخراج زغال سنگ و طلا دارد. داده كاوي نيز اطلاعات را كه در انبارهاي داده مدفون شده است، استخراج مي كند.
در واقع هـــــدف از داده كاوي ايجاد مدل هايي براي تصميم گيري است. اين مدلها رفتارهاي آينده را براساس تحليلهاي گذشته پيش بيني مي كنند. به كاربردن داده كاوي به عنوان اهرمي براي آماده سازي داده ها و تكميل قابليتهاي انباره داده ، بهترين موقعيت را براي به دست آوردن برتريهاي رقابتي ايجاد مي كند.
داده كاوي (Data mining)
داده كاوي (Data mining) يك فرايند تحليلي است كه جهت كاوش داده ها (معمولاً حجم بالاي داده ها و يا داده هاي تجاري و مربوط به بازار) و جستجوي الگوهاي پايدار يا روابط سيستماتيك مابين متغيرها بكار ميرود وسپس با اعمال الكو هاي شناسايي شده به زير مجمو عه هاي جديد صحت داده هاي بدست آمده بررسي ميگردد. هدف نهايي داده كاوي پيشگويي است.
سازما نها معمو ً لا روزانه مقدار زيادي داده را در انجام عمليات تجاري خود توليد و جمع آوري مي كنند.
امروزه براي اين پايگاه هاي داده شركتي عجيب نيست كه مقدار داده هاي آن در حد ترابايت باشد. با اين حال علي رغم ثروت اطلاعاتي عظيم ذخيره شده حدس زده مي شود كه فقط ٪ ٧كل داد ه هايي كه جمع آوري مي شود مورد استفاده قرار مي گيرد. بدين ترتيب مقدار قابل توجهي داده كه بدون شك حاوي اطلاعات ارزشمند سازماني است تا حد زيادي دست نخورده باقي مي ماند. در محيط تجاري عصر اطلاعات، كه هر روز رقابتي تر مي شود مي توان با استخراج اطلاعات از داد ه هاي استفاده نشده به تصميم گيري هاي استراتژيك دست يافت. در طول تاريخ تحليل داده ها از طريق رگرسيون و ديگر تكنيك هاي آماري انجام شده است. براي استفاده از اين تكنيكها ، لازم است كه تحليل گر مدلي خلق كند و فرآيند گر دآوري دانش را سازمان دهد.
اما امروزه اين روش ها به تنهايي كافي نيستند و بايد از روش ها ي خود كار استفاده كرد.
داده كاوي عبارت است از فرآيند خودكار کشف دانش و اطلاعات از پايگاه هاي داد ه اي.
اين فرآيند تكنيك ها يي از هوش مصنوعي را بر روي مقادير زيادي داده اعمال مي كند تا روندها ، الگوها و روابط مخفي را كشف كند. ابزار هاي داده كاوي براي كشف دانش يا اطلاعات از داده ها به كاربر اتكا نمي كنند، بلكه فرآيند پيشگويي واقعيت ها را خود كار مي سازند. اين تكنولوژي نوظهور، اخيرًا به طور
فرايند هاي در تحليل ها مورد استفاده قرار مي گيرد
داده كاوي پيشگويانه رايج ترين نوع داده كاوي است و با برنامه هاي كاربردي تجاري در ارتباط مستقيم است . فرايند داده كاوي از سه مرحله تشكيل شده است.
ا- كاوش اوليه (initial exploration )
2-ساختن مدل يا شناسايي الگو بوسيلة سنجيدن اعتبار وصحت داده ها
3-گسترش
1- مرحله كاوش(Exploration) :
اين مرحله معمولاً با آماده سازي داده ها آغاز مي شود كه تشكيل شده است از پاكسازي داده ها (cleaning data) ،تغير شكل داده ها، انتخاب زير مجموعه اي از ركورد ها (در زماني كه مجموعه اي از داده ها با حجم بالايي از فيلد ها موجود است) و انجام دادن برخي عمليات اوليه جهت قرار دادن متغير ها در يك بازة قابل مديريت،كه بستگي به روش آماري اي كه مورد نظراست دارد و پس ازآن به طبيعت مسئله تحت بررسي مربوط مي شود.
مرحلهُ اول فرآيند داده كاوي مي تواند در هر جايي از گسترة ، انتحاب يك روش مستقيم پيشگويي تا يك روش تجزيه و تحليل با جزئيات وزحمت بالا قرار داشته باشد .(جهت كسب اطلاعات وسيع تر به قسمت EDA مراجعه كنيد).
اين مدل جهت شناسايي متغيير هايي كه بيشتر از همه با موضوع مرتبط هستند و جهت مشخص كردن پيچيدگي و طبيعت كلي مسئله در مراحل بعدي مورد استفاده قرار ميگيرد .
مرحله 2- ساختن مدل و معتبر سازي (model building and validation):
اين مرحله در گير در نظر گرفتن مدل هاي مختلف،و انتخاب بهترين آنها بر اساس كارايي در پيشگويي ، مي باشد.(براي مثال تعييرات سوُالات را تشريح كندونتايج ثابتي در مقابل نمونه ها توليد كند.) شايد اين به نظر عمليات ساده اي بيايد. ولي در واقع بعضي از مواقع در گير يكسري فرآيند هاي پيچيده مي شود.روشهاي مختلفي جهت رسيدن به اين هدف وجود دارد كه آنها را روشهاي ارزيابي رقابتي مدل ها (competitive evaluation of models ) مي نامند كه مدلهاي مختلفي را بر روي يك دادهُ ثابت اعمال مي كند و سپس كارايي آنها بررسي مي شود تا بهترين آنها انتخاب گردد. اين روش ها كه در خيلي از مواقع به عنوان هستهُ داده كاوي پيشگويانه تلقي مي گردند و شامل طبقه بندي كردن(bagging،)، ترقي دادن (boosting ) ،انباشتن (stacking )و يادگيري غير نمادين(meta learning )ميباشند.
مرحلة3- مرحلهُ گسترش Deployment):( :
در آخرين مرحله مدلي كه به عنواي بهترين مدل در مرحلة قبلي انتخاب شده بود بر روي داده هاي جديد به منظور توليد پيشگويي يا بر آورد خروجي مورد انتظار اعمال ميگردد.
شهرت داده كاوي به طور روز افزوني به عنوان يك ا بزار مديريت تجاري داده ها شهرت يافته است و انتظار مي رود بتواند ساختار هاي دانشي را نمايان سازد كه در شرايط عدم قطعيت تصميمات گرفته شده را هدايت كند.
روشهاي تحليلي جديد خصوصاً جهت نشان دادن مسائل مرتبط با داده كاوي تجاري ،اخيراًبسيار مورد توجه بوده اند (به عنوان مثال درخت هاي رده بندي) ، با اين حال داده كاوي هنوز مبتني بر قواعد مفهومي روشهاي دستيابي قديمي نظير آناليز اكتشافي داده ها (EDA) و مدلساري ميباشد. وقسمت هايي از دست آورد هاي عمومي و بعضي از تكنيك هاي خاص خود را با آنها به اشتراك مي گذارد.
بهرحال تفاوت زيادي در نفطه نظرات و اهداف داده كاوي و روش آناليز اكتشافي داده ها (EDA) وجود دارد . داده كاوي بيشتر متمايل به كاربردها است تا طبيعت اصلي پديدة مورد بررسي.به عبارت ديگر داده كاوي كمتر به شناسايي روابط خاص موجود بين متغيرها مي پردازد.براي مثال آشكار كردن توابع و انواع داده اي خاصي كه بر روابط تعاملي و چند متغيري كه بين متغيرها وجود دارد هدف اصلي داده كاوي نمي باشد. در عوض توجه خود را به ايجاد روشي كه بتواند پيشگويي قابل استفاده اي توليد كند معطوف مي سازد. و به همين دليل است كه داده كاوي از بين دست آوردهاي جعبه سياه(black box ) در كاوش داده ها يا اكتشاف دانش مقبوليت بيشتري دارد. و نه تنها از روش هاي سنتي آناليز اكتشافي داده ها (exploratory data analysis (استفاده مي كند بلكه از روشهايي مانند شبكه هاي عصبي ( Neural network ) كه مي تواند پيشگويي هاي معتبري توليد كند ولي قادر به شناسايي طبيعت خاص روابط داخلي بين متغيرهايي كه پيشگويي ها بر اساس آنها صورت گرفته است نميباشد سود مي جويد.
مفاهيم تعيين كننده در داده كاوي:
1-هم پيوندي (Bagging) :
هم پيوندي قابليتي براي يافتن روابط ناشناخته موجود در اطلاعات است. اين روابط مواردي از قبيل اينكه
حضور مجموعه اي از مقولات اشاره به اين دارند كه مجموعه مقولات ديگري نيز احتمالا وجود دارند را
شامل مي شود. اين قابليت اساسًا روشي است براي اينكه كشف كنيم چه مقولاتي به هم مي خورند. از آن با عنوان تحليل سبد بازار يا گروه بندي خويشاوندي نيز ياد مي شود.
براي مثال، گزار شهاي هم پيوندي چنين شكلي دارند:”٪ ٨٠ مشترياني كه كالاي A را خريداري نموده اند، كالاي Bرا نيز خريده اند.” درصد خاص وقوع وقايع) مثلا ٪ ٨٠ اين نمونه ( را فاكتور اطمينان هم پيوندي B و A مي نامند. همچنين ممكن است هم پيوندي هاي چند گانه وجود داشته باشد: “٪ ٧٥ مشترياني كه كالاي D را خريداري نموده اند، كالاي Cرا نيز خريده اند.”
كاربرد هاي هم پيوندي عبارتند از برنامه ريزي موجودي، برنامه ريزي تبليغاتي براي فروش و مراسلات بازاريابي مستقيم.
مفهوم Bagging (راُي دادن به رده بندي و بدست آوردن متوسط مسائلي كه داراي متغير هايي با مقادير متوسط وابسته ميباشند)و در گسترة داده كاوي اعمال مي گردد تا طبقه بندي هاي پيشگويانه را از مدل هاي چندگانه يا از يك نوع مدل ، براي درك اطلاعات تركيب كند . و همچنين جهت نشان دادن بي ثبا تي ماندگار نتايج در زماني كه مدل هاي پيچيده به مجموعه هاي كوچك داده ها اعمال مي شوند به كار مي رود. فرض كنيد كه عمل داده كاوي شما مي خواهد يك مدل جهت طبقه بندي پيشگويا نه بسازد و مجموعة داده هاي آن نسبتاً كوچك است . شما مي توانيد به صورت متوالي مجموعه داده ها را به نمونه هاي كوجكتر تقسيم كنيد و اعمال كنيد همانند رده بندي درختي تا به نمونه مورد نظر برسيد.در عمل درخت هاي متفاوتي براي نمونه هاي منقاوت بسط داده ميشوند.يكي از روش هاي استنتاج يك پيشگويي استفاده از قالب درختي در نمونه هاي مختلف است و پس از آن برخي نظريات بر روي آن اعمال مي گردد.
طبقه بندي نهايي طبقه بندي است كه عموماً توسط درخت هاي متفاوت پيشگويي مي شود. توجه داشته باشيد كه برخي از تركيب هاي وزن دار از پيشگويي ها نيز محتمل است و عموماً مورد استفاده قرار مي گيرد. يك الگوريتم پيشرفته جهت ايجاد وزن براي پيشگويي هاي وزن دار يا voting رويه هاي Boosting هستند.
2-طبقه بندي) Boosting ( :
طبقه بندي در واقع ارزشيابي ويژگيهاي مجموعه اي از داد ه ها و سپس اختصاص دادن آ نها به مجموعه اي از گرو ههاي از پيش تعريف شده است. اين متداولترين قابليت داده كاوي مي باشد. داده كاوي را مي توان با استفاده از داده هاي تاريخي براي توليد يك مدل يا نمايي از يك گروه بر اساس ويژگي هاي داده ها به كار برد. سپس مي توان از اين مدل تعريف شده براي طبقه بندي مجموعه داده هاي جديد استفاده كرد. همچنين مي توان با تعيين نمايي كه با آن سازگار است براي پيش بيني هاي آتي از آن بهره گرفت.
براي مثال، براي طبقه بندي تخلفات و كلاهبرداري ها در صنعت و اعتبارات، با استفاده از قابليت طبقه بندي داده كاوي، سيستم با استفاده از مجموعه اي از پيش تعريف شده از داده ها، تعليم مي بيند. مجموعه داد ه هاي مورد استفاده در اين نمونه بايد هم شامل مجموعه هايي از داد ه هاي معتبر باشند و هم شامل مجموعه هايي از داد ه هاي جعلي. از آن جا كه اين داده ها از پيش تعريف شده هستند، سيستم پارامترهايي را مي يابد كه مي توان از آ نها براي تشخيص طبقه بندي هاي متمايز استفاده كرد. بعد از تعيين پارامترها سيستم از آ نها براي طبقه بندي هاي بعدي بهره خواهد گرفت.
در واقع سيستم هايي كه بر اساس طبقه بندي داده كاوي مي كنند، دو مجموعه ورودي دارند: يك مجموعه آموزشي كه در آن داده هايي كه به طور پيش فرض در دسته هاي مختلفي قرار دارند، همراه با ساختار دسته بندي خود وارد سيستم مي شوند و سيستم بر اساس آ نها به خود آموزش مي دهد يا به عبارتي پارامترهاي دسته بندي را براي خود مهيا مي كند. دسته ديگر از ورودي هايي هستند كه پس از مرحله آموزش و براي تعيين دسته وارد سيستم مي شوند.
تكنيك هاي داده كاوي كه براي دسته بندي به كار مي آيند عمومًا شامل تكنيك هاي شبكه عصبي و درخت تصميم گيري هستند.
يكي از متغيرهاي مهم در قابليت دسته بندي برآورد يا امتياز دهي است. هر جا طبقه بندي يك پاسخ دو تايي مثل بله و خير ارائه كند، برآورد يك درجه بندي مثل پايين بالا و يا متوسط ارائه مي كند. در اصل برآورد، چندين نما در امتداد مجموعه اي از داده ها فراهم مي آورد كه نشان دهنده درجه تعلق يك نما به يك مجموعه است.
كاربرد قابليت طبقه بندي در بازاريابي هدف، تصويب اعتبار و بررسي تقلب، است
مفهوم Boosting در گسترة داده كاوي پيشگويانه مطرح مي شود و جهت ايجاد مدل ها و طبقه بندي هاي چند گانه مورد استفاده قرار مي گيرد و همچنين براي استنتاج وزن ها براي تركيب پيشگويي ها از آن مدل ها در يك پيشگويي واحد يا يك ردة پيشگويي به كار مي رود.
يك الگوريتم ساده جهت Boosting به صورت اين صورت عمل مي كند كه ابتدا كار را با اعمال كردن روش هايي بر روي learning data آغاز مي كنيم (مانند طبقه بندي كننده هاي درختي )و به هر مشاهده وزن يكساني نسبت مي دهيم. طبقه بندي هاي پيشگويي شده را محاسبه كنيد و وزن هاي تعيين شده را بر روي مشاهدات نمونه مورد بررسي كه نسبت معكوس با دقت طبقه بندي دارند اعمال كنيد .به عبارت ساده تر به مشاهداتي كه طبقه بندي آنها دشوار تر است وزن بيشتري را اختصاص بدهيد .(يعني نرخ عدم طبقه بندي آنها بالا بوده است) و وزن كمتري را به آنهايي كه طبقه بندي آنها ساده تر بوده است نسبت بدهيد.(نرخ عدم طبقه بندي پايين بوده است )،سپس طبقه بندي را دوباره به داده هاي وزن دار اعمال كنيدو در طي چرخه بعدي اين عمليات را ادامه دهيد.
Boosting يك توالي از طبقه بندي ها ايجاد مي كند .كه هر توالي طبقه بندي در اين رونديك متخصص در امر طبقه بندي مشاهداتي كه پيش بيني آنها ساده نبوده است خواهد بود ، وسپس پيشگويي هاي انجام شده توسط طبقه بندي كننده هاي مختلف با يكديگر تركيب مي شوند تا يك پيشگويي يا طبقه بندي بهينه ارائه دهند.
٣.الگوهاي ترتيبي :
قابليتهاي ترتيبي هم مانند قابليتهاي هم پيوندي اين خاصيت را دارند كه مي توانند وقايع را با هم مرتبط
كنند. اين كار در هم پيوندي سنتي يا تحليل سبد بازار مجموعه اي از مقولات را به عنوان مقولات پشت سر هم ارزيابي مي كنند و از ابزارهايي مثل سر يهاي زماني هم براي تعيين ترتيب بهره مي برند. الگوهاي ترتيبي علاوه بر آن، اين قابليت جديد را هم دارند كه مي توانند فاصله زماني بين دو واقعه را تخمين بزنند. براي مثال اين قابليت امكان نتيجه گيري هايي از قبيل اينكه ” ٪ ٨٠ افرادي كه كامپيوتر مي خرند ظرف مدت ١ سال چاپگر هم خواهند خريد.” را مهيا مي نمايد. به اين ترتيب شناسايي نوعي از خريدهاي مقدماتي كه پتانسيل خريدهاي بعدي را در آينده تعيين مي كنند، عملي مي شود. در نتيجه از چنين تحليل هايي به شدت در تبليغات فروش استفاده مي گردد.
٤.خوشه بنديclustering
قابليت خوشه بندي وظيفه تقسيم يك گروه ناهمجنس را در چندين زير گروه بر عهده دارد. اين فرايند يك تفاوت اساسي با طبقه بندي دارد. زيرا در اين مدل هيچ گونه الگوي آموزشي نداريم. خوشه بندي به طور خودكار ويژگي هاي متمايز كننده زير گروه ها را تعريف مي كند و زير گرو هها را سازماندهي مي نمايد. و به عنوان نوعي قابليت داده كاوي غير مستقيم مطرح است.
اين ابزارها پايگاه داده را بر اساس ويژگي هاي داده ها به چندين بخش تقسيم مي كنند و گروه هايي از ركوردها را به وجود مي آورند كه نمايانگر يا صاحب صفت خاصي هستند. الگوهاي به دست آمده در ذات پايگاه داده نهادينه هستند و نشانگر بعضي اطلاعات غير منتظره و در عين حال ارزشمند شركتي باشند.
مثالي از كاربردهاي خوشه بندي در تقسيم بندي افرادي است كه به پرسش نامه اي پاسخ داده اند. از اين كار مي توان در تقسيم بندي مشترياني كه به پرسش نامه ها پاسخ داده اند در گروه هايي كه اعضاي آن بيشترين شباهت را با يكديگر و بيشترين تفاوت را با اعضاي ساير گروه ها دارند، استفاده كرد. بعد از بخش بندي جمعيتي با استفاده از قابليت خوشه بندي مي توان بر روي خوشه هاي مشخص شده تحليل هم پيوندي انجام داد تا خريدهاي به هم مرتبط يك گروه جمعيتي خاص شناخته شوند.
كاربرد خوشه بندي براي تعيين بهترين گروه هاي جامعه شناختي براي اهداف خاص بازاريابي است.
اغلب از خوشه بندي به عنوان اولين گام فراين دهاي داده كاوي ياد مي شود كه قبل از ساير فرايند ها براي شناسايي گروهي از ركوردهاي مرتبط با هم كه بعدًا بتوانند نقطه آغاز تحليلها باشند بر روي ركوردها اعمال مي شود
تهيه مقدمات جهت داده كاوي :
تهيه مقدمات لازم و انجام پاكسازي از جمله مراحل بسيار مهّم ولي عموماً غفلت شده در فرايند داده كاوي مي باشد. مصداق آن در بسياري از پروژه هاي داده كاوي است كه در آنها مجموعه اي از داده ها بوسيلة برخي روشهاي اتوماتيك بدست مي آيند. عموماً روشهايي كه توسط آنها داده هاحمع آوري مي شوند بدرستي كنترل نشده است ( مثل web )و مثلاً داده ها ممكن است شامل مقادير خارج از محدوده باشند
(مثل 100- = درآمد) و تركيبات غير ممكن داده ها و آناليز داده هايي كه با دقت انتخاب نشده اند در چنين مسائلي منجر به توليد نتايج منحرف كننده اي مي گردد. خصوصاً در داده كاوي پيشگويانه اين مشكل بسيار محسوس است.
كاهش داده ها در داده كاوي:
عبارت كاهش داده ها در مقولة داده كاوي بيشتر در مورد پروژه هايي به كار مي رود كه هدف آن ها اين است كه اطلاعات موجود در مجموعه داده هاي بزرگ را به صورت قطعه هايي كوچكتر و قابل اداره ، جمع آوري و در هم بياميزند. روش هاي كاهش داده مي توانند شامل جدول بندي هاي ساده(tabulation) ،تجمع(agrigation) يا روش هاي پيچيده ديگري نظير clustering، (clustering principal component analysis) باشند.
گسترش داده كاوي Deployment :
مفهوم گسترش داده كاوي اشاره به درخواست مدل براي پيشگويي يا طبقه بندي يك دادة جديد دارد. پيش از آنكه يك مدل يا مجموعه اي از مدل هاي مشخص براي يك درخواست خاص مشخص شود افراد معمولاً مي خواهند كه اين روشها را طوري گسترش دهند كه پيشگويي ها يا طبقه بندي هاي پيشگويانه به سرعت براي داده هاي جديد بكار گرفته شوند به عنوان مثال يك شركت كارت اعتباري تمايل دارد كه يك مدل يا مجموعه اي از مدل هاي مشخص را (مثل neural network meta learning , ) به كار گيرد تا تراكنش هايي را كه احتمال تقلب در آنها زياد است مشخص كند.
آناليز (Drill – down analysis
مفهوم آناليزDrill-down داده كاوي بدين منظور به كار مي رود تا كاوش تعاملي داده ها را به صورت دقيق در پايگاه داده ها داده ها مشخص كند.فرآيند آناليز Drill-down با در نظر گرفتن برخي طبفه بندي ها بر مبني مقاديري از متغيرهاي مهّم مانند (جنسيت ، نواحي جغرافيايي و غيره ) آغاز مي شود . آمار و ارقام گوناگون،جداول و نمودارها و انواع ديگر خلاصه هاي گرافيكي مي توانند براي هر دسته نتيجه شوند.سپس ممكن است بخواهيد آناليزهاي متغير ي بر روي داده هاي هر گروه انحام دهيد براي مثال ممكن است شخصي بخواهد آناليزهاي متغيري برروي داده هاي بدست آمده در مورد مردان ساكن غرب بدست آورد در اينجا ارقام و نمودارهاي گوناگوني بدست مي آيد كه مي توانند تحت آناليزهاي متغير بر اساس متغيرهايي نظير سن،درآمد وغيره به دسته هاي كوچكتر ي طبقه بندي گردند . در پايين ترين سطح داده هاي خام قراردارند . براي مثال شما ممكن است بخواهيد داده هاي مربوط به مشتريان مرد ساكن در يك ناحيه با ميزان درآمد مشخص و غيره را تحت بررسي قرار دهيد و به آن مشتريان سرويس هاي خاصي را ارائه دهيد.
انتخاب خصيصه ها Feature selection :
يكي از مراحل اوليه در داده كاوي پيشگويانه انتخاب خصيصه ها است. زماني كه در مرحلة مدل سازي واقعي (يا حتي در مراحل اوليه عمليات كاوشگري ) مجموعة داده ها شامل متغيرهاي بيش از اندازة مجاز شده باشد پيشگويي ها از ميان يك ليست بزرگ از كانديدا ها انتخاب مي شوند(براي مثال زماني كه داده ها توسط يك روش اتوماتيك (كامپيوتري ) جمع آوري ميشوند. عير معمول به نظر نمي رسد كه هزاران يا صدها هزار پيشگويي بدست آيد. روش هاي استاندارد آناليز جهت داده كاوي پيشگويانه نظير آناليز شبكه هاي عصبيneural network)طبقه بندي ودرخت هاي بازگشتي (classification and regression trees) و مدل هاي خطي تقسيم يافته (generalized linear models) زماني كه تعداد پيشگويي ها از چند صد متغير تجاوز مي كند غير عملي به نظر مي رسند.
انتخاب خصيصه ها يك زير مجموعه از خصيصه ها را از ميان يك ليست بزرگ از پيشگويي هاي كانديد بدون در نظر گرفتن ارتباط بين پيشگويي ها يا اينكه ارتباط آنها خطي است ،يا يكنواخت انتخاب مي كند.
به همين دليل اين روش كه عنوان يك پيش پردازنده براي داده كاوي پيشگويانه عمل ميكند با مجموعه هاي قابل اداره اي از پيشگويي ها بدست آيد كه اين مجموعه ها احتمالا با يكديگر مرتبط اند،و سپس آناليز هاي بيشتري بر روي آنها صورت مي گيرد تا طبقه بندي شوند.
فراگيري ماشينMachine learning
فراگيري ماشين يا تئوري فراگيري محاسبه اي يا جملاتي نظير اين در زمينه داده كاوي جهت مشخص كردن كاربرد مدل هاي مناسب عمومي يا الگوريتم هاي طبقه بندي در داده كاوي پيشگويانه به كار مي رود. به عكس روش هاي استاتيك قديمي در آناليز داده ها كه معمولا با برآورد پارامترهاي جمعيتي بوسيلة ارجاعات استاتيك بدست مي آمدند.در داده كاوي (و فراگيري ماشين )معمولا ًبه دقت پيشگويي ها(طبقه بندي هاي پيشگويانه) بدون توجه به اينكه مدل يا روش هاي به كاررفته جهت ايجاد پيشگويي ها قابل تفسير و توجيح اند ، پرداخته مي شود. يك نمونه خوب از به كاربر بردن اين روش ها در داده كاوي پيشگويانه(predictive data mining) ،شبكه هاي عصبي يا فراگيري هاي غير نمادين(meta learning) يا غيره بد ست مي آيد.
اين روش ها معمولاً درگير گنجاندن مدل هاي عمومي كه هيچ مبناي استدلالي يا درك تئوريتيكي به عنوان زير بناي فرآيند ها ندارند در عوض اين روش ها جهت توليد پيشگويي هاي دقيق يا طبقه بندي ها در نمونه هاي crossvalidation عرضه مي شوند.
Meta-learning (فراگيري غير نمادين) :
مفهوم meta-learning در حيطة داده كاوي پيشگويانه جهت تركيب پيشگويي ها از چند مدل به كار مي رود.به خصوص زماني به كار مي رود كه نوع مدل هايي كه در پروژه وجود دارند بسيار متفاوت باشند. اين رويه در اين مقدمه همچنين به بسته سازي (تعميم پشته) stack generalization اشاره مي كند.
فرض كنيد پروژه داده كاوي شما شامل 300 دسته بندي است همانند chaid و c &RTو آناليز تفكيك كننده خطي (linear discriminant analysis) و شبكه هاي عصبي هر كدام يك طبقه بندي پيشگويانه را براي يك نمونه cross validation محاسبه مي كند تجربه نشان داده است كه تركيب پيشگويي هاي انجام شده توسط چند روش معمولاً پيشگويي هاي دقيق تري را بدست مي دهد تا نتايجي كه از يك روش بدست مي آيد .پيشگويي هاي بدست آمده از دسته بندي هاي مختلف مي توانند به عنوان ورودي يك meta-learner مورد استفاده قرار گيرد،و meta-learner پيشگويي هاي انجام شده را جهت ايجاد يك دسته بندي پيشگويانه بهينة نهايي تركيب مي كند. براي مثال دسته بندي هاي پيشگويانه(predicted classifications) شامل دسته بندي در ختي مدل خطي
(tree classifiers) و دسته بندي شبكه هاي عصبي(neural network classifiers) مي توانند به عنوان متغيرهاي ورودي به يك ابر طبقه بندي كنندة شبكه هاي عصبي داده شوند و از داده ها درك مي كند كه چگونه پيشگويي ها انجام شده توسط مدل هاي مختلف را تركيب كند.و بيشترين دقت را در طبقه بندي ايجاد كند.
مدل هاي داده كاوي:
در محيط هاي تجارتي ،پروژه هاي داده كاوي پيچيده نياز دارند كه مسائل متخصصين ، سهامداران، ادارات مختلفي را در يك سازمان هماهنگ كنند.
در فرهنگ داده كاوي چهارچوب هاي كاري مختلفي جهت ارائه يك طرح براي تنظيم فرآيند جمع آوري اطلاعات ، آناليز اطلاعات ، انتشار نتايج و پياده سازي نتايج و نظارت بر پيشرفت كار پيشنهاد شده است. يكي از اين مدل ها CRIP (فرآيندهاي استاندارد cross-indostry براي داده كاوي )است كه اواسط سال 1990 توسط ائتلاف شركت هاي اروپايي به عنوان يك استاندارد غير خصوصي فرآيند داده كاوي ارائه شد. اين دستاورد عمومي سلسله مراحل زير را براي پروژه هاي داده كاوي بر مي شمارد.
SHAPE \* MERGEFORMAT
فهم كار (business understanding) |
فهم داده |
مدلسازي(modeling) |
ارزيابي(evaluation) |
گسترش(deployment) |
آماده |
يك دستاورد ديگر (متدولوژي six sigma )كه يك متدولوژي مبتني بر داده و خوش ساختار است وجهت از بين بردن معايب ، افت و كنترل كيفيت در تمامي انواع توليدات ، ارائه خدمات ،مديريت و ديگر فعاليت هاي تجاري به كار مي رود . اين مدل اخيراً در صنعت آمريكا بسيار رايج شده است و به نظر مي رسد كه در جهان نيز موفقيت هايي كسب كند.
اين مدل از مراحلي كه مراحل DMAIC ناميده مي شود تشكيل شده است .
يك چهارچوب كاري ديگر از اين نوع دستآوردي است كه توسط موُسسه SAS پيشنهاد شد به نام SEMMA
(sample) نمونه ß (Explore) كاوش ß ويرايش ß مدل سازي ß ارزيابي((assess
كه بيشتر به فعاليت هاي تكنيكي كه در پروژه هاي داده كاوي درگير آن ميباشيم مي پردازد.
تمام مدلهاي ذكر شده به اين فرآيند توجه دارند كه متدولوژي هاي داده كاوي را در يك سازمان بگنجانند.يا به عبارتي چگونه داده ها را به اطلاعات تبديل كنند و چگونه سهامداران را درگير كنند.و اينكه چگونه اطلاعات را به فرمي توزيع كنند كه به راحتي توسط سهامداران قابل تبديل به منابعي جهت تصميم گيري هاي استراتژيكي شوند.
برخي ابزارهاي نرم افزاري براي داده كاوي به صورتي طراحي و مستند شده اند كه مخصوص يكي از چهارچوب هاي كاري ذكر شده باشند.
فرايند داده كاوي در مديريت ارتباط با مشتري :
داده كاوي يكي از عناصر مديريت ارتباط با مشتري است و مي تواند به حركت شركتها به سمت مشتري محوري كمك كند. فرايند داده كاوي در مديريت ارتباط با مشتري به صورت زير است .
داده هاي خام از منابع مختلفي جمع آوري مي شوند و از طريق استخراج، ترجمه و فرايندهاي فراخواني به انبار داده اين مديريت وارد مي شوند. در بخش مهيـــاسازي داده، داده ها از انبار خارج شده و به صورت
يك فرمت مناسب براي داده كاوي در مي آيند.بخش كشف الگو شامل چهار لايه است:
1 – سوالهاي تجاري مانند توصيف مشتري،2 – كاربردها مانند امتيازدهي، پيش گويي،3 – روشها مانند سري هاي زماني، طبقه بندي،4 – الگوريتم ها. در اين بخش روشهاي داده كاوي با كاربرد مخصوص خود براي پاسخ به سوالهاي تجاري كه به ذهن مي رسند، الگوريتم هايي را استخراج مي كنند و از اين الگوريتم ها براي ساخت الگو استفاده مي شود. در بخش تجزيه و تحليل الگو، الگوها به يك دانش مفيد و قابل استفاده تبديل مي شوند و پس از بهبود آنها، الگوهايي كه كارا محسوب مي شوند در يك سيستم اجرايي به كار گرفته خواهند شد.
داده كاوي پيشگويانه (Predictive data mining) :
عبارت داده كاوي پيشگويانه معمولاً براي مشخص كردن پروژه هاي داده كاوي به كار مي رود كه هدف آنها مشخص كردن يك مدل استاتيك يا شبكه هاي عصبي ويا مجموعه اي از مدل ها است كه بتواند واكنش برخي مسائل مورد توجه ما را پيشگويي كند. به عنوان مثال يك مشترك كارت اعتباري ممكن است بخواهد داده كاوي پيشگويانه را به كار گيرد و از يك مدل يا مجموعه اي از مدل ها استفاده كند تا تراكنش هايي كه احتمال تقلب در آنها زياد است را مشخص كند. انواع ديگر پروژه هاي داده كاوي ممكن است در واقع بيشتر كاوشگرايانه باشند(مانند مشخص كردن گروه و بخشي كه مشتري به آن تعلق دارد) كه در اين موارد تشريح بوسيله روش
Drill down و روشهاي كاوشگرايانه به كار گرفته مي شوند . كاهش داده ها(data reduction) را مي توان به عنوان يكي ديگر از اهداف داده كاوي بر شمرد.(به عنوان مثال جمع آوري و تركيب اطلاعاتي كه در مجموعه هاي بسيار بزرگي از داده ها قرار دارند به فرمي كه قابل اداره كردن باشند).
تعميم پشته ايstacked generalization:
مفهوم stacked generalization در حيطة داده كاوي پيشگويانه جهت تركيب پيشگويي ها از چند مدل به كار مي رود.به خصوص زماني به كار مي رود كه نوع مدل هايي كه در پروژه وجود دارند بسيار متفاوت باشند. اين رويه در اين مقدمه همچنين به بسته سازي (تعميم پشته) stack generalization اشاره مي كند.
فرض كنيد پروژه داده كاوي شما شامل 300 دسته بندي است همانند chaid و c &RTو آناليز تفكيك كننده خطي (linear discriminant analysis) و شبكه هاي عصبي هر كدام يك طبقه بندي پيشگويانه را براي يك نمونه cross validation محاسبه مي كند تجربه نشان داده است كه تركيب پيشگويي هاي انجام شده توسط چند روش معمولاً پيشگويي هاي دقيق تري را بدست مي دهد تا نتايجي كه از يك روش بدست مي آيد .پيشگويي هاي بدست آمده از دسته بندي هاي مختلف مي توانند به عنوان ورودي يك meta-learner مورد استفاده قرار گيرد،و stacked generalization r پيشگويي هاي انجام شده را جهت ايجاد يك دسته بندي پيشگويانه بهينة نهايي تركيب مي كند. براي مثال دسته بندي هاي پيشگويانه(predicted classifications) شامل دسته بندي در ختي مدل خطي
(tree classifiers) و دسته بندي شبكه هاي عصبي(neural network classifiers) مي توانند به عنوان متغيرهاي ورودي به يك ابر طبقه بندي كنندة شبكه هاي عصبي داده شوند و از داده ها درك مي كند كه چگونه پيشگويي ها انجام شده توسط مدل هاي مختلف را تركيب كند.و بيشترين دقت را در طبقه بندي ايجاد كند.
روشهاي ديگري كه جهت تركيب پيشگويي هاي انجام شده توسط چند مدل وجود دارد عبارتند از Bagging ,Boodting
متن كاوي text mining :
در حالي كه داده كاوي معمولاً داده ها را در قالب داده هاي عددي تشخيص مي دهد ولي بيشتر مواقع اطلاعات بسيار مهّم در قالب متن ذخيره مي شوند. بر خلاف داده هاي عددي متن ها داراي ساختاري غير مشخص ميباشندو بررسي آنها مشكل است . متن كاوي معمولاًتشكيل شده است از آناليز متن ها بوسيلة استخراج عبارات ، مفاهيم و غيره.
آماده سازي متن هاي پردازش شده در اين حالت جهت آناليز هاي آتي بوسيلة روشهاي داده كاوي عددي (به عنوان مثال جهت مشخص كردن وقوع همزمان مفاهيم ،عبارات كليدي ،نام ها ، آدرس ها ، نام محصولات وغيره )صورت مي گيرد.
انبار داده ها Data Warehousing
Data warehousing را اينگونه تعريف ميكنند كه فرآيندي است كه مجموعه دادههاي چندمتغييره بزرگ را به گونهاي ذخيره ميكند. كه بازيابي اطلاعات را جهت مقاصد تحليلي تسهيل كند.
موثرترين معماري Data warehousing قادر خواهد بود كه تمام دادههاي قابل استفاده در سيستم گسترده مديريت اطلاعات را تركيب كند يا حداقل بر همة آنها دستيابي پيدا كند. اين كارها با استفاده از تكنولوژيهايي مناسبي جهت پيوسته كردن مديريت بانكهاي اطلاعاتي صورت ميگيرد (نظير Oracle، Sybase، MS SQL SERVER).
تكنولوژي انبار دادهها شامل مجموعهای مفاهيم و ابزارهای جديدی است كه با فراهم آوردن اطلاعات از دانشگران (افراد اجرايي، مدير و تحليلگر) در تصميم گيری پشتيباني مينمايد. دليل اصلي ساخت انبار داده ها، بهبود كيفيت اطلاعات در سازمان است، در واقع دسترسي به دادهها از هر جا درون سازمان دادهها از منابع داخلي و خارجي تهيه ميشوند و به اشكال گوناگون از دادههای ساختاری گرفته تا دادههای ساخت نيافته مانند فايلهاي متني يا چند رسانهای، در مخزني مجتمع ميشوند. انبار دادهها يا DWH مخزني از اين دادههاست كه به صورتي قابل درك در دسترس كاربران نهايي كسب و كار قرار ميگيرد.
از اواسط سالهای 1980 نياز به انبار دادهها به وجود آمد و دريافتند كه سيستم های اطلاعاتي بايد به صورت سيستمهای عملياتي و اطلاعاتي مشخص شوند. سيستمهای عملياتي از فعاليتهای روزانه كسب و كار پشتيباني مينمايند و برای پاسخگويي سريع به ارتباطات از پيش تعريف شده مناسب هستند. دادههای عملياتي ارائه بيدرنگ و فعلي وضعيت كسب و كار ميباشند. اما سيستمهای اطلاعاتي براي مديريت و كنترل كسب وكار به كار ميروند. اين سيستمها از تجزيه و تحليل دادهها براي اتخاذ تصميم درباره عملكرد آني و آتي سازمان پشتيباني ميكنند و برای در خواستهاي موردی، پيچيده و به طور عمده فقط خواندني طراحي شدهاند.دادههاي اطلاعاتي تاريخي هستند، به عبارتي بيانگر ديدگاه ثابتي از كسب وكار در يك دوره زماني ميباشند.
مشخصات انبار داده ها :
چهار خصوصيت اصلي انبار داده عبارتند از :
• موضو ع گر ا: هر انبار داده داده هاي مرتبط با يک موضوع خاص را در خود نگاه مي دارد و اين داده ها را به منظور استخراج مفاهيم و نتايج خاصي به شكلي ويژه سازماندهي مي کند. بدين ترتيب سرعت جستجوها بسيار بالا خواهد بود. انبار داده براي پاسخگويي به پرسشهاي مختلف در مورد يک موضوع خاص بهينه سازي مي شود.
• مجتمع : در سيستمهاي مختلف داده ها ممکن است از جنبه هاي مختلفي با هم نامتناسب باشند. مثلا منابع داده در کشورهاي مختلف با زمان و تاريخهاي مختلف ذخيره شد هاند. و يا منابعي که از ماشين هاي مختلف هستند در اعداد، حروف و ديگر فيلدها متناسب با محدوديتهاي ماشين، سيستم عامل و تطابق با استانداردهاي مختلف متفاوت هستند. با توجه به مختلف بودن منابع انبا رداده، قبل از ذخيره سازي آ نها در انبار داده براي تأمين يکپارچگي تکنيکهاي پاکسازي داد هها ٣ و مجتمع سازي به کار ميرود. با توجه به اين موضوع که داد ه ها زير نظر مديريت واحدي ذخيره سازي مي شوند، داد ه هاي سازگاري خواهيم داشت که داشتن
چنين سازگاري در ساير سيستم ها مثل سيستمهاي شبکه اي و توزيعي ناممکن است.
• متغير با زمان: داد ه ها در انبا رداده براي تهيه اطلاعات تاريخي به کار مي روند.
هر ساختار کليدي در انبار داده شامل عنصر زمان يا همان مهر زماني است اين مهر زماني به عنوان کليدي به ساير جداول عمل مي کند. در سيستم انبار داده داده ها هرگز به روز درآوري نميشوند. بلكه داد ه هاي جديد و يا تغيير يافته با مهرهاي زماني جديد به انبار اضافهمي شوند.
• غير فرار: داد ه هاي انبا رداده هميشه از لحاظ فيزيكي مجزا هستند ، و هيچگاه نيازي به تغيير و به روز
درآوري نخواهند داشت. با توجه به اين موضوع، انبار داده مثل پايگاه داد ه هاي معمولي احتياجي به پردازش تراکنش، بازگرداندن فرايند و مکانيزم کنترل تصادم ندارد. علاوه بر اين نيازي به ايجاد و دسترسي انحصاري به داد ه ها نخواهيم داشت. فقط به دو فعاليت کليدي احتياج داريم :
· بارکردن داد ه ها
· دسترسي به داده ها
سيستم هاي انبار داده :
سيستم انبار دادهها (DWS) شامل انبار دادهها و همه مولفههايي است كه براي ساخت، دستيابي و نگهداری DWH به كار ميروند. انبار دادهها بخش مركزی سيستم انبار دادهها را تشكيل ميدهد. گاهي اوقات انبار دادهها حجم عظيمي از اطلاعات را در واحدهای منطقي كوچكتر به نام Data Mart نگهداري ميكند. مولفه آماده سازی، مسووليت كسب يا دريافت دادهها را بر عهده دارد. اين مولفه شامل همه برنامهها وبرنامههای كاربردیای است كه مسوول استخراج دادهها از منابع عملياتي هستند. مولفه دستيابي شامل برنامههای كاربردی مختلف (OLAP يا برنامههای كاربردی داده كاوی) است كه امكان استفاده از اطلاعات ذخيره شده در انبار دادهها را فراهم ميآورند.
مولفه مديريت Metadata، وظيفه مديريت، تعريف و دستيبابي به انواع مختلف Metadata را بر عهده دارد. در اصل ،Metadata “دادههايي درباره دادهها” يا “دادههايي است كه مفهوم دادهها را توصيف ميكنند”. انواع مختلف Metadata در انبار دادهها وجود دارند. مثلا اطلاعاتي درباره منابع عملياتي، ساختار دادههاي DWH و كارهايي كه در حين ساخت، نگهداري و دستيبابي به DWH انجام ميشوند. نياز به Metadata شناخته شده است. پياده سازي يك DWS منسجم ،كار پيچيده و دشواري است و شامل دو فاز مي باشد. درفاز اول كه پيكربندي DWS نام دارد، ديدگاه مفهومي انبار دادهها مطابق با نيازمنديهای كاربر مشخص ميشود. سپس منابع دادهای دخيل و روش استخراج و بار گذاري در انبار دادهها تعيين ميگردد. سرانجام، درباره پايگاه دادههای مورد نظر و روشهای دستيبابي دادهها تصميم گيری خواهد شد. پس از بار گذاري اوليه، در فاز عمليات DWS بايد دادههای انبار دادهها به منظور منظم refresh شوند.
معماري هاي انبار داده :
معماري دولايه:
شمايي از اين معماري در شکل 1 نشان داده است . اين معماري از 4 مرحله تشکيل شده است .
1-داده ها از فايلها ي و بانکهاي اطلاعاتي مختلف گرفته مي شوند .
2- داده هاي منابع مختلف قبل از لود شودن يکپارچه مي شوند.
3-Data ware house بوجود مي آيد که شامل داده هاي جرئي و نيز خلا صه داده هاست. هدف از آن پشتيباني از فر آيند تصميم گيري است . Data ware house استفاده مي کنند.
4-کاربران با استفاده از ابزارها و پرس و جوها و data mining از داده هاي data ware house استفاده مي کنند.
براي شرکتهاي بزرگ بامنابع ناهمگون اين روش با شکل مواجه مي شود همچنين اين معماري از توزيع پشتيباني بعمل نمي آورد لذا معماري ديگري بنام معماري سه لايه توسط دولين پشنهاد شد .
معماري سه لايه دولين :
اين معماري داراي لايه هاي زير مي باشد :
1-سيستمهاي عملياتي و داده ها
2-enterprise data marehouse
3-Data mart ها.
يک enterprise data marehouse (EDW ) يک انبار داده متمرکز و يکپارچه است که نقطه کنترل و تنها منبع همه داده هايي که براي کاربران نهايي به منظور تصميم گيري قابل دسترسي اند ،به شمار مي رود .بعنوان نقطه کنترل کيفيت و يکپارچگي داده ها را کنترل مي کند و نيز تاريخچه اي از داده هاي حساس به زمان نگه مي دارد.
کاربران دوست ندارند با حجم زيادي اطلاعات که بخش اعظم آن بايستي از آنها ارتباطي ندارند درگير شوند Data mart ، يک data Wrehouse است که دامنه آن محدود نشده است و با انتخاب و خلاصه کردن دادهها از EDW بوجود مي آيد هر Data mart براي گروه خاصي از تقاضا ها طراحي شده است . EDW و mart Data به شرکت اجازه مي دهد تا داده هايي که از تصميم گيري پشتيباني بعمل مي آورند را براي گروههاي مختلف کاربران customize کند لذا مي توان از فوايد پردازش توزيع شده استفاده بعمل آورد. تبديل منابع داده ناهمگون به قالبي که براي تصميم گيري مناسبي باشد داراي پيچدگي زيادي مي باشد.
OLAP (فرآيند آناليز آن لاين) Online analytic processing:
عبارت فرآيند آناليز مستقيم OLAP (يا آناليز سريع دادههاي چند بعدي اشتراكي FASMI). به تكنولوژي اطلاق ميشود. كه به كاربران بانكهاي اطلاعاتي چند بعدي اجازه ميدهد تا بصورت آن لاين پرس و جوهاي توصيفي يا مقايسهاي (ديده) و پرس و جوهاي تحليلي از دادهها توليد كنند. توجه داشته باشيد كه بر خلاف نام OLAP آناليزهاي انجام شده در آن نبايد در واقع به صورت آن لاين باشند (يا real – time) و اين عبارت به اين منظور به كار ميرود. كه نشان دهندة آناليز بانكهاي اطلاعاتي چند بعدي (واضح است كه ميتواند شامل اطلاعات به روز شده ديناميك باشد) بوسيله پرس و جوهاي چند بعدي موثر كه به انواع دادهاي مختلف ارجاع ميكنند باشد.
تسهيلات OLAP ميتواند در يك سيستم تركيبي بانك اطلاعاتي گنجانده شود تا به تحليلگر و اداره كنندهگان سيستم امكان نظارت بر عملكرد كار و بازار را ميدهد. (به عنوان مثال ميتوان جنبههاي مختلف فرآيندهاي صنعتي يا تعداد تراكنشهاي تكميل شده در مكانهاي مختلف را در نظر گرفت).
نتيجة نهايي تفكيكهاي OLAP ميتواند بسيار ساده باشد. (به عنوان مثال جداول تناوب، توصيفات است يا و جداول تنظيمات) يا به صورت پيچيدهتر مثلا ميتوانند شامل اصطلاحات فصلي، حذف اطلاعات خارجي و فرمهاي ديگر حذف دادهها باشد.
تكنيكهاي داده كاوي ميتوانند بر روي هر نوع دادة پردازش نشده يا حتي بدون ساختار، اعمال شوند. و همچنين مي توانند بر روي Viewها و پرس و جوهاي توليد شده توسط OLAP جهت توليد دانش عميقتر و در بيشتر مواقع چند بعدي به كار روند. در اينجا تكنيكهاي داده كاوي ميتوانند به عنوان يك دست آورد تحليلي متفاوت تلقي گردد (ارائه اهدافي متفاوت با OLAP) يا به عنوان يك تحليل تعميم يافته از OLAP در نظر گرفته شود.
تحليل كاوشگرايانة دادهها:
Exporatory data Analysis (EDA)
روش تحليل كاوشگرايانه دادهها (EDA) در مقابل روش فرضية آزمون (hypothesis Testing) قرار دارد. روش فرضيه آزمون فرضيههاي موجود در مورد ارتباط علت و معلولي بين متغيير ها را بررسي ميكند. (به عنوان مثال يك ارتباط مثبت بين سن فرد و درصد ريسك پذيري او وجود دارد)
در حالي كه روش تحيليل كاوشگرايانة دادهها (EDA) جهت تعريف يك ارتباط سيستماتيك بين متغييرها در زماني كه هيچ ارتباط علت و معلولي منطبق با طبيعت آن مسئله بين متغييرها وجود ندارد، به كار ميرود.
در يك فرآيند نوعي تحليل كاوشگرايانة دادهها متغييرهاي زيادي در نظر گرفته ميشوند و مقايسه ميشوند. در اين تكنيك روشهاي مختلفي در حين جستجو جهت يافتن الگوهاي سيستماتيك به كار گرفته ميشود.
تكنيكهاي محاسباتي EDA: :
techniques Computational EDA
تكنيكهاي محاسباتي آنالير كاوشگرايانه دادهها شامل روشهاي ساده استاتيك است و همچنين تكنيكهاي پيشرفتهتر چنده متغييره كاوشگرايانه طراحي شده جهت تشخيص الگوهاي چند متغييره در مجموعة داده ها را نيز شامل ميشود.
روشهاي كاوشگرايانة پايه:
اين روشها كه شامل تكنيكهاي نظير: آزمون گستردگي متغييرها (مانند الگوهاي با انحراف بالا يا غير نرمال)، بررسي جداول همبستگي بزرگ براي ضرايباي كه داراي يك آستانه ميباشند.
تكنيكهاي كاوشگرايانه چند متغييره:
اين تكنيك جهت تشخيص الگوها در مجموعة دادههاي چند متغييره طراحي شدهاند. (يا يك متغيير مثل تناوب اندازهها) كه شامل: آناليز گروهي، آناليز فاكتور، آناليز توابع تفكيك شده، مقياس گذاري چند بعدي، همبستگي متعارف،رگرسسيون خطي و غير خطي، آناليز تناظري و درختهاي رده بندي. مي باشد.
تكنيكهاي گرافيكي EDA:
تكنيكهاي گستردهاي از روشهاي كاوشگرايانه EDA توسط روشهاي گرافيكي EDA پيشنهاد شده است. كه قادر است ارتباطات، روندها و مقادير نهفته در مجموعه دادههاي غير ساخت يافته را تشخيص دهد.
Brushing
شايد رايجترين و قديميترين روشي كه صراحتا” جهت مشخص كردن آناليز تحليلي گرافيكي دادهها به كار ميرود brushing باشد. كه يك روش تعاملي است كه به كاربر اجازه ميدهد تا نقاط خاصي از دادهها يا زير مجموعهاي از دادهها را انتخاب كند و مشخصات آنها را تشخيص دهد و تأثير آنها را بر روي ارتباطات متغييرهاي مربوط ملاحظه كند.
اين ارتباطات بين متغييرها ميتواند بوسيلة توابع مناسبي نمايش داده شود (به صورت 2 بعدي يا 3 بعدي) و فاصله اطمينان آنها را تعيين كند.
به عنوان مثال كاربر ميتواند تغييرات را به صورت تعاملي (دورهاي) با حذف يا اضافه كردن يك زير مجموعة خاص از داده بر روي تابع ملاحظه كند.
اگر Brushing خصيصههايي نظير animation brushing يا automatic Function refithing را پشتبياني كند. كاربر ميتواند يك brush به صورت دايناميك تعريف كند كه ميتواند بر روي مقادير پي در پي يك متغيير حركت كند. و مشاركت پوياي آن متغيير را در ميان ارتباطات متغييرهاي مربوط در آن مجموعة داده امتحان كند.
تفكيكهاي گرافيكي ديگر EDA:
روشهاي ديگر تكنيكهاي گرافيكي آناليز كاوشگرايانة دادهها شامل طراحي و گنجاندن توابع، data sthing، بر روي هم قرار دادن و بر هم متصل كردن تصاوير، طبقه بندي دادهها، جدا كردن و متصل كردن زير مجموعه دادهها در يك گراف، تجمع دادهها در گراف، تشخيص و علامت گذاري زير مجموعه دادهها كه داراي شرايط خاصي ميباشند و مكانيابي نشانهها و مشخص كردن فواصل و نواحي اطمينان، طيف سطوح، تراكم لايهاي تراز نقشهها، تكنيكهاي كاهش تصاوير دادهها، چرخش تعاملي بوسيله لايهبنديهاي انيميشني و صفحات سه بعدي و مشخص كردن انتخابي سري و بلوك دادههاي خاص مي باشد
بررسي صحت نتايج EDA
كاوش داده فقط به عنوان اولين مرحلة آناليز دادهها، عمل ميكند. و نتايج آن تا زماني كه صحت آنها توسط زير مجموعه دادههاي ديگر مورد تأئيد قرار نگرفته بطور موقت مورد استفاده قرار ميگيرند. اگر نتايج مرحلة كاوش يك مدل خاص را ارائه كرد در آن صورت اعتبار آن بوسيله اعمال كردن يك مجموعه دادههاي جديد و تست كردن آن مورد تأييد قرار ميگيرد. (به عنوان مثال آزمايش اعتبار پيشگوييهاي آن)، ميتوان از مكانيسم انتخاب نمونههايي با شرايط مختلف جهت توليد زيرمجموعهاي از دادهها براي آزمودن پايداري نتايج استفاده كرد
شبكههاي عصبي:
پس از فرآيندهاي يادگيري در سيستمهاي مبتني بر شناخت و توسط توابع عصبي مغز تكنيكهاي تحليلي شبكههاي عصبي مدلسازي شدهاند و قادرند مفاهيم جديدي را (مبتني بر متغييرهاي خاص) از مفاهيم ديگري (مبتني بر همان متغييرها يا متغييرهاي ديگر) پيشگويي و استنتاج نمايند كه پس از اجراي چنين فرآيندي آنرا يادگيري از دادههاي موجود مينامند. شبكههاي عصبي يكي از تكنيكهاي داده كاوي است.
اولين مرحله طراحي يك معماري شبكهاي است (كه شامل تعداد مشخصي از لايهها كه هر كدام تشكيل شده است از تعداد معيني رشتة عصبي)
اندازه و ساختار شبكه بايد متناسب با طبيعت پديده مورد بررسي باشد.
واضح است كه پيچيدگي مسئله براي ما در اين مراحل اوليه به درستي مشخص نيست. براي همين كار ساده نميباشند و نيازمند چندين آزمون و خطا ميباشد. البته امروزه نرم افزارهاي شبكههاي عصبي وجود دارد كه اعمال تكنيكهاي هوش مصنوعي جهت انجام اين كار به ما كمك ميكنند و بهترين معماري شبكهاي را براي ما مييابند.
در اين فاز شبكه بوجود آمده در اختيار فرآيند تعميم (Traning) گذاشته ميشود. و رشتههاي عصبي يك فرآيند تعاملي به وروديها (متغييرها) اعمال ميكنند و وزنهاي شبكه را تنظيم ميكنند تا نمونة داده اي را كه trainng) بر روي آن صورت گرفته به صورت بهينه پيشگويي كنندپس اينكه فاز ديگري از مجموعة دادههاي موجود به اتمام رسيد شبكة جديد آماده است تا جهت توليد پيشگويي مورد استفاده قرار گيرد.
شبكهاي كه در طي فرآيند learning ايجاد شده الگويي كه در دادهها يافته است را ارائه ميكند. در اين دست آورد شبكه يك معادل تابعي از مدل ارتباط بين متغييرها در روش قديمي مدلسازي ميكند بر خلاف مدل قديمي در شبكه روابط بين متغييرها نميتوانند بصورت عبارات تفصيلي معمول در استاتيك يا متدولوژيها تشريح شوند. (براي مثال A باB به طور مستقيم در ارتباط است فقط در مورد مشاهداتي كه در آنها مقدار C كم و مقدار D زياد باشد) با وجود اينكه آنها يك دست آورد تئوريكي ارائه ميدهند.
برخي شبكههاي عصبي ميتوانند پيشگوييهاي بسيار دقيقي توليد كنند. اين دست آورد فقط مسائل عملي و كاربردي را مورد توجه قرار ميدهد. راه حلهاي آن داراي پيشگويي معتبر است و روابط آن به صورت كاربردي موجودند. و از طبيعت مكانيسمي كه توسط آن ايجاد شده يا از هر نوع تئوري كه مبتني بر آن است مستقل است.
تكنيكهاي شبكههاي عصبي ميتوانند به عنوان يكي از مولفههاي آناليز طراحي شوند تا مدلهاي تشريحي ايجاد كنند اين بدان دليل است كه شبكههاي عصبي ميتوانند به فرآيند كاوش مجموعه دادهها جهت يافتن متغييرها يا گروه متغييرهاي مرتبط كمك كنند. و نتايج چنين كاوشهايي ميتوانند فرآيند مدلسازي را تسهيل كنند. امروزه نرم افزارهاي داده كاوياي موجود است كه توسط الگوريتمهاي پيچيدهاي به جستجوي مرتبطترين متغييرهاي ورودي ميپردازد. كه به صورت بالقوه ما را در فرآيند مدلسازي ياري ميكنند.
يكي از مزاياي اصلي شبكههاي عصبي اين است كه آنها قادرند هر نوع تابعي را تقريب بزنند به همين دليل جستجوگر نيازي ندارد كه در مورد مدل استفاده شده اطلاعي داشته باشد.
يكي از اشكالات شبكه اصلي زماني پيش ميآيد كه راه حل آخر به شرايط اوليه شبكه وابسته باشد و همچنين غير ممكن است كه شما بتوانيد بصورت مجازي راه حل را به فرم عبارات تحليلي قديمي تفسير كنيد
نتيجه گيري :
با استفاده از داده كاوي ما قادر خواهيم بود علت برخي از شرايط و پيشامد ها را توضيح دهيم ، بتوانيم يک نظريه را تأ ييد يا رد کنيم ، بتوانيم داده ها را براي ارتباطات جديد يا پيش بيني نشده تحليل کنيم
اين قابليتها در صنايع مختلفي از خرده فروشي گرفته تا شركت هاي بزرگ مخابراتي براي بهينه سازي
دستيابي به اهداف برنامه ريزي، بازا ريابي هدف دار و حفظ مشتري مورد استفاده قرار مي گيرند. قابليتهاي تكنيك هاي داده كاوي، در مقايسه با رو شهاي سنتي رگرسيون و مدل سازي خطي، بسيار قوي تر عمل مي كنند.
داده كاوي در پياده سازي قابليت هاي خود از الگوريتمهاي هوش مصنوعي، مثل شبكه هاي عصبي، بهره
مي گيرد، كه مي كوشند تقليدي از عملكرد مغز انسان براي محاسبات موازي ارائه كنند. داده كاوي توانسته است با استفاده از شبكه هاي عصبي و ديگر مفاهيم بر گرفته از هوش مصنوعي به نتايجي دست پيدا كند كه حتي متخصصين اين زمينه به آنها دست نيافته اند. اين تكنيكها امكان تحليل مقادير بسيار بزرگتري از داده را در مقايسه با رو شهاي سنتي فراهم مي آورد. به علاوه داده كاوي كشف دانش ازاطلاعات را در پي خواهد داشت و باعث پديد آمدن پيش بيني هايي مي شود كه فراتر از عملكرد متخصصين اين حوزه است.
مراجع :
[1] L. English: Improving Data Warehouse and Business Information Quality. Wiley,
[2] Jiawei han , micheline Kamber “Data Mining :concepts And Techniques “ simon Fraser university 2000
[3] http://www.thearling.com
[4] http://www.autonlab.org/tutorials