داده کاوی Data mining

چكيده :

داده كاوي عبارت است از فرآيند خودكار کشف دانش و اطلاعات از پايگاه هاي داد ه اي.

اين فرآيند تكنيك ها يي از هوش مصنوعي را بر روي مقادير زيادي داده اعمال مي كند تا روندها , الگوها و روابط مخفي را كشف كند. ابزار هاي داده كاوي براي كشف دانش يا اطلاعات از داده ها به كاربراتكا نمي كنند، بلكه فرآيند پيشگويي واقعيت ها را خود كار مي سازند. اين تكنولوژي نوظهور، اخيرًا به طورفزايند هاي در تحليل ها مورد استفاده قرار مي گيرد.

مقدمه:

امروزه با حجم عظيمي از داده ها روبرو هستيم. براي استفاده از آنها به ابزارهاي كشف دانش نياز داريم. داده كاوي به عنوان يك توانايي پيشرفته در تحليل داده و كشف دانش مورد استفاده قرار مي گيرد. داده كاوي در علوم (ستاره شناسي،…)‌در تجارت (تبليغات، مديريت ارتباط با مشتري،…) در وب (موتورهاي جستجو،…) در مسايل دولتي (فعاليتهاي ضد تروريستي،…) كاربرد دارد. عبارت داده كاوي شباهت به استخراج زغال سنگ و طلا دارد. داده كاوي نيز اطلاعات را كه در انبارهاي داده مدفون شده است، استخراج مي كند.

در واقع هـــــدف از داده كاوي ايجاد مدل هايي براي تصميم گيري است. اين مدلها رفتارهاي آينده را براساس تحليلهاي گذشته پيش بيني مي كنند. به كاربردن داده كاوي به عنوان اهرمي براي آماده سازي داده ها و تكميل قابليتهاي انباره داده ، بهترين موقعيت را براي به دست آوردن برتريهاي رقابتي ايجاد مي كند.

داده كاوي (Data mining)

داده كاوي (Data mining) يك فرايند تحليلي است كه جهت كاوش داده ها (معمولاً حجم بالاي داده ها و يا داده هاي تجاري و مربوط به بازار) و جستجوي الگوهاي پايدار يا روابط سيستماتيك مابين متغيرها بكار ميرود وسپس با اعمال الكو هاي شناسايي شده به زير مجمو عه هاي جديد صحت داده هاي بدست آمده بررسي ميگردد. هدف نهايي داده كاوي پيشگويي است.

سازما نها معمو ً لا روزانه مقدار زيادي داده را در انجام عمليات تجاري خود توليد و جمع آوري مي كنند.

امروزه براي اين پايگاه هاي داده شركتي عجيب نيست كه مقدار داده هاي آن در حد ترابايت باشد. با اين حال علي رغم ثروت اطلاعاتي عظيم ذخيره شده حدس زده مي شود كه فقط ٪ ٧كل داد ه هايي كه جمع آوري مي شود مورد استفاده قرار مي گيرد. بدين ترتيب مقدار قابل توجهي داده كه بدون شك حاوي اطلاعات ارزشمند سازماني است تا حد زيادي دست نخورده باقي مي ماند. در محيط تجاري عصر اطلاعات، كه هر روز رقابتي تر مي شود مي توان با استخراج اطلاعات از داد ه هاي استفاده نشده به تصميم گيري هاي استراتژيك دست يافت. در طول تاريخ تحليل داده ها از طريق رگرسيون و ديگر تكنيك هاي آماري انجام شده است. براي استفاده از اين تكنيكها ، لازم است كه تحليل گر مدلي خلق كند و فرآيند گر دآوري دانش را سازمان دهد.

اما امروزه اين روش ها به تنهايي كافي نيستند و بايد از روش ها ي خود كار استفاده كرد.

داده كاوي عبارت است از فرآيند خودكار کشف دانش و اطلاعات از پايگاه هاي داد ه اي.

اين فرآيند تكنيك ها يي از هوش مصنوعي را بر روي مقادير زيادي داده اعمال مي كند تا روندها ، الگوها و روابط مخفي را كشف كند. ابزار هاي داده كاوي براي كشف دانش يا اطلاعات از داده ها به كاربر اتكا نمي كنند، بلكه فرآيند پيشگويي واقعيت ها را خود كار مي سازند. اين تكنولوژي نوظهور، اخيرًا به طور

فرايند هاي در تحليل ها مورد استفاده قرار مي گيرد

داده كاوي پيشگويانه رايج ترين نوع داده كاوي است و با برنامه هاي كاربردي تجاري در ارتباط مستقيم است . فرايند داده كاوي از سه مرحله تشكيل شده است.

ا- كاوش اوليه (initial exploration )

2-ساختن مدل يا شناسايي الگو بوسيلة سنجيدن اعتبار وصحت داده ها

3-گسترش

1- مرحله كاوش(Exploration) :

اين مرحله معمولاً با آماده سازي داده ها آغاز مي شود كه تشكيل شده است از پاكسازي داده ها (cleaning data) ،تغير شكل داده ها، انتخاب زير مجموعه اي از ركورد ها (در زماني كه مجموعه اي از داده ها با حجم بالايي از فيلد ها موجود است) و انجام دادن برخي عمليات اوليه جهت قرار دادن متغير ها در يك بازة قابل مديريت،كه بستگي به روش آماري اي كه مورد نظراست دارد و پس ازآن به طبيعت مسئله تحت بررسي مربوط مي شود.

مرحلهُ اول فرآيند داده كاوي مي تواند در هر جايي از گسترة ، انتحاب يك روش مستقيم پيشگويي تا يك روش تجزيه و تحليل با جزئيات وزحمت بالا قرار داشته باشد .(جهت كسب اطلاعات وسيع تر به قسمت EDA مراجعه كنيد).

اين مدل جهت شناسايي متغيير هايي كه بيشتر از همه با موضوع مرتبط هستند و جهت مشخص كردن پيچيدگي و طبيعت كلي مسئله در مراحل بعدي مورد استفاده قرار ميگيرد .

مرحله 2- ساختن مدل و معتبر سازي (model building and validation):

اين مرحله در گير در نظر گرفتن مدل هاي مختلف،و انتخاب بهترين آنها بر اساس كارايي در پيشگويي ، مي باشد.(براي مثال تعييرات سوُالات را تشريح كندونتايج ثابتي در مقابل نمونه ها توليد كند.) شايد اين به نظر عمليات ساده اي بيايد. ولي در واقع بعضي از مواقع در گير يكسري فرآيند هاي پيچيده مي شود.روشهاي مختلفي جهت رسيدن به اين هدف وجود دارد كه آنها را روشهاي ارزيابي رقابتي مدل ها (competitive evaluation of models ) مي نامند كه مدلهاي مختلفي را بر روي يك دادهُ ثابت اعمال مي كند و سپس كارايي آنها بررسي مي شود تا بهترين آنها انتخاب گردد. اين روش ها كه در خيلي از مواقع به عنوان هستهُ داده كاوي پيشگويانه تلقي مي گردند و شامل طبقه بندي كردن(bagging،)، ترقي دادن (boosting ) ،انباشتن (stacking )و يادگيري غير نمادين(meta learning )ميباشند.

مرحلة3- مرحلهُ گسترش Deployment):( :

در آخرين مرحله مدلي كه به عنواي بهترين مدل در مرحلة قبلي انتخاب شده بود بر روي داده هاي جديد به منظور توليد پيشگويي يا بر آورد خروجي مورد انتظار اعمال ميگردد.

شهرت داده كاوي به طور روز افزوني به عنوان يك ا بزار مديريت تجاري داده ها شهرت يافته است و انتظار مي رود بتواند ساختار هاي دانشي را نمايان سازد كه در شرايط عدم قطعيت تصميمات گرفته شده را هدايت كند.

روشهاي تحليلي جديد خصوصاً جهت نشان دادن مسائل مرتبط با داده كاوي تجاري ،اخيراًبسيار مورد توجه بوده اند (به عنوان مثال درخت هاي رده بندي) ، با اين حال داده كاوي هنوز مبتني بر قواعد مفهومي روشهاي دستيابي قديمي نظير آناليز اكتشافي داده ها (EDA) و مدلساري ميباشد. وقسمت هايي از دست آورد هاي عمومي و بعضي از تكنيك هاي خاص خود را با آنها به اشتراك مي گذارد.

بهرحال تفاوت زيادي در نفطه نظرات و اهداف داده كاوي و روش آناليز اكتشافي داده ها (EDA) وجود دارد . داده كاوي بيشتر متمايل به كاربردها است تا طبيعت اصلي پديدة مورد بررسي.به عبارت ديگر داده كاوي كمتر به شناسايي روابط خاص موجود بين متغيرها مي پردازد.براي مثال آشكار كردن توابع و انواع داده اي خاصي كه بر روابط تعاملي و چند متغيري كه بين متغيرها وجود دارد هدف اصلي داده كاوي نمي باشد. در عوض توجه خود را به ايجاد روشي كه بتواند پيشگويي قابل استفاده اي توليد كند معطوف مي سازد. و به همين دليل است كه داده كاوي از بين دست آوردهاي جعبه سياه(black box ) در كاوش داده ها يا اكتشاف دانش مقبوليت بيشتري دارد. و نه تنها از روش هاي سنتي آناليز اكتشافي داده ها (exploratory data analysis (استفاده مي كند بلكه از روشهايي مانند شبكه هاي عصبي ( Neural network ) كه مي تواند پيشگويي هاي معتبري توليد كند ولي قادر به شناسايي طبيعت خاص روابط داخلي بين متغيرهايي كه پيشگويي ها بر اساس آنها صورت گرفته است نميباشد سود مي جويد.

مفاهيم تعيين كننده در داده كاوي:

1-هم پيوندي (Bagging) :

هم پيوندي قابليتي براي يافتن روابط ناشناخته موجود در اطلاعات است. اين روابط مواردي از قبيل اينكه

حضور مجموعه اي از مقولات اشاره به اين دارند كه مجموعه مقولات ديگري نيز احتمالا وجود دارند را

شامل مي شود. اين قابليت اساسًا روشي است براي اينكه كشف كنيم چه مقولاتي به هم مي خورند. از آن با عنوان تحليل سبد بازار يا گروه بندي خويشاوندي نيز ياد مي شود.

براي مثال، گزار شهاي هم پيوندي چنين شكلي دارند:”٪ ٨٠ مشترياني كه كالاي A را خريداري نموده اند، كالاي Bرا نيز خريده اند.” درصد خاص وقوع وقايع) مثلا ٪ ٨٠ اين نمونه ( را فاكتور اطمينان هم پيوندي B و A مي نامند. همچنين ممكن است هم پيوندي هاي چند گانه وجود داشته باشد: “٪ ٧٥ مشترياني كه كالاي D را خريداري نموده اند، كالاي Cرا نيز خريده اند.”

كاربرد هاي هم پيوندي عبارتند از برنامه ريزي موجودي، برنامه ريزي تبليغاتي براي فروش و مراسلات بازاريابي مستقيم.

مفهوم Bagging (راُي دادن به رده بندي و بدست آوردن متوسط مسائلي كه داراي متغير هايي با مقادير متوسط وابسته ميباشند)و در گسترة داده كاوي اعمال مي گردد تا طبقه بندي هاي پيشگويانه را از مدل هاي چندگانه يا از يك نوع مدل ، براي درك اطلاعات تركيب كند . و همچنين جهت نشان دادن بي ثبا تي ماندگار نتايج در زماني كه مدل هاي پيچيده به مجموعه هاي كوچك داده ها اعمال مي شوند به كار مي رود. فرض كنيد كه عمل داده كاوي شما مي خواهد يك مدل جهت طبقه بندي پيشگويا نه بسازد و مجموعة داده هاي آن نسبتاً كوچك است . شما مي توانيد به صورت متوالي مجموعه داده ها را به نمونه هاي كوجكتر تقسيم كنيد و اعمال كنيد همانند رده بندي درختي تا به نمونه مورد نظر برسيد.در عمل درخت هاي متفاوتي براي نمونه هاي منقاوت بسط داده ميشوند.يكي از روش هاي استنتاج يك پيشگويي استفاده از قالب درختي در نمونه هاي مختلف است و پس از آن برخي نظريات بر روي آن اعمال مي گردد.

طبقه بندي نهايي طبقه بندي است كه عموماً توسط درخت هاي متفاوت پيشگويي مي شود. توجه داشته باشيد كه برخي از تركيب هاي وزن دار از پيشگويي ها نيز محتمل است و عموماً مورد استفاده قرار مي گيرد. يك الگوريتم پيشرفته جهت ايجاد وزن براي پيشگويي هاي وزن دار يا voting رويه هاي Boosting هستند.

2-طبقه بندي) Boosting ( :

طبقه بندي در واقع ارزشيابي ويژگيهاي مجموعه اي از داد ه ها و سپس اختصاص دادن آ نها به مجموعه اي از گرو ههاي از پيش تعريف شده است. اين متداولترين قابليت داده كاوي مي باشد. داده كاوي را مي توان با استفاده از داده هاي تاريخي براي توليد يك مدل يا نمايي از يك گروه بر اساس ويژگي هاي داده ها به كار برد. سپس مي توان از اين مدل تعريف شده براي طبقه بندي مجموعه داده هاي جديد استفاده كرد. همچنين مي توان با تعيين نمايي كه با آن سازگار است براي پيش بيني هاي آتي از آن بهره گرفت.

براي مثال، براي طبقه بندي تخلفات و كلاهبرداري ها در صنعت و اعتبارات، با استفاده از قابليت طبقه بندي داده كاوي، سيستم با استفاده از مجموعه اي از پيش تعريف شده از داده ها، تعليم مي بيند. مجموعه داد ه هاي مورد استفاده در اين نمونه بايد هم شامل مجموعه هايي از داد ه هاي معتبر باشند و هم شامل مجموعه هايي از داد ه هاي جعلي. از آن جا كه اين داده ها از پيش تعريف شده هستند، سيستم پارامترهايي را مي يابد كه مي توان از آ نها براي تشخيص طبقه بندي هاي متمايز استفاده كرد. بعد از تعيين پارامترها سيستم از آ نها براي طبقه بندي هاي بعدي بهره خواهد گرفت.

در واقع سيستم هايي كه بر اساس طبقه بندي داده كاوي مي كنند، دو مجموعه ورودي دارند: يك مجموعه آموزشي كه در آن داده هايي كه به طور پيش فرض در دسته هاي مختلفي قرار دارند، همراه با ساختار دسته بندي خود وارد سيستم مي شوند و سيستم بر اساس آ نها به خود آموزش مي دهد يا به عبارتي پارامترهاي دسته بندي را براي خود مهيا مي كند. دسته ديگر از ورودي هايي هستند كه پس از مرحله آموزش و براي تعيين دسته وارد سيستم مي شوند.

تكنيك هاي داده كاوي كه براي دسته بندي به كار مي آيند عمومًا شامل تكنيك هاي شبكه عصبي و درخت تصميم گيري هستند.

يكي از متغيرهاي مهم در قابليت دسته بندي برآورد يا امتياز دهي است. هر جا طبقه بندي يك پاسخ دو تايي مثل بله و خير ارائه كند، برآورد يك درجه بندي مثل پايين بالا و يا متوسط ارائه مي كند. در اصل برآورد، چندين نما در امتداد مجموعه اي از داده ها فراهم مي آورد كه نشان دهنده درجه تعلق يك نما به يك مجموعه است.

كاربرد قابليت طبقه بندي در بازاريابي هدف، تصويب اعتبار و بررسي تقلب، است

مفهوم Boosting در گسترة داده كاوي پيشگويانه مطرح مي شود و جهت ايجاد مدل ها و طبقه بندي هاي چند گانه مورد استفاده قرار مي گيرد و همچنين براي استنتاج وزن ها براي تركيب پيشگويي ها از آن مدل ها در يك پيشگويي واحد يا يك ردة پيشگويي به كار مي رود.

يك الگوريتم ساده جهت Boosting به صورت اين صورت عمل مي كند كه ابتدا كار را با اعمال كردن روش هايي بر روي learning data آغاز مي كنيم (مانند طبقه بندي كننده هاي درختي )و به هر مشاهده وزن يكساني نسبت مي دهيم. طبقه بندي هاي پيشگويي شده را محاسبه كنيد و وزن هاي تعيين شده را بر روي مشاهدات نمونه مورد بررسي كه نسبت معكوس با دقت طبقه بندي دارند اعمال كنيد .به عبارت ساده تر به مشاهداتي كه طبقه بندي آنها دشوار تر است وزن بيشتري را اختصاص بدهيد .(يعني نرخ عدم طبقه بندي آنها بالا بوده است) و وزن كمتري را به آنهايي كه طبقه بندي آنها ساده تر بوده است نسبت بدهيد.(نرخ عدم طبقه بندي پايين بوده است )،سپس طبقه بندي را دوباره به داده هاي وزن دار اعمال كنيدو در طي چرخه بعدي اين عمليات را ادامه دهيد.

Boosting يك توالي از طبقه بندي ها ايجاد مي كند .كه هر توالي طبقه بندي در اين رونديك متخصص در امر طبقه بندي مشاهداتي كه پيش بيني آنها ساده نبوده است خواهد بود ، وسپس پيشگويي هاي انجام شده توسط طبقه بندي كننده هاي مختلف با يكديگر تركيب مي شوند تا يك پيشگويي يا طبقه بندي بهينه ارائه دهند.

٣.الگوهاي ترتيبي :

قابليتهاي ترتيبي هم مانند قابليتهاي هم پيوندي اين خاصيت را دارند كه مي توانند وقايع را با هم مرتبط

كنند. اين كار در هم پيوندي سنتي يا تحليل سبد بازار مجموعه اي از مقولات را به عنوان مقولات پشت سر هم ارزيابي مي كنند و از ابزارهايي مثل سر يهاي زماني هم براي تعيين ترتيب بهره مي برند. الگوهاي ترتيبي علاوه بر آن، اين قابليت جديد را هم دارند كه مي توانند فاصله زماني بين دو واقعه را تخمين بزنند. براي مثال اين قابليت امكان نتيجه گيري هايي از قبيل اينكه ” ٪ ٨٠ افرادي كه كامپيوتر مي خرند ظرف مدت ١ سال چاپگر هم خواهند خريد.” را مهيا مي نمايد. به اين ترتيب شناسايي نوعي از خريدهاي مقدماتي كه پتانسيل خريدهاي بعدي را در آينده تعيين مي كنند، عملي مي شود. در نتيجه از چنين تحليل هايي به شدت در تبليغات فروش استفاده مي گردد.

٤.خوشه بنديclustering

قابليت خوشه بندي وظيفه تقسيم يك گروه ناهمجنس را در چندين زير گروه بر عهده دارد. اين فرايند يك تفاوت اساسي با طبقه بندي دارد. زيرا در اين مدل هيچ گونه الگوي آموزشي نداريم. خوشه بندي به طور خودكار ويژگي هاي متمايز كننده زير گروه ها را تعريف مي كند و زير گرو هها را سازماندهي مي نمايد. و به عنوان نوعي قابليت داده كاوي غير مستقيم مطرح است.

اين ابزارها پايگاه داده را بر اساس ويژگي هاي داده ها به چندين بخش تقسيم مي كنند و گروه هايي از ركوردها را به وجود مي آورند كه نمايانگر يا صاحب صفت خاصي هستند. الگوهاي به دست آمده در ذات پايگاه داده نهادينه هستند و نشانگر بعضي اطلاعات غير منتظره و در عين حال ارزشمند شركتي باشند.

مثالي از كاربردهاي خوشه بندي در تقسيم بندي افرادي است كه به پرسش نامه اي پاسخ داده اند. از اين كار مي توان در تقسيم بندي مشترياني كه به پرسش نامه ها پاسخ داده اند در گروه هايي كه اعضاي آن بيشترين شباهت را با يكديگر و بيشترين تفاوت را با اعضاي ساير گروه ها دارند، استفاده كرد. بعد از بخش بندي جمعيتي با استفاده از قابليت خوشه بندي مي توان بر روي خوشه هاي مشخص شده تحليل هم پيوندي انجام داد تا خريدهاي به هم مرتبط يك گروه جمعيتي خاص شناخته شوند.

كاربرد خوشه بندي براي تعيين بهترين گروه هاي جامعه شناختي براي اهداف خاص بازاريابي است.

اغلب از خوشه بندي به عنوان اولين گام فراين دهاي داده كاوي ياد مي شود كه قبل از ساير فرايند ها براي شناسايي گروهي از ركوردهاي مرتبط با هم كه بعدًا بتوانند نقطه آغاز تحليلها باشند بر روي ركوردها اعمال مي شود

تهيه مقدمات جهت داده كاوي :

تهيه مقدمات لازم و انجام پاكسازي از جمله مراحل بسيار مهّم ولي عموماً غفلت شده در فرايند داده كاوي مي باشد. مصداق آن در بسياري از پروژه هاي داده كاوي است كه در آنها مجموعه اي از داده ها بوسيلة برخي روشهاي اتوماتيك بدست مي آيند. عموماً روشهايي كه توسط آنها داده هاحمع آوري مي شوند بدرستي كنترل نشده است ( مثل web )و مثلاً داده ها ممكن است شامل مقادير خارج از محدوده باشند

(مثل 100- = درآمد) و تركيبات غير ممكن داده ها و آناليز داده هايي كه با دقت انتخاب نشده اند در چنين مسائلي منجر به توليد نتايج منحرف كننده اي مي گردد. خصوصاً در داده كاوي پيشگويانه اين مشكل بسيار محسوس است.

كاهش داده ها در داده كاوي:

عبارت كاهش داده ها در مقولة داده كاوي بيشتر در مورد پروژه هايي به كار مي رود كه هدف آن ها اين است كه اطلاعات موجود در مجموعه داده هاي بزرگ را به صورت قطعه هايي كوچكتر و قابل اداره ، جمع آوري و در هم بياميزند. روش هاي كاهش داده مي توانند شامل جدول بندي هاي ساده(tabulation) ،تجمع(agrigation) يا روش هاي پيچيده ديگري نظير clustering، (clustering principal component analysis) باشند.

گسترش داده كاوي Deployment :

مفهوم گسترش داده كاوي اشاره به درخواست مدل براي پيشگويي يا طبقه بندي يك دادة جديد دارد. پيش از آنكه يك مدل يا مجموعه اي از مدل هاي مشخص براي يك درخواست خاص مشخص شود افراد معمولاً مي خواهند كه اين روشها را طوري گسترش دهند كه پيشگويي ها يا طبقه بندي هاي پيشگويانه به سرعت براي داده هاي جديد بكار گرفته شوند به عنوان مثال يك شركت كارت اعتباري تمايل دارد كه يك مدل يا مجموعه اي از مدل هاي مشخص را (مثل neural network meta learning , ) به كار گيرد تا تراكنش هايي را كه احتمال تقلب در آنها زياد است مشخص كند.

آناليز (Drill – down analysis

مفهوم آناليزDrill-down داده كاوي بدين منظور به كار مي رود تا كاوش تعاملي داده ها را به صورت دقيق در پايگاه داده ها داده ها مشخص كند.فرآيند آناليز Drill-down با در نظر گرفتن برخي طبفه بندي ها بر مبني مقاديري از متغيرهاي مهّم مانند (جنسيت ، نواحي جغرافيايي و غيره ) آغاز مي شود . آمار و ارقام گوناگون،جداول و نمودارها و انواع ديگر خلاصه هاي گرافيكي مي توانند براي هر دسته نتيجه شوند.سپس ممكن است بخواهيد آناليزهاي متغير ي بر روي داده هاي هر گروه انحام دهيد براي مثال ممكن است شخصي بخواهد آناليزهاي متغيري برروي داده هاي بدست آمده در مورد مردان ساكن غرب بدست آورد در اينجا ارقام و نمودارهاي گوناگوني بدست مي آيد كه مي توانند تحت آناليزهاي متغير بر اساس متغيرهايي نظير سن،درآمد وغيره به دسته هاي كوچكتر ي طبقه بندي گردند . در پايين ترين سطح داده هاي خام قراردارند . براي مثال شما ممكن است بخواهيد داده هاي مربوط به مشتريان مرد ساكن در يك ناحيه با ميزان درآمد مشخص و غيره را تحت بررسي قرار دهيد و به آن مشتريان سرويس هاي خاصي را ارائه دهيد.

انتخاب خصيصه ها Feature selection :

يكي از مراحل اوليه در داده كاوي پيشگويانه انتخاب خصيصه ها است. زماني كه در مرحلة مدل سازي واقعي (يا حتي در مراحل اوليه عمليات كاوشگري ) مجموعة داده ها شامل متغيرهاي بيش از اندازة مجاز شده باشد پيشگويي ها از ميان يك ليست بزرگ از كانديدا ها انتخاب مي شوند(براي مثال زماني كه داده ها توسط يك روش اتوماتيك (كامپيوتري ) جمع آوري ميشوند. عير معمول به نظر نمي رسد كه هزاران يا صدها هزار پيشگويي بدست آيد. روش هاي استاندارد آناليز جهت داده كاوي پيشگويانه نظير آناليز شبكه هاي عصبيneural network)طبقه بندي ودرخت هاي بازگشتي (classification and regression trees) و مدل هاي خطي تقسيم يافته (generalized linear models) زماني كه تعداد پيشگويي ها از چند صد متغير تجاوز مي كند غير عملي به نظر مي رسند.

انتخاب خصيصه ها يك زير مجموعه از خصيصه ها را از ميان يك ليست بزرگ از پيشگويي هاي كانديد بدون در نظر گرفتن ارتباط بين پيشگويي ها يا اينكه ارتباط آنها خطي است ،يا يكنواخت انتخاب مي كند.

به همين دليل اين روش كه عنوان يك پيش پردازنده براي داده كاوي پيشگويانه عمل ميكند با مجموعه هاي قابل اداره اي از پيشگويي ها بدست آيد كه اين مجموعه ها احتمالا با يكديگر مرتبط اند،و سپس آناليز هاي بيشتري بر روي آنها صورت مي گيرد تا طبقه بندي شوند.

فراگيري ماشينMachine learning

فراگيري ماشين يا تئوري فراگيري محاسبه اي يا جملاتي نظير اين در زمينه داده كاوي جهت مشخص كردن كاربرد مدل هاي مناسب عمومي يا الگوريتم هاي طبقه بندي در داده كاوي پيشگويانه به كار مي رود. به عكس روش هاي استاتيك قديمي در آناليز داده ها كه معمولا با برآورد پارامترهاي جمعيتي بوسيلة ارجاعات استاتيك بدست مي آمدند.در داده كاوي (و فراگيري ماشين )معمولا ًبه دقت پيشگويي ها(طبقه بندي هاي پيشگويانه) بدون توجه به اينكه مدل يا روش هاي به كاررفته جهت ايجاد پيشگويي ها قابل تفسير و توجيح اند ، پرداخته مي شود. يك نمونه خوب از به كاربر بردن اين روش ها در داده كاوي پيشگويانه(predictive data mining) ،شبكه هاي عصبي يا فراگيري هاي غير نمادين(meta learning) يا غيره بد ست مي آيد.

اين روش ها معمولاً درگير گنجاندن مدل هاي عمومي كه هيچ مبناي استدلالي يا درك تئوريتيكي به عنوان زير بناي فرآيند ها ندارند در عوض اين روش ها جهت توليد پيشگويي هاي دقيق يا طبقه بندي ها در نمونه هاي crossvalidation عرضه مي شوند.

Meta-learning (فراگيري غير نمادين) :

مفهوم meta-learning در حيطة داده كاوي پيشگويانه جهت تركيب پيشگويي ها از چند مدل به كار مي رود.به خصوص زماني به كار مي رود كه نوع مدل هايي كه در پروژه وجود دارند بسيار متفاوت باشند. اين رويه در اين مقدمه همچنين به بسته سازي (تعميم پشته) stack generalization اشاره مي كند.

فرض كنيد پروژه داده كاوي شما شامل 300 دسته بندي است همانند chaid و c &RTو آناليز تفكيك كننده خطي (linear discriminant analysis) و شبكه هاي عصبي هر كدام يك طبقه بندي پيشگويانه را براي يك نمونه cross validation محاسبه مي كند تجربه نشان داده است كه تركيب پيشگويي هاي انجام شده توسط چند روش معمولاً پيشگويي هاي دقيق تري را بدست مي دهد تا نتايجي كه از يك روش بدست مي آيد .پيشگويي هاي بدست آمده از دسته بندي هاي مختلف مي توانند به عنوان ورودي يك meta-learner مورد استفاده قرار گيرد،و meta-learner پيشگويي هاي انجام شده را جهت ايجاد يك دسته بندي پيشگويانه بهينة نهايي تركيب مي كند. براي مثال دسته بندي هاي پيشگويانه(predicted classifications) شامل دسته بندي در ختي مدل خطي

(tree classifiers) و دسته بندي شبكه هاي عصبي(neural network classifiers) مي توانند به عنوان متغيرهاي ورودي به يك ابر طبقه بندي كنندة شبكه هاي عصبي داده شوند و از داده ها درك مي كند كه چگونه پيشگويي ها انجام شده توسط مدل هاي مختلف را تركيب كند.و بيشترين دقت را در طبقه بندي ايجاد كند.

مدل هاي داده كاوي:

در محيط هاي تجارتي ،پروژه هاي داده كاوي پيچيده نياز دارند كه مسائل متخصصين ، سهامداران، ادارات مختلفي را در يك سازمان هماهنگ كنند.

در فرهنگ داده كاوي چهارچوب هاي كاري مختلفي جهت ارائه يك طرح براي تنظيم فرآيند جمع آوري اطلاعات ، آناليز اطلاعات ، انتشار نتايج و پياده سازي نتايج و نظارت بر پيشرفت كار پيشنهاد شده است. يكي از اين مدل ها CRIP (فرآيندهاي استاندارد cross-indostry براي داده كاوي )است كه اواسط سال 1990 توسط ائتلاف شركت هاي اروپايي به عنوان يك استاندارد غير خصوصي فرآيند داده كاوي ارائه شد. اين دستاورد عمومي سلسله مراحل زير را براي پروژه هاي داده كاوي بر مي شمارد.

SHAPE \* MERGEFORMAT

فهم كار (business understanding)

فهم داده
ها(data
understanding)

مدلسازي(modeling)

ارزيابي(evaluation)

گسترش(deployment)

آماده
سازي داده ها(data preparation)

يك دستاورد ديگر (متدولوژي six sigma )كه يك متدولوژي مبتني بر داده و خوش ساختار است وجهت از بين بردن معايب ، افت و كنترل كيفيت در تمامي انواع توليدات ، ارائه خدمات ،مديريت و ديگر فعاليت هاي تجاري به كار مي رود . اين مدل اخيراً در صنعت آمريكا بسيار رايج شده است و به نظر مي رسد كه در جهان نيز موفقيت هايي كسب كند.

اين مدل از مراحلي كه مراحل DMAIC ناميده مي شود تشكيل شده است .

يك چهارچوب كاري ديگر از اين نوع دستآوردي است كه توسط موُسسه SAS پيشنهاد شد به نام SEMMA

(sample) نمونه ß (Explore) كاوش ß ويرايش ß مدل سازي ß ارزيابي((assess

كه بيشتر به فعاليت هاي تكنيكي كه در پروژه هاي داده كاوي درگير آن ميباشيم مي پردازد.

تمام مدلهاي ذكر شده به اين فرآيند توجه دارند كه متدولوژي هاي داده كاوي را در يك سازمان بگنجانند.يا به عبارتي چگونه داده ها را به اطلاعات تبديل كنند و چگونه سهامداران را درگير كنند.و اينكه چگونه اطلاعات را به فرمي توزيع كنند كه به راحتي توسط سهامداران قابل تبديل به منابعي جهت تصميم گيري هاي استراتژيكي شوند.

برخي ابزارهاي نرم افزاري براي داده كاوي به صورتي طراحي و مستند شده اند كه مخصوص يكي از چهارچوب هاي كاري ذكر شده باشند.

فرايند داده كاوي در مديريت ارتباط با مشتري :

داده كاوي يكي از عناصر مديريت ارتباط با مشتري است و مي تواند به حركت شركتها به سمت مشتري محوري كمك كند. فرايند داده كاوي در مديريت ارتباط با مشتري به صورت زير است .

داده هاي خام از منابع مختلفي جمع آوري مي شوند و از طريق استخراج، ترجمه و فرايندهاي فراخواني به انبار داده اين مديريت وارد مي شوند. در بخش مهيـــاسازي داده، داده ها از انبار خارج شده و به صورت

يك فرمت مناسب براي داده كاوي در مي آيند.بخش كشف الگو شامل چهار لايه است:

1 – سوالهاي تجاري مانند توصيف مشتري،2 – كاربردها مانند امتيازدهي، پيش گويي،3 – روشها مانند سري هاي زماني، طبقه بندي،4 – الگوريتم ها. در اين بخش روشهاي داده كاوي با كاربرد مخصوص خود براي پاسخ به سوالهاي تجاري كه به ذهن مي رسند، الگوريتم هايي را استخراج مي كنند و از اين الگوريتم ها براي ساخت الگو استفاده مي شود. در بخش تجزيه و تحليل الگو، الگوها به يك دانش مفيد و قابل استفاده تبديل مي شوند و پس از بهبود آنها، الگوهايي كه كارا محسوب مي شوند در يك سيستم اجرايي به كار گرفته خواهند شد.

داده كاوي پيشگويانه (Predictive data mining) :

عبارت داده كاوي پيشگويانه معمولاً براي مشخص كردن پروژه هاي داده كاوي به كار مي رود كه هدف آنها مشخص كردن يك مدل استاتيك يا شبكه هاي عصبي ويا مجموعه اي از مدل ها است كه بتواند واكنش برخي مسائل مورد توجه ما را پيشگويي كند. به عنوان مثال يك مشترك كارت اعتباري ممكن است بخواهد داده كاوي پيشگويانه را به كار گيرد و از يك مدل يا مجموعه اي از مدل ها استفاده كند تا تراكنش هايي كه احتمال تقلب در آنها زياد است را مشخص كند. انواع ديگر پروژه هاي داده كاوي ممكن است در واقع بيشتر كاوشگرايانه باشند(مانند مشخص كردن گروه و بخشي كه مشتري به آن تعلق دارد) كه در اين موارد تشريح بوسيله روش

Drill down و روشهاي كاوشگرايانه به كار گرفته مي شوند . كاهش داده ها(data reduction) را مي توان به عنوان يكي ديگر از اهداف داده كاوي بر شمرد.(به عنوان مثال جمع آوري و تركيب اطلاعاتي كه در مجموعه هاي بسيار بزرگي از داده ها قرار دارند به فرمي كه قابل اداره كردن باشند).

تعميم پشته ايstacked generalization:

مفهوم stacked generalization در حيطة داده كاوي پيشگويانه جهت تركيب پيشگويي ها از چند مدل به كار مي رود.به خصوص زماني به كار مي رود كه نوع مدل هايي كه در پروژه وجود دارند بسيار متفاوت باشند. اين رويه در اين مقدمه همچنين به بسته سازي (تعميم پشته) stack generalization اشاره مي كند.

فرض كنيد پروژه داده كاوي شما شامل 300 دسته بندي است همانند chaid و c &RTو آناليز تفكيك كننده خطي (linear discriminant analysis) و شبكه هاي عصبي هر كدام يك طبقه بندي پيشگويانه را براي يك نمونه cross validation محاسبه مي كند تجربه نشان داده است كه تركيب پيشگويي هاي انجام شده توسط چند روش معمولاً پيشگويي هاي دقيق تري را بدست مي دهد تا نتايجي كه از يك روش بدست مي آيد .پيشگويي هاي بدست آمده از دسته بندي هاي مختلف مي توانند به عنوان ورودي يك meta-learner مورد استفاده قرار گيرد،و stacked generalization r پيشگويي هاي انجام شده را جهت ايجاد يك دسته بندي پيشگويانه بهينة نهايي تركيب مي كند. براي مثال دسته بندي هاي پيشگويانه(predicted classifications) شامل دسته بندي در ختي مدل خطي

روشهاي ديگري كه جهت تركيب پيشگويي هاي انجام شده توسط چند مدل وجود دارد عبارتند از Bagging ,Boodting

متن كاوي text mining :

در حالي كه داده كاوي معمولاً داده ها را در قالب داده هاي عددي تشخيص مي دهد ولي بيشتر مواقع اطلاعات بسيار مهّم در قالب متن ذخيره مي شوند. بر خلاف داده هاي عددي متن ها داراي ساختاري غير مشخص ميباشندو بررسي آنها مشكل است . متن كاوي معمولاًتشكيل شده است از آناليز متن ها بوسيلة استخراج عبارات ، مفاهيم و غيره.

آماده سازي متن هاي پردازش شده در اين حالت جهت آناليز هاي آتي بوسيلة روشهاي داده كاوي عددي (به عنوان مثال جهت مشخص كردن وقوع همزمان مفاهيم ،عبارات كليدي ،نام ها ، آدرس ها ، نام محصولات وغيره )صورت مي گيرد.

انبار داده ها Data Warehousing

Data warehousing را اينگونه تعريف مي‌كنند كه فرآيندي است كه مجموعه داده‌هاي چندمتغييره بزرگ را به گونه‌اي ذخيره مي‌كند. كه بازيابي اطلاعات را جهت مقاصد تحليلي تسهيل كند.

موثرترين معماري Data warehousing قادر خواهد بود كه تمام داده‌هاي قابل استفاده در سيستم گسترده مديريت اطلاعات را تركيب كند يا حداقل بر همة آنها دستيابي پيدا كند. اين كارها با استفاده از تكنولوژي‌هايي مناسبي جهت پيوسته كردن مديريت بانك‌هاي اطلاعاتي صورت مي‌گيرد (نظير Oracle، Sybase، MS SQL SERVER).

تكنولوژي انبار داده‌ها شامل مجموعه‌ای مفاهيم و ابزارهای جديدی است كه با فراهم آوردن اطلاعات از دانشگران (افراد اجرايي، مدير و تحليلگر) در تصميم گيری پشتيباني مي‌نمايد. دليل اصلي ساخت انبار داده ها، بهبود كيفيت اطلاعات در سازمان است، در واقع دسترسي به داده‌ها از هر جا درون سازمان داده‌ها از منابع داخلي و خارجي تهيه مي‌شوند و به اشكال گوناگون از داده‌های ساختاری گرفته تا داده‌های ساخت نيافته مانند فايل‌هاي متني يا چند رسانه‌ای، در مخزني مجتمع مي‌شوند. انبار داده‌ها يا DWH مخزني از اين داده‌هاست كه به صورتي قابل درك در دسترس كاربران نهايي كسب و كار قرار مي‌گيرد.

از اواسط سالهای 1980 نياز به انبار داده‌ها به وجود آمد و دريافتند كه سيستم های اطلاعاتي بايد به صورت سيستم‌های عملياتي و اطلاعاتي مشخص شوند. سيستم‌های عملياتي از فعاليت‌های روزانه كسب و كار پشتيباني مي‌نمايند و برای پاسخگويي سريع به ارتباطات از پيش تعريف شده مناسب هستند. داده‌های عملياتي ارائه بي‌درنگ و فعلي وضعيت كسب و كار مي‌باشند. اما سيستم‌های اطلاعاتي براي مديريت و كنترل كسب وكار به كار مي‌روند. اين سيستم‌ها از تجزيه و تحليل داده‌ها براي اتخاذ تصميم درباره عملكرد آني و آتي سازمان پشتيباني مي‌كنند و برای در خواست‌هاي موردی، پيچيده و به طور عمده فقط خواندني طراحي شده‌اند.داده‌هاي اطلاعاتي تاريخي هستند، به عبارتي بيانگر ديدگاه ثابتي از كسب وكار در يك دوره زماني مي‌باشند.

مشخصات انبار داده ها :

چهار خصوصيت اصلي انبار داده عبارتند از :

• موضو ع گر ا: هر انبار داده داده هاي مرتبط با يک موضوع خاص را در خود نگاه مي دارد و اين داده ها را به منظور استخراج مفاهيم و نتايج خاصي به شكلي ويژه سازماندهي مي کند. بدين ترتيب سرعت جستجوها بسيار بالا خواهد بود. انبار داده براي پاسخگويي به پرسشهاي مختلف در مورد يک موضوع خاص بهينه سازي مي شود.

• مجتمع : در سيستمهاي مختلف داده ها ممکن است از جنبه هاي مختلفي با هم نامتناسب باشند. مثلا منابع داده در کشورهاي مختلف با زمان و تاريخهاي مختلف ذخيره شد هاند. و يا منابعي که از ماشين هاي مختلف هستند در اعداد، حروف و ديگر فيلدها متناسب با محدوديتهاي ماشين، سيستم عامل و تطابق با استانداردهاي مختلف متفاوت هستند. با توجه به مختلف بودن منابع انبا رداده، قبل از ذخيره سازي آ نها در انبار داده براي تأمين يکپارچگي تکنيکهاي پاکسازي داد هها ٣ و مجتمع سازي به کار ميرود. با توجه به اين موضوع که داد ه ها زير نظر مديريت واحدي ذخيره سازي مي شوند، داد ه هاي سازگاري خواهيم داشت که داشتن

چنين سازگاري در ساير سيستم ها مثل سيستمهاي شبکه اي و توزيعي ناممکن است.

• متغير با زمان: داد ه ها در انبا رداده براي تهيه اطلاعات تاريخي به کار مي روند.

هر ساختار کليدي در انبار داده شامل عنصر زمان يا همان مهر زماني است اين مهر زماني به عنوان کليدي به ساير جداول عمل مي کند. در سيستم انبار داده داده ها هرگز به روز درآوري نميشوند. بلكه داد ه هاي جديد و يا تغيير يافته با مهرهاي زماني جديد به انبار اضافهمي شوند.

• غير فرار: داد ه هاي انبا رداده هميشه از لحاظ فيزيكي مجزا هستند ، و هيچگاه نيازي به تغيير و به روز

درآوري نخواهند داشت. با توجه به اين موضوع، انبار داده مثل پايگاه داد ه هاي معمولي احتياجي به پردازش تراکنش، بازگرداندن فرايند و مکانيزم کنترل تصادم ندارد. علاوه بر اين نيازي به ايجاد و دسترسي انحصاري به داد ه ها نخواهيم داشت. فقط به دو فعاليت کليدي احتياج داريم :

· بارکردن داد ه ها

· دسترسي به داده ها

سيستم هاي انبار داده :

سيستم انبار داده‌ها (DWS) شامل انبار داده‌ها و همه مولفه‌هايي است كه براي ساخت، دستيابي و نگهداری DWH به كار مي‌روند. انبار داده‌ها بخش مركزی سيستم انبار داده‌ها را تشكيل مي‌دهد. گاهي اوقات انبار داده‌ها حجم عظيمي از اطلاعات را در واحدهای منطقي كوچكتر به نام Data Mart نگهداري مي‌كند. مولفه آماده سازی، مسووليت كسب يا دريافت داده‌ها را بر عهده دارد. اين مولفه شامل همه برنامه‌ها و‌برنامه‌های كاربردی‌ای است كه مسوول استخراج داده‌ها از منابع عملياتي هستند. مولفه دستيابي شامل برنامه‌های كاربردی مختلف (OLAP يا برنامه‌های كاربردی داده كاوی) است كه امكان استفاده از اطلاعات ذخيره شده در انبار داده‌ها را فراهم مي‌آورند.

مولفه مديريت Metadata، وظيفه مديريت، تعريف و دستيبابي به انواع مختلف Metadata را بر عهده دارد. در اصل ،‌Metadata “داده‌هايي درباره داده‌ها” يا “داده‌هايي است كه مفهوم داده‌ها را توصيف مي‌كنند”. انواع مختلف Metadata در انبار داده‌ها وجود دارند. مثلا اطلاعاتي درباره منابع عملياتي، ساختار داده‌هاي DWH و كارهايي كه در حين ساخت، نگهداري و دستيبابي به DWH انجام مي‌شوند. نياز به Metadata شناخته شده است. پياده سازي يك DWS منسجم ،كار پيچيده و دشواري است و شامل دو فاز مي باشد. درفاز اول كه پيكربندي DWS نام دارد، ديدگاه مفهومي انبار داده‌ها مطابق با نيازمنديهای كاربر مشخص مي‌شود. سپس منابع داده‌ای دخيل و روش استخراج و بار گذاري در انبار داده‌ها تعيين مي‌گردد. سرانجام، درباره پايگاه داده‌های مورد نظر و روشهای دستيبابي داده‌ها تصميم گيری خواهد شد. پس از بار گذاري اوليه، در فاز عمليات DWS بايد داده‌های انبار داده‌ها به منظور منظم refresh شوند.

معماري هاي انبار داده :

معماري دولايه:

شمايي از اين معماري در شکل 1 نشان داده است . اين معماري از 4 مرحله تشکيل شده است .

1-داده ها از فايلها ي و بانکهاي اطلاعاتي مختلف گرفته مي شوند .

2- داده هاي منابع مختلف قبل از لود شودن يکپارچه مي شوند.

3-Data ware house بوجود مي آيد که شامل داده هاي جرئي و نيز خلا صه داده هاست. هدف از آن پشتيباني از فر آيند تصميم گيري است . Data ware house استفاده مي کنند.

4-کاربران با استفاده از ابزارها و پرس و جوها و data mining از داده هاي data ware house استفاده مي کنند.

براي شرکتهاي بزرگ بامنابع ناهمگون اين روش با شکل مواجه مي شود همچنين اين معماري از توزيع پشتيباني بعمل نمي آورد لذا معماري ديگري بنام معماري سه لايه توسط دولين پشنهاد شد .

معماري سه لايه دولين :

اين معماري داراي لايه هاي زير مي باشد :

1-سيستمهاي عملياتي و داده ها

2-enterprise data marehouse

3-Data mart ها.

يک enterprise data marehouse (EDW ) يک انبار داده متمرکز و يکپارچه است که نقطه کنترل و تنها منبع همه داده هايي که براي کاربران نهايي به منظور تصميم گيري قابل دسترسي اند ،به شمار مي رود .بعنوان نقطه کنترل کيفيت و يکپارچگي داده ها را کنترل مي کند و نيز تاريخچه اي از داده هاي حساس به زمان نگه مي دارد.

کاربران دوست ندارند با حجم زيادي اطلاعات که بخش اعظم آن بايستي از آنها ارتباطي ندارند درگير شوند Data mart ، يک data Wrehouse است که دامنه آن محدود نشده است و با انتخاب و خلاصه کردن دادهها از EDW بوجود مي آيد هر Data mart براي گروه خاصي از تقاضا ها طراحي شده است . EDW و mart Data به شرکت اجازه مي دهد تا داده هايي که از تصميم گيري پشتيباني بعمل مي آورند را براي گروههاي مختلف کاربران customize کند لذا مي توان از فوايد پردازش توزيع شده استفاده بعمل آورد. تبديل منابع داده ناهمگون به قالبي که براي تصميم گيري مناسبي باشد داراي پيچدگي زيادي مي باشد.

OLAP (فرآيند آناليز آن لاين) Online analytic processing:

عبارت فرآيند آناليز مستقيم OLAP (يا آناليز سريع داده‌هاي چند بعدي اشتراكي FASMI). به تكنولوژي اطلاق مي‌شود. كه به كاربران بانك‌هاي اطلاعاتي چند بعدي اجازه مي‌دهد تا بصورت آن لاين پرس و جوهاي توصيفي يا مقايسه‌اي (ديده) و پرس و جوهاي تحليلي از داده‌ها توليد كنند. توجه داشته باشيد كه بر خلاف نام OLAP آناليزهاي انجام شده در آن نبايد در واقع به صورت آن لاين باشند (يا real – time) و اين عبارت به اين منظور به كار مي‌رود. كه نشان دهندة آناليز بانك‌هاي اطلاعاتي چند بعدي (واضح است كه مي‌تواند شامل اطلاعات به روز شده ديناميك باشد) بوسيله پرس و جوهاي چند بعدي موثر كه به انواع داده‌اي مختلف ارجاع مي‌كنند باشد.

تسهيلات OLAP مي‌تواند در يك سيستم تركيبي بانك اطلاعاتي گنجانده شود تا به تحليلگر و اداره كننده‌گان سيستم امكان نظارت بر عملكرد كار و بازار را مي‌دهد. (به عنوان مثال مي‌توان جنبه‌هاي مختلف فرآيندهاي صنعتي يا تعداد تراكنش‌هاي تكميل شده در مكان‌هاي مختلف را در نظر گرفت).

نتيجة نهايي تفكيك‌هاي OLAP مي‌تواند بسيار ساده باشد. (به عنوان مثال جداول تناوب، توصيفات است يا و جداول تنظيمات) يا به صورت پيچيده‌تر مثلا مي‌توانند شامل اصطلاحات فصلي، حذف اطلاعات خارجي و فرم‌هاي ديگر حذف داده‌ها باشد.

تكنيك‌هاي داده كاوي مي‌توانند بر روي هر نوع دادة پردازش نشده يا حتي بدون ساختار، اعمال شوند. و همچنين مي توانند بر روي Viewها و پرس و جوهاي توليد شده توسط OLAP جهت توليد دانش عميق‌تر و در بيشتر مواقع چند بعدي به كار روند. در اينجا تكنيك‌هاي داده كاوي مي‌توانند به عنوان يك دست آورد تحليلي متفاوت تلقي گردد (ارائه اهدافي متفاوت با OLAP) يا به عنوان يك تحليل تعميم يافته از OLAP در نظر گرفته شود.

تحليل كاوشگرايانة داده‌ها:

Exporatory data Analysis (EDA)

روش تحليل كاوشگرايانه داده‌ها (EDA) در مقابل روش فرضية آزمون (hypothesis Testing) قرار دارد. روش فرضيه آزمون فرضيه‌هاي موجود در مورد ارتباط علت و معلولي بين متغيير ها را بررسي مي‌كند. (به عنوان مثال يك ارتباط مثبت بين سن فرد و درصد ريسك پذيري او وجود دارد)

در حالي كه روش تحيليل كاوشگرايانة داده‌ها (EDA) جهت تعريف يك ارتباط سيستماتيك بين متغييرها در زماني كه هيچ ارتباط علت و معلولي منطبق با طبيعت آن مسئله بين متغييرها وجود ندارد، به كار مي‌رود.

در يك فرآيند نوعي تحليل كاوشگرايانة داده‌ها متغييرهاي زيادي در نظر گرفته مي‌شوند و مقايسه مي‌شوند. در اين تكنيك روشهاي مختلفي در حين جستجو جهت يافتن الگوهاي سيستماتيك به كار گرفته مي‌شود.

تكنيك‌هاي محاسباتي EDA: :

techniques Computational EDA

تكنيك‌هاي محاسباتي آنالير كاوشگرايانه داده‌ها شامل روشهاي ساده استاتيك است و همچنين تكنيك‌هاي پيشرفته‌تر چنده متغييره كاوشگرايانه طراحي شده جهت تشخيص الگوهاي چند متغييره در مجموعة داده ها را نيز شامل مي‌شود.

روشهاي كاوشگرايانة پايه:

اين روشها كه شامل تكنيك‌هاي نظير: آزمون گستردگي متغييرها (مانند الگوهاي با انحراف بالا يا غير نرمال)، بررسي جداول همبستگي بزرگ براي ضرايب‌اي كه داراي يك آستانه مي‌باشند.

تكنيك‌هاي كاوشگرايانه چند متغييره:

اين تكنيك جهت تشخيص الگوها در مجموعة داده‌هاي چند متغييره طراحي شده‌اند. (يا يك متغيير مثل تناوب اندازه‌ها) كه شامل: آناليز گروهي، آناليز فاكتور، آناليز توابع تفكيك شده، مقياس گذاري چند بعدي، همبستگي متعارف،رگرسسيون خطي و غير خطي، آناليز تناظري و درخت‌هاي رده بندي. مي باشد.

تكنيك‌هاي گرافيكي EDA:

تكنيك‌هاي گسترده‌اي از روشهاي كاوشگرايانه EDA توسط روشهاي گرافيكي EDA پيشنهاد شده است. كه قادر است ارتباطات، روندها و مقادير نهفته در مجموعه داده‌هاي غير ساخت يافته را تشخيص دهد.

Brushing

شايد رايج‌ترين و قديمي‌ترين روشي كه صراحتا” جهت مشخص كردن آناليز تحليلي گرافيكي داده‌ها به كار مي‌رود brushing باشد. كه يك روش تعاملي است كه به كاربر اجازه‌ مي‌دهد تا نقاط خاصي از داده‌ها يا زير مجموعه‌اي از داده‌ها را انتخاب كند و مشخصات آنها را تشخيص دهد و تأثير آنها را بر روي ارتباطات متغييرهاي مربوط ملاحظه كند.

اين ارتباطات بين متغييرها مي‌تواند بوسيلة توابع مناسبي نمايش داده شود (به صورت 2 بعدي يا 3 بعدي) و فاصله اطمينان آنها را تعيين كند.

به عنوان مثال كاربر مي‌تواند تغييرات را به صورت تعاملي (دوره‌اي) با حذف يا اضافه كردن يك زير مجموعة خاص از داده بر روي تابع ملاحظه كند.

اگر Brushing خصيصه‌هايي نظير animation brushing يا automatic Function refithing را پشتبياني كند. كاربر مي‌تواند يك brush به صورت دايناميك تعريف كند كه مي‌تواند بر روي مقادير پي در پي يك متغيير حركت كند. و مشاركت پوياي آن متغيير را در ميان ارتباطات متغييرهاي مربوط در آن مجموعة داده امتحان كند.

تفكيك‌هاي گرافيكي ديگر EDA:

روشهاي ديگر تكنيك‌هاي گرافيكي آناليز كاوشگرايانة داده‌ها شامل طراحي و گنجاندن توابع، data sthing، بر روي هم قرار دادن و بر هم متصل كردن تصاوير، طبقه بندي داده‌ها، جدا كردن و متصل كردن زير مجموعه داده‌ها در يك گراف، تجمع داده‌ها در گراف، تشخيص و علامت گذاري زير مجموعه داده‌ها كه داراي شرايط خاصي مي‌باشند و مكانيابي نشانه‌ها و مشخص كردن فواصل و نواحي اطمينان، طيف سطوح، تراكم لايه‌اي تراز نقشه‌ها، تكنيك‌هاي كاهش تصاوير داده‌ها، چرخش تعاملي بوسيله لايه‌بندي‌هاي انيميشني و صفحات سه بعدي و مشخص كردن انتخابي سري و بلوك داده‌‌هاي خاص مي باشد

بررسي صحت نتايج EDA

كاوش داده فقط به عنوان اولين مرحلة آناليز داده‌ها، عمل مي‌كند. و نتايج آن تا زماني كه صحت آنها توسط زير مجموعه داده‌هاي ديگر مورد تأئيد قرار نگرفته بطور موقت مورد استفاده قرار مي‌گيرند. اگر نتايج مرحلة كاوش يك مدل خاص را ارائه كرد در آن صورت اعتبار آن بوسيله اعمال كردن يك مجموعه داده‌هاي جديد و تست كردن آن مورد تأييد قرار مي‌گيرد. (به عنوان مثال آزمايش اعتبار پيشگويي‌هاي آن)، مي‌توان از مكانيسم‌ انتخاب نمونه‌هايي با شرايط مختلف جهت توليد زيرمجموعه‌اي از داده‌ها براي آزمودن پايداري نتايج استفاده كرد

شبكه‌هاي عصبي:

پس از فرآيندهاي يادگيري در سيستم‌هاي مبتني بر شناخت و توسط توابع عصبي مغز تكنيك‌هاي تحليلي شبكه‌هاي عصبي مدلسازي شده‌اند و قادرند مفاهيم جديدي را (مبتني بر متغييرهاي خاص) از مفاهيم ديگري (مبتني بر همان متغييرها يا متغييرهاي ديگر) پيشگويي و استنتاج نمايند كه پس از اجراي چنين فرآيندي آنرا يادگيري از داده‌هاي موجود مي‌نامند. شبكه‌هاي عصبي يكي از تكنيك‌هاي داده كاوي است.

اولين مرحله طراحي يك معماري شبكه‌اي است (كه شامل تعداد مشخصي از لايه‌ها كه هر كدام تشكيل شده است از تعداد معيني رشتة عصبي)

اندازه و ساختار شبكه بايد متناسب با طبيعت پديده مورد بررسي باشد.

واضح است كه پيچيدگي مسئله براي ما در اين مراحل اوليه به درستي مشخص نيست. براي همين كار ساده نمي‌باشند و نيازمند چندين آزمون و خطا مي‌باشد. البته امروزه نرم افزارهاي شبكه‌هاي عصبي وجود دارد كه اعمال تكنيك‌هاي هوش مصنوعي جهت انجام اين كار به ما كمك مي‌كنند و بهترين معماري شبكه‌اي را براي ما مي‌يابند.

در اين فاز شبكه بوجود آمده در اختيار فرآيند تعميم (Traning) گذاشته مي‌شود. و رشته‌هاي عصبي يك فرآيند تعاملي به ورودي‌ها (متغييرها) اعمال مي‌كنند و وزن‌هاي شبكه را تنظيم مي‌كنند تا نمونة داده اي را كه trainng) بر روي آن صورت گرفته به صورت بهينه پيشگويي كنندپس اينكه فاز ديگري از مجموعة داده‌هاي موجود به اتمام رسيد شبكة جديد آماده است تا جهت توليد پيشگويي مورد استفاده قرار گيرد.

شبكه‌اي كه در طي فرآيند learning ايجاد شده الگويي كه در داده‌ها يافته است را ارائه مي‌كند. در اين دست آورد شبكه يك معادل تابعي از مدل ارتباط بين متغييرها در روش قديمي مدلسازي مي‌كند بر خلاف مدل قديمي در شبكه روابط بين متغييرها نمي‌توانند بصورت عبارات تفصيلي معمول در استاتيك يا متدولوژي‌ها تشريح شوند. (براي مثال A باB به طور مستقيم در ارتباط است فقط در مورد مشاهداتي كه در آنها مقدار C كم و مقدار D زياد باشد) با وجود اينكه آنها يك دست آورد تئوريكي ارائه مي‌دهند.

برخي شبكه‌هاي عصبي مي‌توانند پيشگويي‌هاي بسيار دقيقي توليد كنند. اين دست آورد فقط مسائل عملي و كاربردي را مورد توجه قرار مي‌دهد. راه حل‌هاي آن داراي پيشگويي معتبر است و روابط آن به صورت كاربردي موجودند. و از طبيعت مكانيسمي كه توسط آن ايجاد شده يا از هر نوع تئوري كه مبتني بر آن است مستقل است.

تكنيك‌هاي شبكه‌هاي عصبي مي‌توانند به عنوان يكي از مولفه‌هاي آناليز طراحي شوند تا مدل‌هاي تشريحي ايجاد كنند اين بدان دليل است كه شبكه‌هاي عصبي مي‌توانند به فرآيند كاوش مجموعه داده‌ها جهت يافتن متغييرها يا گروه متغييرهاي مرتبط كمك كنند. و نتايج چنين كاوش‌هايي مي‌توانند فرآيند مدلسازي را تسهيل كنند. امروزه نرم افزارهاي داده كاوي‌اي موجود است كه توسط الگوريتم‌هاي پيچيده‌اي به جستجوي مرتبط‌ترين متغييرهاي ورودي مي‌پردازد. كه به صورت بالقوه ما را در فرآيند مدلسازي ياري مي‌كنند.

يكي از مزاياي اصلي شبكه‌هاي عصبي اين است كه آنها قادرند هر نوع تابعي را تقريب بزنند به همين دليل جستجوگر نيازي ندارد كه در مورد مدل استفاده شده اطلاعي داشته باشد.

يكي از اشكالات شبكه اصلي زماني پيش مي‌آيد كه راه حل آخر به شرايط اوليه شبكه وابسته باشد و همچنين غير ممكن است كه شما بتوانيد بصورت مجازي راه حل را به فرم عبارات تحليلي قديمي تفسير كنيد

نتيجه گيري :

با استفاده از داده كاوي ما قادر خواهيم بود علت برخي از شرايط و پيشامد ها را توضيح دهيم ، بتوانيم يک نظريه را تأ ييد يا رد کنيم ، بتوانيم داده ها را براي ارتباطات جديد يا پيش بيني نشده تحليل کنيم

اين قابليتها در صنايع مختلفي از خرده فروشي گرفته تا شركت هاي بزرگ مخابراتي براي بهينه سازي

دستيابي به اهداف برنامه ريزي، بازا ريابي هدف دار و حفظ مشتري مورد استفاده قرار مي گيرند. قابليتهاي تكنيك هاي داده كاوي، در مقايسه با رو شهاي سنتي رگرسيون و مدل سازي خطي، بسيار قوي تر عمل مي كنند.

داده كاوي در پياده سازي قابليت هاي خود از الگوريتمهاي هوش مصنوعي، مثل شبكه هاي عصبي، بهره

مي گيرد، كه مي كوشند تقليدي از عملكرد مغز انسان براي محاسبات موازي ارائه كنند. داده كاوي توانسته است با استفاده از شبكه هاي عصبي و ديگر مفاهيم بر گرفته از هوش مصنوعي به نتايجي دست پيدا كند كه حتي متخصصين اين زمينه به آنها دست نيافته اند. اين تكنيكها امكان تحليل مقادير بسيار بزرگتري از داده را در مقايسه با رو شهاي سنتي فراهم مي آورد. به علاوه داده كاوي كشف دانش ازاطلاعات را در پي خواهد داشت و باعث پديد آمدن پيش بيني هايي مي شود كه فراتر از عملكرد متخصصين اين حوزه است.

مراجع :

[1] L. English: Improving Data Warehouse and Business Information Quality. Wiley,

New York et al.1999.

[2] Jiawei han , micheline Kamber “Data Mining :concepts And Techniques “ simon Fraser university 2000

[3] http://www.thearling.com

[4] http://www.autonlab.org/tutorials

داده کاوی Data mining

Related Posts

پردازش تصویر

رتبه‌بندي كشورها در زمينه بسترسازي الكترونيكي

دولت الکترونیک

حافظه و انواع آن

تاريخچه انيميشن

هوش مصنوعی

همه چیز درباره موتور های جستجو گر در جهان