کنتورهای خراب در چندین دسته مانند کنتورهای خراب، کنتورهایی با احتمال بالای خرابی، کنتورهایی با احتمال پایین خرابی و… شبکه دارای چندین خروجی خواهد شد.
* با استفاده از دادههایی که از شناسایی یکسری محدود دادههای کنتورهای سالم و همچنین یکسری محدود دادههای کنتورهای خراب، شبکه آموزش داده میشود.
* اختلافات بوجود آمده بین دادههای یک مشترک در طول زمان و استمرار آن را میتوان دلیل بر خرابی کنتور دانست.
1-7 راهکار ارائه شده
با توجه به حساسیت این شرکت بر روی دادهها قبلا مجوز دسترسی به فیلدهای مربوطه گرفته شده است و منبع دادهها پایگاه داده شرکت ملی گاز کرمانشاه است. الگوریتمهای داده کاوی را از یک دید کلی بر اساس نوع میتوان به 2 گروه تقسیم کرد که عبارتند از دسته بندی و خوشه بندی. دسته بندی شامل بررسی ویژگیهای یک شی جدید و تخصیص آن به یکی ازمجموعههای از قبل تعریف شده میباشد ولی خوشه بندی به عمل تقسیم ناهمگن به تعدادی از زیر مجموعهها یا خوشههای همگن گفته میشود]3[. با توجه به تعاریف، نوع استفاده شده در این پروژه دسته بندی میباشد. با توجه به گسسته بودن اطلاعات روشی مشتمل بر شبکه عصبی و درخت تصمیم برای حل مساله مطرح شده طراحی میشود. با استفاده از پرسشنامه جهت دستیابی به تجارب مسئولین مرتبط با هدف پروژه، معیارهایی برای تعریف کنتور سالم و کنتور خراب از دیدگاه شرکت مشخص خواهد شد. نتیجه این پرسشنامه که ویژگیهای کنتور خراب را از دید مسئولین مشخص خواهد کرد که در تشخیص معیارهای ارزیابی کمک خواهد نمود. با توجه به معیارهای بدست آمده و ترکیب آنها با معیارهای مهندسی شده درمورد ساختار شبکه عصبی تصمیم گرفته خواهد شد و همچنین معیارهای مقایسه در درخت تصمیم مورد نظر بدست میآید. دادههای ارزیابی شده به عنوان مجموعه اعتبارسنجی انتخاب میشود که جدای از دادههای آموزش شبکه میباشد. بعد از آموزش شبکه عصبی و درخت تصمیم نسبت به ارزیابی و اعتبار سنجی آنها با مناسبترین الگوریتم از بین الگوریتمهای نام برده شده در شرح مسأله اقدام خواهد شد. بعد از اتمام طراحی و اعتبار سنجی روش حاصل توسط ابزارهای داده کاوی تست و اجرا میشوند و در صورت بروز مشکل یا احتمال خطا با توجه به تکرارپذیر بودن داده کاوی مراحل گفته شده دوباره تا حصول بهترین نتیجه تکرار خواهند شد. بعد از اتمام کلی و نهایی شدن طراحی، روش حاصله توسط ابزارهای داده کاوی تست و اجرا گشته و در نهایت نتایج جهت کمینه کردن هزینهی پروژهی مذکور در شرکت ملی گاز کرمانشاه به آن شرکت ارائه خواهد گردید.
روند داده کاوی نیز طبق متودلوژی 5CRISP-DM ]6[ پیش خواهد رفت که در شکل 1 میتوان آن را مشاهده نمود.
شکل 1- مدل فرآیند CRISP-DM برای کاربردهای داده کاوی]6[
با توجه به اینکه داده کاوی یک فرآیند تکرارشونده است این مراحل تا حصول یک نتیجه قابل قبول تکرار خواهند شد.
تکنیکهای داده کاوی را میتوان به منظور ساخت سه نوع مدل، برای سه نوع فعالیت بکار برد که عبارتند از نمایه سازی توصیفی6، نمایه سازی هدایت شده7 و پیش بینی]3[ که پروژه حاضر از نوع نمایه سازی هدایت شده میباشد.
با توجه به استفاده از درخت تصمیم و شبکه عصبی در این پروژه مراحل انجام طراحی برای هر قسمت جداگانه در ادامه توضیح داده خواهد شد.
الگوریتمهای درخت تصمیم در دسته بندی دادههای جدید بهترین عملکرد را ندارد. میتوان اینگونه گفت که درخت، الگوهای کلی را در گرههای بزرگ و الگوهای خاص را در گرههای کوچکتر مییابد. به عبارتی، درخت بر مجموعه آموزشی محاط شده8 که نتیجه آن یک درخت بیثبات و ناتوان در پیش بینیهای مناسب میباشد. علاج کار، حذف تقسیمات ناپایدار از طریق ادغام برگهای کوچکتر توسط فرآیندی است که هرس کردن نام دارد]10[. برای هرس کردن یکی از الگوریتمهای موجود مانند هرس کارت9 ]11[، هرس C5 ]11[، هرس ثبات محور10 ]10[ استفاده خواهد شد.
برای اندازه گیری خلوص ارزیابی تقسیمات در متغیرهای تابع هدف درخت تصمیم با توجه به دستهای یا عددی بودن آن از روشهای رایج مانند جینی ( پراکندگی جمعیت)]12[، آنتروپی11 (بهره اطلاعاتی)]13[، نسبت بهره اطلاعاتی12 که بیشترین کارایی را دارد استفاده شده است]10[.

برای طراحی شبکه عصبی در راستای اهداف پروژه مراحل زیر دنبال خواهد شد]10[:
1. تشخیص مشخصههای ورودی و خروجی
2. تبدیل ورودیها و خروجیها به نحوی که در یک بازه کوچک قرار گیرند.
3. ایجاد شبکه با یک ساختار13 مناسب
4. آموزش دادن شبکه به کمک مجموعه دادههای آموزشی
5. استفاده از مجموعه اعتبار سنجی، جهت انتخاب مجموعه اوزانی که خطا را به حداقل میرساند
6. ارزیابی شبکه با استفاده از مجموعه آزمون به منظور بررسی کیفیت عملکرد آن
7. به کار گرفتن مدل ساخته شده توسط شبکه جهت پیش بینی نتایج متناظر با ورودیهای نامعلوم
بعد از طراحی شبکه عصبی توسط مراحل گفته شده میتوان به سوالات زیر پاسخ داد:
تابع فعال سازی14 چیست؟
ساختار شبکه چگونه است؟
شبکه چگونه آموزش داده میشود؟
ساختار شبک دارای حداقل دو لایه پنهان است. بر روی یالهای شبکه اوزانی با استفاده از روش پس انتشار خطا15 برای تنظیم و تشخیص ورودیها در نظر گرفتیم. در نهایت بعد از طراحی، مدل را ساخته و در نرم افزار Rapid Miner 5 تست و اجرا کردیم و اشکالات را یافته و با تکرار مراحل طراحی آنها را رفع کردیم تا در نهایت مدل طراحی شده بتواند به مسأله مطرح شده پاسخ قابل قبولی را ارائه دهد.
1-8 ساختار پایان‌نامه
در ادامهی متن پایان نامه، ساختار کلی فصول مختلف به صورت زیر خواهند بود:
* فصل دوم: این فصل مروری بر ادبیات و پیشینه پروژه میباشد که در آن به معرفی اولیه الگوریتمها و روشهای اجرا شده در پروژه اشاره میکنیم.
* فصل سوم: در این فصل فرآیند داده کاوی انجام شده و روشها تست و ارزیابی میشوند و در نهایت روش ترکیبی از بهترین نتایج بدست آمده را تشکیل داده و معرفی میکنیم.
* فصل چهارم: این فصل به نتیجه نهایی پروژه و معرفی راهکارهای آینده اشاره میکند.

فصل دوم
مروری بر ادبیات و پیشینه تحقیق
2-1 داده کاوی چیست؟
بنا بر اعلام دانشگاه MIT دانش نوین داده کاوی یکی از ده دانش در حال توسعه‌ای است که دهه آینده را با انقلاب تکنولوژیکی مواجه می‌سازد. این تکنولوژی امروزه دارای کاربرد بسیار وسیعی در حوزه‌های مختلف است، به گونه‌ای که امروزه حد و مرزی برای کاربرد این دانش در نظر نگرفته‌اند [14].
داده کاوی، تحلیل داده و کشف الگوهای پنهان با استفاده از ابزارهای خودکار و یا نیمه خودکار است و هم چنین فرآیندی پیچیده جهت شناسایی الگوها و مدل های صحیح، جدید و به صورت بالقوه مفید در حجم وسیعی از داده می‌باشد، به طریقی که این الگوها و مدلها برای انسان‌ها قابل‌درک باشند. جمع‌آوری داده‌ها سبب شده سازمان‌ها منابع داده غنی و دانش ناچیزی داشته باشند. حجم این مجموعه داده‌ها به سرعت افزایش می‌یابد و باعث محدود شدن استفاده کاربردی از داده‌های ذخیره‌شده می‌شود. هدف اصلی داده کاوی استخراج الگوها از داده‌های موجود، افزایش ارزش ذاتی‌شان و تبدیل داده به دانش است [14].
با گسترش سیستمهای پایگاهی و حجم بالای داده‌های ذخیره‌شده در این سیستمها، به ابزاری نیاز است تا بتوان این داده‌ها را پردازش کرد و اطلاعات حاصل از آن را در اختیار کاربران قرارداد. معمولاً کاربران پس از طرح فرضیه‌ای بر اساس گزارشات مشاهده‌شده به اثبات یا رد آن می‌پردازند درحالی‌که امروزه به روش‌هایی نیاز داریم که به کشف دانش می‌پردازند، یعنی روش‌هایی که با کمترین دخالت کاربر و به صورت خودکار الگوها و رابطه‌های منطقی را پیدا کرده و بیان نماید.
امروزه، بیش‌ترین کاربرد داده کاوی در بانک‌ها، مراکز صنعتی و کارخانجات بزرگ، مراکز درمانی و بیمارستان‌ها، مراکز تحقیقاتی، بازاریابی هوشمند می‌باشد. داده کاوی فرآیند اکتشاف اطلاعات و روندهای نهفته از درون حجم بسیار زیاد داده‌هایی است که در قالب پایگاه‌های داده‌ای، انباره های داده‌ای و یا هر نوع انباره اطلاعاتی ذخیره می‌شود. داده کاوی اطلاعات موجود در انبار داده‌ها را استخراج و داده‌ها را به دانشی حیاتی و مهم در ارتباط با کسب و کار تبدیل می‌نماید [15]. از طریق داده کاوی و دانش جدیدی که در اختیار قرار می‌دهد، افراد می‌توانند از داده‌ها به عنوان اهرمی جهت خلق فرصت‌ها یا ارزش‌های جدید در سازمان خود استفاده کنند و همچنین برای مسائل طبقه‌بندی و رگرسیون بکار گرفته شود. در مسائل طبقه‌بندی، دسته‌ای از اشیاء که در داخل یک طبقه‌ای قرار دارند پیش‌بینی می‌شوند و در مسائل رگرسیون، یکسری از اعداد، پیش‌بینی می‌گردند.
در حال حاضر، داده کاوی مهم‌ترین فناوری جهت بهره‌برداری موثر از داده‌های حجیم است و اهمیت آن رو به فزونی است [16]. به طوری که تخمین زده شده است که مقدار داده‌ها در جهان هر 20 ماه به حدود دو برابر برسد. در یک تحقیق که بر روی گروه‌های تجاری بسیار بزرگ در جمع‌آوری داده‌ها صورت گرفت مشخص گردید که 19 درصد از این گروه‌ها دارای پایگاه داده‌هایی با سطح بیشتر از 50 گیگابایت می‌باشند و 59 درصد از آن‌ها انتظار دارند که در آینده‌ای نزدیک در چنین سطحی قرار گیرند [16].
2-2 تعاریف متنوعی از داده کاوی
در زیر به تعاریف داده کاوی از دیدگاههای مختلف میپردازیم:
* داده کاوی کشف دانش از پایگاه داده‌ها نامیده می‌شود) نشانگر فرآیند جالب استخراج دانش از قبل ناشناخته (الگو از داده است [17].
* فرآیند کشف الگوهای مفید از داده‌ها را داده کاوی می‌گویند [16].
* فرآیند انتخاب، کاوش و مدل کردن داده‌های حجیم، جهت کشف روابط نهفته باهدف به دست آوردن نتایج واضح و مفید، برای مالک