ت دادههای تجاری را با دادههای دولتی استفاده و ترکیب کنند، آیا منابع داده به منظورهایی غیر از هدف اصلی طراحی میشوند و کاربردهای ممکن از اعمال محرمانگی چیست؟ [25]
2-7 محدودیت‌های داده کاوی
“گـرچه داده کاوی پیشرفت شگرفی در نوع ابزارهای تحلیلی موجود به وجود آورده است، لکن محدودیت‌هایی نیز درباره کاربردپذیری آن وجود دارد. یکی از محدودیت‌ها این است که ابزارهای داده کاوی هنوز استانداردسازی نشده‌اند و از نظـر تأثیرگذاری اختـلاف فـاحشـی با یکـدیگـر دارنـد. محدودیت دیگر آن است که گــرچــه داده کـاوی می‌تواند بـه آشکـارسـازی انگاره‌ها و رابطه‌ها کمک کند اما نمی‌تواند ارزش یا اهمیت این انگاره‌ها را به کاربر بگوید. بـنــابــرایــن، خــود کــاربـر بـایـد ایـن اطـلاعـات را مشخـص کنـد. محـدودیـت دیگـر این است که گرچه داده کاوی می‌تواند روابط بین رفتارها یا متغیرها را شناسایی کند، اما لزوما نمی‌تواند یک رابطه تصادفی را شناسایی کند”[26].
2-8 مراحل داده کاوی
چرخهی داده کاوی شامل روشها و مراحل مختلفی میباشد که ما در این پروژه از متدولوژی CRIDP-DM استفاده میکنیم. مراحل متدولوژی نام برده به ترتیب زیر است:
* درک کسب و کار: در اولین قدم بایستی یک تعریف مناسب از مسأله و فضایی که قرار است پروژه در آن اجرا شود، داشت.
* درک دادهها: در دومین قدم بایستی تمامی دادهها جمع آوری شود و مورد بررسی قرار گیرند. در این مرحله دادهها تعریف و یک دید از هرکدام از دادهها ارائه میشود.
* آماده سازی دادهها: در این بخش دادههای مورد نیاز تشخیص داده شده و یا دادههای جدید از ترکیب دادههای قبلی تولید میشوند.
* ساخت مدل: در این مرحله بایستی با استفاده از دادههای موجود مدلی برای حل مسأله ساخته شود. این مدل میتواند با هر یک از روشهای داده کاوی در راستای هدف تعریف شده ساخته شود.
* تست و ارزیابی: در این مرحله مدل ساخته شده با دادههای مشخص بایستی مورد تست و ارزیابی قرار بگیرند. در این ارزیابی بنا به تعریف مسأله میتوان معیارهایی مانند دقت و یا سرعت مدل را مورد بررسی قرار داد.
* ارائه مناسب از مدل و نتایج: در آخرین مرحله از این فرآیند بایستی روشی مناسب برای ارائه مدل و نتایج حاصل از اجرا و تست و ارزیابی پروژه انتخاب نمود.
باید توجه داشت که جمع‌آوری و محافظت از داده‌ها نکته بسیار مهمی می‌باشد. اصولاً چون قالب و نوع داده‌ها در طول زمان تغییر می‌کند ممکن است بسیاری از داده‌های موجود در قالب‌های متفاوت باشند و همچنین بسیاری از داده‌های قدیمی از بین رفته و دور ریخته شوند. درحالی‌که ممکن است اهمیت این داده‌ها از داده‌های جدید به هیچ‌وجه کمتر نباشد. همچنین به علت اینکه داده‌ها از منابع مختلف داخلی و خارجی مانند کارکنان شرکت، مدیران، مشتریان، کارفرمایان، پیمانکاران باشند باز هم ممکن است قالب داده‌ها باهم یکسان نباشد. به همین دلیل انتخاب داده‌های درست و یکپارچه‌سازی قالب آن‌ها به منظور استفاده در داده کاوی از اهمیت بسیار بالایی برخوردار می‌باشد[27].

در این سایت فقط تکه هایی از این مطلب با شماره بندی انتهای صفحه درج می شود که ممکن است هنگام انتقال از فایل ورد به داخل سایت کلمات به هم بریزد یا شکل ها درج نشود

شما می توانید تکه های دیگری از این مطلب را با جستجو در همین سایت بخوانید

ولی برای دانلود فایل اصلی با فرمت ورد حاوی تمامی قسمت ها با منابع کامل

اینجا کلیک کنید

2-9 وظایف و تکنیک های داده کاوی
1. کلاس‌بندی
2. تخمین
3. پیش‌بینی
4. گروه‌بندی وابستگی‌ها
5. خوشه‌بندی
6. نمایه‌سازی توصیفی
2-9-1 کلاس‌بندی
کلاس‌بندی به معنای یادگیری تابع نگاشت ترکیب مقادیر خصایص به دسته‌های مختلف و تعیین کلاس از یک شی پایه بر اساس ویژگی‌هایش می‌باشد. هر شی‌ای که کلاس‌بندی می‌شود به صورت عمومی توسط رکوردهایی در جدول یک پایگاه داده یا در یک فایل بیان می‌گردد و عمل کلاس‌بندی با اضافه نمودن یک ستون جدید به همراه کد کلاس انجام می‌شود. وظیفه کلاس‌بندی به خوبی توسط تعریف کلاس‌ها و یک مجموعه آموزشی شامل نمونه‌های کلاسه‌ای از پیش تعریف‌شده مشخص می‌گردد .و در نهایت مدلی ساخته می‌شود که می‌توان داده‌های غیر کلاس‌بندی به این کلاس‌ها تخصیص داد [28].

2-9-2 تخمین
برآورد کردن با مقادیر خروجی پیوسته سروکار دارد .به صورت تجربی برآورد کردن اغلب قبل از کلاس‌بندی استفاده می‌شود. از مزایای رویکرد برآورد این است که رکودهای منحصربه‌فرد می‌توانند مطابق با برآورد رتبه ترتیبی اتخاذ نمایند [28].
2-9-3 پیش‌بینی
پیش‌بینی همانند کلاس‌بندی است و انتظار می‌رود رکودهایی که کلاس‌بندی شده‌اند بر طبق بعضی از ویژگی‌های کلاس‌ها بتوانند پیش‌بینی‌های رفتارهای آینده به همراه تخمین ارزش‌های آینده باشند. در پیش‌بینی تنها راهی که مشخص می‌کند کلاس‌بندی ما صحیح بوده این است که منتظر بمانیم و ببینیم. داده‌های تاریخی برای ساخت مدلهای مفید هستند که رفتار مشاهدات جاری را توصیف نمایند و زمانی که مدل پیش‌بینی برای ورودی‌های جاری بکار برده می‌شود ،حاصلش این است که رفتارهای آینده را پیش‌بینی می‌نماید [28].
2-9-4 قواعد وابستگی یا گروه‌بندی پیوستگی‌ها
قواعد انجمنی قابلیتی برای یافتن روابط ناشناخته موجود در اطلاعات است. این روابط مواردی از قبیل اینکه حضور مجموعه‌ای از مقولات اشاره به این دارند که مجموعه مقولات دیگری نیز احتمالاً وجود دارند را شامل می‌شود. این قواعد و وابستگی‌ها برای مشخص کردن چیزهایی است که باهم هستند .این وظیفه قلب تحلیل سبد بازار است و رویکردی ساده برای تولید قاعده دار داده می‌باشد[28].
2-9-5 خوشه‌بندی
این وظیفه برای بخش‌بندی جمعیت ناهمگن به زیرمجموعه‌های همگن یا همان خوشه‌ها می‌باشد. تفاوت عمده خوشه‌بندی با کلاس‌بندی در این است که بر اساس کلاس‌های از پیش تعریف‌شده عمل نمی‌نماید. در کلاس‌بندی هر رکورد به کلاس‌های از پیش تعریف‌شده‌ای که بر پایه توسعه مدل یادگیری می‌باشند، تخصیص داده می‌شود درحالی‌که در خوشه‌بندی کلاس‌های از پیش تعریف‌شده وجود ندارد و رکوردها بر پایه شباهت‌هایشان، گروه‌بندی می‌شوند [28].