یگاه داده‌ها را، داده کاوی گویند [17].
* “فاید”16، داده کاوی را این‌گونه تعریف کرد، یک فرایند استخراج از اطلاعات ضمنی ناشناخته و مفید از داده‌های ذخیره‌شده در پایگاه داده‌هاست [18].
* “گودیچی”17، نیز داده کاوی را فرایند انتخاب، اکتشاف ومدل سازی مقادیر زیادی از داده‌ها برای به دست آوردن نتایج روشن و مفید برای پایگاه داده‌ها تعریف می‌کند [18].
اما تعریفی که در اکثر مراجع به اشتراک ذکرشده عبارت است از: “استخراج اطلاعات و دانش و کشف الگوهای پنهان از یک پایگاه داده‌های بسیار بزرگ و پیچیده”[17].
داده کاوی یک متدلوژی بسیار قوی و با پتانسیل بالا می‌باشد که به سازمان‌ها کمک می‌کند که بر روی مهم‌ترین اطلاعات از مخزن داده‌های خود تمرکز نمایند [19].
ابزارهای داده کاوی الگوهای پنهانی را کشف و پیش‌بینی می‌کنند که متخصصان ممکن است به دلیل اینکه این اطلاعات و الگوها خارج از انتظار آن‌ها باشد، آن‌ها را مدنظر قرار ندهند و به آن‌ها دست نیابند [19].
2-3 آیا داده کاوی سودمند است؟
داده کاوی به دو دلیل سودآور است:
* داده کاوی منجر به تصمیمات واقع‌بینانه می‌شود.
* داده کاوی منجر به تکرار تصمیمات سودآور اتفاق افتاده در گذشته می‌شود.
با استفاده از داده کاوی تصمیمات احساسی کنار گذاشته میشوند و بر اساس واقعیت‌ها تصمیمات گرفته میشوند. بنابراین ضررهای ناشی از ناآگاهی مدیران حذف می‌شود. داده کاوی همچنین فضای سال‌های گذشته‌ی شرکت شما را بازبینی می‌کند و در نهایت نشان می‌دهد کدام تصمیمات منجر به سود شده است درحالی‌که شما از آن تصمیمات اطلاعی ندارید. شرکت‌ها و سازمان‌ها هر لحظه در حال اتخاذ تصمیمات جدیدی هستند که منجر به سود یا زیان آن مجموعه می‌شود. بسیاری از تصمیمات بر اساس واقعیات موجود گرفته نمی‌شود و عواملی چون “فراموشی”، “تخلفات و تقلبات”، “اشکالات خط تولید”، “منافع شخصی” و “سیاست‌های اعمال نفوذ شده از جاهای دیگر” منجر به اتخاذ تصمیمات غیر شفاف و در نتیجه زیانبار می‌شود[20].
اما داده کاوی فضای حاکم بر کسب‌ وکار شما را شفاف می‌کند و شما را ملزم می‌کند واقع‌بینانه تصمیم بگیرید. تصمیم‌گیری واقع‌بینانه کلید از بین بردن تصمیمات احساسی و در نتیجه از بین بردن بهره‌وری پایین و ضررهای ناشی از ناآگاهی است. به طور کلی فضای تصمیم‌گیری در یک کسب‌ و کار شباهت بسیار زیادی به فضاهای تصمیم‌گیری اتفاق افتاده در 10 سال گذشته‌ی آن مجموعه دارد. این شباهت در یاد تصمیم‌گیرندگان آن کسب‌ و کار باقی نمی‌ماند و اغلب آشکار نیز نمی‌شود. داده کاوی فضای سال‌های گذشته‌ی کسب‌ و کار شما را بازخوانی می‌کند و به شما می‌گوید کدام تصمیمات منجر به سود شده است و کدام تصمیمات منجر به زیان کسب‌ و کار شده است. بنابراین داده کاوی باعث می‌شود تصمیمات زیان ده کسب و کارتان در گذشته را تکرار نکنید ولی تصمیمات سودآور اتفاق افتاده در گذشته را دوباره تکرار کنید. به لحاظ فنی، داده کاوی عبارت از فرآیندی است که در میان حوزه‌های گوناگون بانک‌های اطلاعاتی ارتباطی بزرگ، همبستگی‌ها یا الگوهایی را پیدا می‌کند [21].
2-4 آمار و داده کاوی
تلاش برای الگوهای موجود در دادهها مدت زمان طولانی در بسیاری از زمینه ها، از جمله آمار، الگوشناسی18 ، و تجزیه و تحلیل دادههای اکتشافی مورد مطالعه قرار گرفته شده است]4[. داده کاوی اساساً یک رشته کاربردی است و یک داده کاوی باید از روش‌های آماری درک خوبی داشته باشد. در داده کاوی تلاش می‌شود بین آمار و علوم رایانه‌ای رابطه‌ای برقرار گردد. برقراری این ارتباط به دلیل وجود یک سلسله از فرضیات ضمنی و غیر واضح و دشوار بودن تبدیل مفاهیم نظری به الگوریتم‌های رایانه‌ای در ادبیات آماری و به دلیل وجود الگوریتم‌های فراوان در ادبیات رایانه‌ای دشوار است. لذا داشتن درکی درست از مدل‌سازی و الگوریتم‌های محاسباتی برای کارهای داده کاوی ضروری است.
روابط در داده کاوی غالباً به صورت الگوها و مدلهایی از قبیل معادلات رگرسیونی، سری‌های زمانی، خوشه‌ها، رده‌بندی‌ها، گراف‌ها و غیره ارائه می‌شوند. در داده کاوی نیز همانند آمار غالباً داده‌هایی که تحلیل می‌شوند، نمونه‌ای از جامعه هستند که به تبع بزرگ بودن جامعه با نمونه‌ای حجیم مواجه هستیم. در هنگام کار با مجموعه داده‌های حجیم مشکلات تازه‌ای بروز می‌کند. برخی از این مشکلات به نحوه ذخیره‌سازی یا فراخوانی داده‌ها مربوط می‌شود و برخی دیگر مربوط به مسائلی مانند نحوه تحلیل داده‌ها در زمانی مناسب و استخراج الگوها و مدلهای حاکم بر داده‌ها است [22]. به طور کلی فرآیند کاوش الگوها، مدل ها و روابط مطلوب در یک مجموعه داده شامل مراحل زیر است:
* معین ساختن طبیعت و ساختار مورد نظر
* تصمیم‌گیری در مورد میزان برازش نمایش‌های متفاوت به داده‌ها، یعنی انتخاب یک تابع امتیاز
* اتخاذ یک فرآیند الگوریتمی برای بهینه‌سازی تابع امتیاز
* تصمیم‌گیری در مورد اصول مدیریت داده‌ها برای اجرای موثر الگوریتم
با توجه به اینکه مدلها و الگوها، توابع امتیاز، روش‌های بهینه‌سازی و راهکارهای مدیریت داده‌ها چهار مؤلفه اصلی الگوریتم‌های داده کاوی را تشکیل می‌دهند، با توجه به اینکه ماهیت داده‌ها در آمار با داده کاوی متفاوت است، داده کاوی به برخی از روش‌های آماری که دارای ویژگی‌های خاصی می‌باشند توجه بیشتری نشان می‌دهد.
یکی از ویژگی‌های مورد توجه روش‌های آماری در داده کاوی، سادگی تعبیر آن‌ها است. از این رو به استفاده از مدلهای نسبتاً ساده و قابل تعبیر مانند گراف‌ها گرایش زیادی وجود دارد. در داده کاوی مواردی که در آن‌ها با تعداد بسیار زیادی متغیر، مدل و یا فرضیه مواجه هستیم، فراوان است. از طرفی داده کاوی یک فرآیند اکتشافی و تکراری است به این معنی که در خلال تحلیل داده‌ها اطلاعات جدید کشف می‌شوند و فرضیه‌های قبلی اصلاح و فرضیه‌های جدید ارائه می‌شوند و این کار ممکن است با داده‌های زیاد، بارها تکرار شود. لذا از دیدگاه آمار روش‌هایی با کارایی محاسباتی بالا، تحلیل‌های محاسباتی و تحلیل‌های تقریبی، مورد توجه خاص داده کاوی هستند. تاکید بیشتر داده کاوی بر بعضی روش‌های آماری، به معنی عدم استفاده از سایر روش‌های آماری نیست و در عمل از طیف گسترده‌ای از روش‌های آماری برای تحلیل داده‌ها استفاده می‌شود.
آمار و داده کاوی هر دو با روش‌های تحلیل و مدل بندی داده‌ها مرتبط می‌باشند. بنابراین اشتراک زیادی بین این دو رشته وجود دارد. به عنوان یک شوخی، یکی از نویسندگان در پاسخ سؤال اینکه “داده کاوی چیست؟ بیان می‌کند که “همان آمار است، اما با یک نام خیلی بهتر” البته این ویژگی به معنای یکسان دانستن داده کاوی وآنالیزآماری نیست، در جدول زیر این تفاوت‌ها آورده شده است [23،21].
جدول (2-1): مقایسه آنالیز آماری و داده کاوی [22]
آنالیز آماریداده کاوی آمار شناسان همیشه با یک فرضیه شروع به کار می‌کنند. به فرضیه احتیاجی ندارد. آمار شناسان باید رابطه‌هایی را ایجاد کنند که به فرضیه آن‌ها مربوط شود الگوریتم‌های داده کاوی در ابزارها به طور اتوماتیک روابط را ایجاد می‌کنند آن‌ها از داده‌های عددی استفاده می‌کنند. ابزارهای داده کاوی از انواع مختلف داده و نه فقط عددی می‌توانند استفاده کنند. آن‌ها می‌توانند داده‌های نابجا و نادرست را در طول آنالیز تشخیص دهند داده کاوی به داده‌های صحیح و درست طبقه‌بندی شده بستگی دارد. آن‌ها می‌توانند نتایج کار خود را تفسیر کنند و برای مدیران بیان کنند. نتایج داده کاوی آسان نیست و همچنان به متخصصان آمار برای تحلیل آن‌ها و بیان آن‌ها به مدیران نیاز است.
2-5 پیچیدگی و هزینه زمانی
تحلیلگران دریافتهاند که پیچیدگی و زمانبر بودن دسترسی به حجم زیاد دادههای مورد نیاز و پردازش آن‌ها توسط بعضی ابزارهای داده کاوی، استفاده از این ابزارها را در هر نقطه از زمان و مکان غیرممکن ساخته است.
وزارت امنیت داخلی ایالات‌متحده آمریکا در آگوست 2006، به 12 تلاش داده کاوی دست زد که یکی از آن‌ها سیستم TVIS19 بود. این سیستم به منظور ایجاد و بهبود اشتراک دانش از خطرات تروریستی بالقوه، به روشی واحد دادههای زنده تولیدشده به وسیله خلبانان را ترکیب میکرد. نتایج تحلیلها نشانداد که اگرچه این سیستم در یک دوره تناوب دو ساعته کار می‌کند، کاربران قادر به استفاده روزانه از آن نبوده و فقط دو تحلیلگر امکان استفاده همزمان از آن را دارند. این منجر به اتلاف وقت تحلیلگران در زمان جستجو در پایگاه دادههای مضاعف شد. مشکل پیچیدگی و هزینه زمانی بعضی تکنیکهای داده کاوی، موجب کاهش پذیرش استفاده زمان واقعی از این سیستمها توسط افراد و روی آوردن به سیستمهایی با عملکرد ضعیفتر میشود [24].
2-6 محرمانگی20 دادهها
با وجود تکنیکهای داده کاوی و اشتراک اطلاعات، توجه بسیاری از تحلیلگران به پیادهسازی محرمانگی و امنیت دادهها معطوفشدهاست. بعضی کارشناسان پیشنهاد کرده‌اند که بعضی کاربردهای ضد تروریسمی داده کاوی میتواند برای یافتن الگوهای تبهکارانه و مقابله با انواع جرمها مفید باشد. تا کنون، با وجود دیدگاه‌های متضاد بحث شده، توافق کمی درباره اینکه داده کاوی به چه صورت باید اجرا شود وجود دارد. بعضی مخالف سبک سنگینی برای ایجاد محرمانگی و تأمین امنیت هستند. بعضی ناظران نیز پیشنهاد کرده‌اند که قوانین و مقررات مربوط به حمایت از محرمانگی کافی هستند و هیچ تهدیدی برای محرمانگی وجود ندارد. هنوز ناسازگاریهایی در باب این مسئله وجود دارد که باید برطرفشوند. به موازات پیشرفت‌های داده کاوی، سؤالات متنوعی افزایش مییابند شامل اینکه نهادهای شهری و دولتی تا چه اندازه می‌بایس