محاسبه میانگین طول عمر آنها، بهعنوان تخمینی برای طول عمر خطا استخراج شدهاست. در این روش برای بررسی میزان تشابه بین متون خطا جدید و داخل مخزن از روشهای خطی استفاده شده که برای شروع مناسب است، اما کافی نیست. این الگوریتمها معایبی دارند که الگوریتمهای بهتری را میتوان استفادهکرد.
بهعنوان مثال الگوریتمهای معنایی که در آنها علاوه بر تشابه لغوی و نحوی تشابه معنایی بین جملات و متون را در نظر گرفته میشود.
در سال 2011، Nagwani تحقیق خود را روی نویسندگان و توسعهدهندگان ثبت شده در مخزن خطا وموضوعاتی که جوابگوی آنها بودهاند یا نظرات موثری در رفع خطا داشتهاند، متمرکز کردند]12[. بهاینصورت که روی تعدادی داده که از Bugzilla استخراج شده بود کلمات تکراری مهم در این موضوعها را بهعنوان داده استخراج میکند. لیستی ازتوسعهدهندگان و کاربران ثبت کننده به تفکیک کلمات اصلی تکرار شده لیست میشود. در این حالت میتوان کسانی را که در حوزه موضوع خطای جدید کار کردهاند، برای کمک به حل مشکل شناسایی کرد. در این روش تشخیص موضوع اصلی و کلمات مهم باید مطابق با مجموعه و در مقایسه با آن استخراج شود. انتخاب و یا تشکیل مجموعه بهینه خود نیازمند ارائه روشی مناسب است.
Suma.V و همکارانش در سال 2012 به استفاده ازچند روش خوشهبندی و مقایسه آنها اکتفا کرد.آنها هشت الگوریتم را برای دستهبندی دادهها در مخازن خطا استفاده کردند که در میان آنها K-means در برابر افزایش دادهها نتایج بهینهتری در اختیار کاربر میگذارد]8[. الگوریتمها با استفاده از نرمافزار Weka پیادهسازی شدهاند. این روش نیز تنها به دستهبندی ساده اکتفا شده و به نوع دادهها که متنی هستند توجه نشده است.
Nagwani در جدیدترین تحقیق خود در 2013 الگوریتمهایNB ، J84 ،SVM ، CC و CLUBAS را روی دادههای گرفته شده از پروژه Mozilla برای دستهبندی استفاده کرد و نتایج را تحلیل کردهاست]20[. بهعنوان نتیجه نشان دادهاست که NB و J84 با زیاد شدن حجم دادهها افت دقت ندارد.
پس از مطالعهای اجمالی روی BTS ها و روشهایی که تاکنون برای جستجو و استفاده دانش موجود در این سیستمها نشان میدهد، که سیر پیشرفت آن مدتی است که متوقف شده. در واقع پیشرفتی چشمگیر در آنها دیده نمیشود. آنچه نبودش بیش از همه درکاوش در دادههای مهم موجود در این مخازن، به چشم می آید، هوشمند سازی این کاوش هاست . داده های موجود در این مخازن مجموعه ای از متون و ارقام است. پس جستجو و کاوش پیشرفته با در نظر گرفتن جنبه های معنایی موجود در آنها، مطمئنا نتایج بهتری را در اختیار کاربران قرار خواهد داد .
در این تحقیق سعی شده به این جنبه از داده کاوی مخازن، یعنی استفاده از الگوریتم هایی که به مفهوم و معنای داده ها و استخراج دانشی بهینه و مختصرتر توجه شود.

5.2. اندازه گیری شباهت بین متون
پیدا کردن شباهت بین دو متن و جمله با پیدا کردن شباهت بین کلمات آغاز می شود. کلمات به صورت معنایی یا لغوی می توانند به هم شبیه باشند.شباهت لغوی به این معنی است که حروف کلمات با هم مشابه باشند. و شباهت معنایی حالتی است که دو کلمه در یک زمینه و به یک نوع و معنی استفاده شوند.