باید از دیتابیس هایی چون SQL server استفاده شود
تا حد ممکن جدول ها بهینه طراحی شود و برای مثال از ارتباط جدول با یکدیگر تا حد ممکن پرهیز شود.
فیلد های جداول که جستجو بر اساس آن ها صورت میگیرد باید شاخص گذاری شوند
نحوه جستجو با استفاده از امکاناتی چون روال های ذخیره شده استفاده شود.
تا حد ممکن از selectفیلدهای غیر ضروری و join کردن های بیهوده جلوگیری شود.
در طراحی دیتابیس فیلدهای complex طراحی نشوند ( فیلدهایی که تجزیه پذیر باشند)
در سطح زبان برنامه نویسی حدالامکان از امکاناتی چون linq برای ارتباط با دیتابیس و در linq از امکاناتی نظیر compiled query برای ارتباط با stored procedure ها استفاده شود.
شاخص های گذاشته شده روی دیتابیس مرتبا re builed شوند.
خوشه بندی مکانی شبکه های آبیاری با استفاده از روش کلاسیک K-Means (مطالعه موردی شبکه آبیاری قزوین)
1 دانشیار/ گروه سازه های آبی، دانشگاه تربیت مدرس، تهران، ایران.
2 دانشجوی دکتری/گروه سازه های آبی، دانشگاه تربیت مدرس، تهران، ایران.
چکیده
بهبود عملکرد شبکههای آبیاری از راهکارهای اساسی صرفهجویی در منابع آبی میباشد. اولین گام برای بهبود عملکرد شبکهها، ارزیابی وضع موجود و سپس ارائه راهکار جهت رفع مشکلات میباشد. یک گام موثر و کاربردی در ارزیابی و بهبود عملکرد، استخراج مناطق همگن شبکه کانالها بر اساس خصوصیات فیزیکی و فنی میباشد. هدف اصلی از این تحقیق، پهنهبندی مکانی و کاربرد یک روش کمی جهت استخراج مناطق همگن فیزیکی شبکههای آبیاری و نمایش قابلیت این روش در یک شبکه آبیاری واقعی میباشد. تکنیک مورد استفاده جهت پهنهبندی مکانی، روش خوشهبندی کلاسیک K-Means است. دادههای مورد استفاده به عنوان ورودی مدل خوشهبندی بهصورت یک ماتریس 5×162 بعدی است که همان خصوصیات فیزیکی و فنی کانالهای انتقال شبکه آبیاری قزوین میباشند. بر اساس شاخص صحتسنجی خوشهبندی دیویس- بولدین (DB)، تعداد بهینه خوشهها برابر 10 خوشه بدست آمد. هر کدام از خوشههای بدست آمده معرف یک ناحیه همگن در سطح شبکه میباشد که مدیران شبکه را قادر خواهد ساخت دامنه تصمیمگیریهای خود را از محدوده وسیعی در ابعاد یک شبکه به محدوده کوچکتری در ابعاد چند منطقه همگن محدود کاهش دهند. این امر سبب سهولت مدیریت و ارزیابی و تصمیمگیری در سطح مناطق همگن و نیز صرفهجوئی در زمان و هزینه مدیریت خواهد شد.
کلیدواژهها
- شبکه های آبیاری
- خوشهبندی K-Means
- پهنه بندی مکانی
عنوان مقاله [English]
Spatial Clustering of Irrigation Networks Using K-Means Method (Case Study of Ghazvin Irrigation Network)
نویسندگان [English]
- M. J Monem 1
- S. M Hashemi 2
Improving the performance of water conveyance networks is one of the key issues in saving limited water resources. The first step for this improvement is performance evaluation and then presenting the solutions. One of the practical and efficient approches for performance improvement is to extract the homogenous area out of the irrigation network based on the physical and technical features. The main idea behind this research is to present a quantitative benchmark for exploring homogenous areas with similar physical attributes and present the abilites of this method for a real case study. K-Means clustering algorithm, is applied to spatial clustering of irrigation networks based on physical attributes. Data was arranged based on the “objects” and the “features” in the matrix language. Ghazvin irrigation network data was used to form the input matrix. This matrix consisted of 162 rows and 5 columns. Using Davies and Bouldin (DB) index as the cluster validity index, it has been shown that the optimum number of clusters is 10. Each cluster represented a homogenous area in the irrigation network district. Clustering reduces the dimension of assessments from a large extended irrigation district to a limited number of homogeneous regions and provide a context for better and easier decision making, performance evaluation, and allocation of facilities and budget to different regions.
کلیدواژهها [English]
- Irrigation Networks
- K-means Clustering
- Spatial regionalization
مراجع
حیدریان، س. ا.، فرداد، ح.، منعم، م. ج.، لیاقت، ع.، قاهری، ع. و تشنهلب، م. (1382)، "به کارگیری رویکرد فازی در ارزیابی سیستمهای آبیاری"، مجله تحقیقات مهندسی کشاورزی, 17(4): صص 47-63.
خلخالی، م.، منعم، م. ج.، و ابراهیمی ک. (1387)، "تدوین مدل پشتیبانی تصمیم برای ارزیابی و بهبود عملکرد شبکههای آبیاری و زهکشی"، مجله تحقیقات مهندسی کشاورزی، 9 (1): صص 125-140.
منعم، م. ج.، علیرضائی، م. ر. و صالحی طالشی، ا. (1381)، "ارزیابى عملکرد بهرهبردارى ازشبکههاى آبیارى به روش تحلیل پوششى دادهها"، مجله علوم و فنون کشاورزی و منابع طبیعی، 6 (4): صص 25-11.
Bruscoli, P., Bresci, E. and Preti, F. (2001), “Diagnostic analysis of an irrigation system in the andes region,” Agriculture Engineering International: CIGR Journal, 3(1), pp. 12-26.
Burt, C. (2001), Rapid Appraisal Process (RAP) and Benchmarking Explanation and Tools, FAO, Bangkok, 50p.
Davies, D. L. and Bouldin, D.W. (1979), “A cluster separation measure”, IEEE Transaction on Pattern Analysis and Machine Intelligence, 1(4), pp. 224-227.
Han, J. and Kamber, M. (2006), Data Mining: Concepts and Techniques, Elsevier Inc, San Francisco, 743p.
Johnson, R.A. and Wichern, D.W. (1999), Applied multivariate statistical analysis, John wiley & sons. New York, 550p.
Kim, D.W., Lee, K.H., and Lee, D. (2004), “On cluster validity index for estimation of the optimal number of fuzzy clusters,” Pattern Recognition, 37 (4), pp. 2009-2025.
Malano, H. and Burton, M. (2001), Guidelines for Benchmarking Performance in the Irrigation and Drainage Sector, FAO, IPTRID, Rome, 145p.
Malano, H. and Gao, G. (1992), “Ranking and classification of irrigation system performance using fuzzy set theory: case study in Australia and China,” Irrigation and Drainage Systems, 6 (2), pp. 129-148.
Oad, R. and Mc Cornick, P.G. (1989), “Methodology for assessing the performance of irrigation agriculture,” ICID Bulletin, 38 (1), pp. 42-53.
Valente, J.O. and Pedrycz, W. (2007), Advances in Fuzzy Clustering and Its Applications. John Wiley & Sons Ltd, England, 434p.
Van der Heijden, F., Duin, R. P. W., de Ridder, D., and Tax, D. M. J. (2004), Classification, Parameter Estimation and State Estimation. John wiley & sons Ltd, England, 423p.
نام تاپیک: یک روش جستجوی خیلی سریع در دیتابیس ؟؟
یک روش جستجوی خیلی سریع در دیتابیس ؟؟
سلام
من یک برنامه فکس کامپیوتری دارم می نویسم و پایگاه داده هام هم sql هست که تعداد رکوردهای برنامه خیلیییی زیاده. می خوام وقتی کسی مثلا برای دومین بار تلفن می زنه به همراه شماره تلفن تمام مشخصات و اطلاعاتش خیلی سریع نمایش داده بشه، از چه روشی استفاده کنم ؟ جستجو رو چطور بنویسم که با وجود تعداد رکودهای خییلییی زیاد سریع نتیجه رو نمایش بده؟
مثل دستگاه ATM که بعد از وارد کردن رمز خیلی سریع اطلاعات کاربر رو نمایش میده.
نقل قول: یک روش جستجوی خیلی سریع در دیتابیس ؟؟
باید از دیتابیس هایی چون SQL server استفاده شود
تا حد ممکن جدول ها بهینه طراحی شود و برای مثال از ارتباط جدول با یکدیگر تا حد ممکن پرهیز شود.
فیلد های جداول که جستجو بر اساس آن ها صورت میگیرد باید شاخص گذاری شوند
نحوه جستجو با استفاده از امکاناتی چون روال های ذخیره شده استفاده شود.
تا حد ممکن از selectفیلدهای غیر ضروری و join کردن های بیهوده جلوگیری شود.
در طراحی دیتابیس فیلدهای complex طراحی نشوند ( فیلدهایی که تجزیه پذیر باشند)
در سطح زبان برنامه نویسی حدالامکان از امکاناتی چون linq برای ارتباط با دیتابیس و در linq از امکاناتی نظیر compiled query برای ارتباط با stored procedure ها استفاده شود.
شاخص های گذاشته شده روی دیتابیس مرتبا re builed شوند.
در کل باید از جدیدترین امکانات چه در سطح طراحی و چه در زبان برنامه نویسی استفاده کنید و البته دانش وسیعی در طراحی پایگاه داده داشته باشید
ارائه یک شاخص جدید اعتبار خوشهبندی بر مبنای کاردینالیته فازی
بسیاری از روشهای خوشهبندی مستلزم تعیین تعداد خوشههای مورد جستجو میباشند. به مسئله تعیین تعداد خوشههای مناسب در خوشهبندی، مسئله اعتبار خوشهبندی میگویند. تخمین تعداد خوشههای بهینه از مهمترین موضوعات مدنظر متخصصان خوشهبندی در سالهای اخیر بوده و منجر به معرفی شاخصهای اعتبار زیادی شده است. پیشرفتهترین این شاخصها مبتنی بر تحلیل همزمان دو معیار میزان فشردگی(تراکم) درون خوشهها و میزان جدایی خوشهها از یکدیگر میباشد که عمدتاً درنتیجه روش ایندکس گذاری clustered عدم کارایی محاسباتی و پیچیدگی ریاضی ناکارآمد میشوند. بهمنظور رفع این کاستی، مقاله حاضر به پیشنهاد شاخص FCI که از مفهوم کاردینالیته در مجموعههای فازی بهره میبرد، پرداخته است. این شاخص علاوه بر در نظر گرفتن همزمان دو معیار تراکم و جدایی، از کارایی محاسباتی بالایی برخوردار بوده و بهدوراز تکلف ریاضی، با استفاده از کاردینالیته در خوشهبندی فازی به تعیین تعداد بهینه خوشهها میپردازد. در این مقاله علاوه بر مرور شاخصهای اعتبار خوشهبندی، به تشریح شاخص پیشنهادیFCI پرداخته شده و درنهایت، بهمنظور تبیین اثربخشی و کارایی شاخص، از مثال عددی استفاده شده است.
کلیدواژهها
- شاخص اعتبارخوشه بندی
- خوشه بندی فازی
- کاردینالیته مجموعه فازی
- فشردگی و جدایی خوشه ها
عنوان مقاله [English]
A new cluster validity index based on Fuzzy cardinality
نویسنده [English]
- Mahmoud Dehghan Nayeri
Assistant Professor, Department of Industrial management, Management and Economics Faculty, Tarbiat Modares University, Tehran, Iran.
Clustering techniques need to define the number of clusters before they can be applied to the partitioning problem. Determining suitable number of clusters in partitioning problem is the purpose of clustering validity indices, which are nowadays significantly considerable for data miners and this resulted in various numbers of related indices. Separation and compactness information of fuzzy clusters are both considered in developing the advance indices of clusters validity, while this makes the above mentioned indices inefficient because of mathematical sophistication and the need for more computational effort. Therefore, this paper proposes FCI as a new index, which employs fuzzy cardinality concept in defining the number of clusters in fuzzy clustering. FCI also considers both compactness and separation of fuzzy clusters while significantly decreases computational efforts. In this paper, after reviewing the cluster validity indices and fuzzy clustering algorithms, FCI index will be explained and ultimately to evaluate its effectiveness will be implemented.
کلیدواژهها [English]
- Cluster validity index
- Fuzzy clustering
- Fuzzy Cardinality
- Compactness and Separation of Clusters
مراجع
[1] Boroufar, A., Rezaian, A., Shokohyar, S.(2017), Identifying the customer behavior model in life insurance Sector using data mining, Management Research in Iran, 20 (4), 65-94.
[3] Dunn, J. C. (1974). Well-separated clusters and optimal fuzzy partitions.Journal of cybernetics, 4(1), 95-104.
[4] Bezdek JC. (1973), Fuzzy mathematics in pattern classification, PhD dissertation, Cornell University, Ithaca, NY.
[5] Bezdek, J. C., Coray, C., Gunderson, R., & Watson, J. (1981). Detection and characterization of cluster substructure i. linear structure: Fuzzy c-lines. SIAM Journal on Applied Mathematics, 40(2), 339-357.
[6] De Oliveira, J. V., & Pedrycz, W. (Eds.). (2007). Advances in fuzzy clustering and its applications. New York: Wiley.
[7] Zhang, Y., Wang, W., Zhang, X. (2008). A cluster validity index for fuzzy clustering, Information Sciences, 178(4), 1205-1218.
[8] Sohrabi, B., Raeesi, V. I., Zare, M. F. (2016). Designing a Recommender System for Optimizing and Managing Bank Facilities through the Utilization of Clustering and Classification Algorithms, Modern Researches in Decision Making, 1(2), 53-76.
[9] Halkidi, M., Batistakis, Y., & Vazirgiannis, M. (2001). On clustering validation techniques. Journal of intelligent information systems, 17(2-3), 107-145.
[10] Fukuyama, Y., & Sugeno, M. (1989, June). A new method of choosing the number of clusters for the fuzzy c-means method. In Proc. 5th Fuzzy Syst. Symp (Vol. 247, pp. 247-250).
[11] Xie, X. L., & Beni, G. (1991). A validity measure for fuzzy clustering. IEEE Transactions on روش ایندکس گذاری clustered pattern analysis and machine intelligence, 13(8), 841-847.
[12] Kwon, S. H. (2004). Threshold selection based on cluster analysis. Pattern Recognition Letters, 25(9), 1045-1050.
[13] Wang, W., & Zhang, Y. (2007). On fuzzy cluster validity indices. Fuzzy sets and systems, 158(19), 2095-2117.
[14] Žalik, K. R. and Žalik, B.(2010), Validity index for clusters of different sizes and densities, Pattern Recognition Letters, 43(10), 3374 -3390.
[15] Döring, C., Lesot, M. J., & Kruse, R. (2006). Data analysis with fuzzy clustering methods. Computational Statistics & Data Analysis, 51(1), 192-214.
[16] Dunn, J.C., (1973), A fuzzy relative of the isodata process and its use in روش ایندکس گذاری clustered detecting compact well separated clusters ,J. Cybern, No.28, pp.32–57.
[17] Duda, R. O., Hart, P. E., & Stork, D. G. (2001). Unsupervised learning and clustering. Pattern classification, 519-598.
[18] Lucieer, V., & Lucieer, A. (2009). Fuzzy clustering for seafloor classification.Marine Geology, 264(3), 230-241.
[19] Fisher, P., Wood, J.,(1998), "What is a Mountain ? Or the Englishman who went up a Boolean geographical concept but realised it was fuzzy", Geography, No.83, pp.247–256.
[20] Chiu, S.L. (1994), Fuzzy model identification based on cluster estimation, J. Intell. Fuzzy Systems, No. 2,pp.267- 278
[21] Yao, J., Dash, M., Tan, S. T., & Liu, H. (2000). Entropy-based fuzzy clustering and fuzzy modeling. Fuzzy Sets and Systems, 113(3), 381-388.
[22] Gath, I., & Geva, A. B. (1989). Unsupervised optimal fuzzy clustering. IEEE Transactions on pattern analysis and machine intelligence, 11(7), 773-780.
[23] Duda, T., & Canty, M. (2002). Unsupervised classification of satellite imagery: choosing a good algorithm. International Journal of Remote Sensing, 23(11), 2193-2212.
[24] Dave, R.N.(1996), "Validating fuzzy partition obtained through c-shells clustering", Pattern Recognition, No.17, pp.613–623.
[25] Wu, K. L., Yang, M. S. (2005). A cluster validity index for fuzzy clustering.Pattern Recognition Letters, 26(9), 1275-1291.
[26] Pakhira, M. K., Bandyopadhyay, S., & Maulik, روش ایندکس گذاری clustered U. (2005). A study of some fuzzy cluster validity indices, genetic clustering and application to pixel classification. Fuzzy Sets and Systems, 155(2), 191-214.
[27] Hoppner, F., Klawonn, F., Kruse, R., Runkler, T., 1999. Fuzzy Cluster Analysis.Wiley, Chichester, UK.
[28] Bezdek, J.C., Keller, J.M., Krishnapuram, R., Kuncheva, L.I., Pal, N.R.(1999), Will the Real Iris data please stand up? IEEE Trans. Fuzzy Systems 7, pp.368-369.
[29] Davies, David L.; Bouldin, Donald W. (1979). "A Cluster Separation Measure". IEEE Transactions on Pattern Analysis and Machine Intelligence. PAMI-1 (2): 224–227.doi:10.1109/TPAMI.1979.4766909
[30] Tsekouras, G. and Haralambos, S.(2004),A new approach for measuring the validity of the fuzzy c-means algorithm, Advances in Engineering Software, No.35,pp.567–575.
پیش بینی سرطان سینه با استفاده از روش خوشهبندی انتشار وابستگی با در نظر گرفتن وزن متغیرها
با استفاده از ابزارهای دادهکاوی در حوزهی تشخیص پزشکی محدودیتهایی همچون هزینههای بالای برخی از آزمایشات یا زمانبر بودن آنها مرتفع میگردد. به علاوه، وجود خطا در برخی از آزمایشات موجب شده تا روشهای دستهبندی مورد استقبال پژوهشگران قرار گیرد. در همین راستا پژوهش جاری با تکیه بر ترکیب روشهای خوشهبندی و دستهبندی روش جدیدی را برای تشخیص بدخیمی سرطان سینه ارائه نموده است که در آن عمل ترکیب با استفاده از یک الگوریتم ابتکاری تکرار شونده و الگوریتم خوشهبندی انتشار وابستگی انجام میشود. این روش با استفاده از یک الگوریتم ابتکاری وزنهایی را برای متغیرها تولید نموده و براساس الگوریتم انتشار وابستگی، خوشههای موزون تشکیل میدهد. سپس شماره خوشهها به عنوان یک متغیر جدید به دادهها افزوده شده و در مرحلهی بعد، الگوریتم دستهبند بر روی مجموعه دادهی اصلاح شده حاوی دادههای اصلی و شمارهی خوشهها اجرا میگردد. با توجه به شاخص دقت، تولید اوزان تا رسیدن به بیشترین دقت ممکن ادامه مییابد. بر طبق آزمایشات عددی انجام شده در این پژوهش، ترکیب الگوریتم خوشهبندی انتشار وابستگی با میانگین دقت 36/98 دارای بیشترین دقت بوده است. به علاوه، آزمون فرض ویلکاکسون برتری شبکهی عصبی ترکیبی را نسبت به سایر روشها مورد تأیید قرار داده است.
کلیدواژهها
- خوشهبندی
- سرطان سینه
- ماشین بردار پشتیبان
- شبکهی عصبی مصنوعی
- آزمون فرض ویلکاکسون
عنوان مقاله [English]
Breast Cancer Prediction Using the Affinity Propagation Clustering with Regard to the Weights of Variables
نویسندگان [English]
- Sina Dami 1
- zeinab hatamchuri 2
By using data mining tools in the field of medical diagnosis, some limitations such as the high cost of some tests or their timing will be addressed. In addition, the existence of errors in some experiments has led researchers to be welcomed by categorization methods. In this regard, the present study, based on the combination of clustering and categorization methods, has proposed a new method for the diagnosis of breast cancer. In this operation, the combination is performed using an iterative algorithm and a dependency propagation clustering algorithm. This method produces weights for variables using an innovative algorithm and forms cluster clusters based on the dependency propagation algorithm. Then the number of clusters as a new variable is added to the data, and in the next step, the block algorithm is implemented on the modified dataset containing the main data and the number of clusters. According to the accuracy index, the weights production continues to reach the highest possible precision. According to the numerical experiments conducted in this study, the combination of the dependency emission clustering algorithm with an average accuracy of 36.98 was the most accurate. In addition, the Wilcoxon assumption test confirmed the superiority of the combined neural network compared to other methods.
کلیدواژهها [English]
- Clustering
- Breast Cancer
- Dependency Propagation Algorithm
- Wilcoxon Assumption Test
مراجع
Arevalo J, González FA, Ramos-Pollán R, Oliveira JL, Lopez MA. (2016). Representation learning for
mammography mass lesion classification with convolutional neural روش ایندکس گذاری clustered networks. Computer
methods and programs in biomedicine. 127, 248-57.
De Sampaio WB, Silva AC, de Paiva AC, Gattass M. (2015). Detection of masses in mammograms
with adaption to breast density using genetic algorithm, phylogenetic trees, LBP and SVM.
Expert Systems with Applications. 42(22), 8911-28.
Ghayomi Zade. A. (2013). Clustering and Diagnosis of Breast Cancer via Thermal Images Using a
Combination of SVM and SOM Neural Network. ijbd. 2013; 5 (4), 13-22
Hassanien AE, Moftah HM, Azar AT, Shoman M. (2014). MRI breast cancer diagnosis hybrid
approach using adaptive ant-based segmentation and multilayer perceptron neural networks
classifier. Applied Soft Computing. 14, 62-71.
He, X., Wang, Z., Jin, C., Zheng, Y., Xue, X. (2012). A simplified multi-class support vector machine
with reduced dual optimization, Pattern Recognition Letters, 33, 71-82.
Jiao Z, Gao X, Wang Y, Li J. (2016). A deep feature based framework for breast masses classification.
Neurocomputing. 197, 221-31
Mishra G, Ananth V, Shelke K, Sehgal D, Valadi J. (2015). Hybrid ACO Chaos-Assisted Support
Vector Machines for Classification of Medical Datasets. InProceedings of Fourth International
Conference on Soft Computing for Problem Solving 2015. Springer India. 91-101
Naush J, González FA, Ramos-Pollán R, Oliveira JL, Lopez MA. (2016). Representation learning for
mammography mass lesion classification with convolutional neural networks. Computer
methods and programs in biomedicine. 127, 248-57.
Naushad SM, Ramaiah MJ, Pavithrakumari M, Jayapriya J, Hussain T, Alrokayan SA, Gottumukkala
SR, Digumarti R, Kutala VK. (2016). Artificial neural network-based exploration of genenutrient
interactions in folate and xenobiotic metabolic pathways that modulate susceptibility to
breast cancer. Gene. 580(2), 159-68.
Rouhi R, Jafari M. (2016). Classification of benign and malignant breast tumors based on hybrid level
set segmentation. Expert Systems with Applications. 46, 45-59.
Sivakami K. (2015). Mining Big Data: Breast Cancer Prediction using DT-SVM Hybrid Model.
Sweilam NH, Tharwat AA, Moniem NA. (2010). Support vector machine for diagnosis cancer disease:
A comparative study. Egyptian Informatics Journal. 11(2), 81-92.
Wang P, Hu X, Li Y, Liu Q, Zhu X. (2016). Automatic cell nuclei segmentation and classification of
breast cancer histopathology images. Signal Processing. 122, 1-3.
World Health Organization. (2014) "Cancer Fact sheet N°297".
Zheng B, Yoon SW, Lam SS. (2014). Breast cancer diagnosis based on feature extraction using a
hybrid of K-means and support vector machine algorithms. Expert Systems with Applications.
41(4), 1476-82.
Zheng-Feng LI, Guang-Jin XU, Jia-Jun WA, Guo-Rong DU, Wen-Sheng CA, Xue-Guang SH. (2016).
Outlier Detection for Multivariate Calibration in Near Infrared Spectroscopic Analysis by Model
Diagnostics. Chinese Journal of Analytical Chemistry. 44(2), 305-9.
روش ایندکس گذاری clustered
ترجمه این مقاله با کیفیت عالی آماده خرید اینترنتی میباشد. بلافاصله روش ایندکس گذاری clustered پس از خرید، دکمه دانلود ظاهر خواهد شد. ترجمه به ایمیل شما نیز ارسال خواهد گردید.
2 - روش کد گذاری حلقوی غیر منفی خطی
1-3 ارجاعات زمینه ای و حقیقی
3.2 بخش بندی همزمانی
4.ویژگی های مربوط به سخنگو
Overlapping speech is known to degrade speaker diarization performance with impacts on speaker clustering and segmentation. While previous work made important advances in detecting overlapping speech intervals and in attributing them to relevant speakers, the problem remains largely unsolved. This paper reports the first application of convolutive non-negative sparse coding (CNSC) to the overlap problem. CNSC aims to decompose a composite signal into its underlying contributory parts and is thus naturally suited to overlap detection and attribution. Experimental results on NIST RT data show that the CNSC approach gives comparable results to a state-ofthe-art hidden Markov model based overlap detector. In a practical diarization system, CNSC based speaker attribution is shown to reduce the speaker error by over 40% relative in overlapping segments. Index Terms: overlap detection, speaker attribution, speaker diarization, convolutive non-negative sparse coding
همپوشانی گفتار به گونه ای مشهور گشته است که می تواند سطح اجرای تقطیع سخنگو را با اثر گذاری بر نوع خوشه بندی و تقسیم بندی سخنگو ، کاهش دهد . با وجود اینکه در راستای موضوعات مربوط به زمان های گفتار و نیز موضوعات مربوط به سخنگو تحقیقات و پیشرفت های گسترده ای صورت گرفته است ، اما مشکل اصلی هنوز حل نشده باقی می ماند . در این مقاله برای اولین بار روش برچسب گذاری خطی حلقوی غیر منفی به جهت حل مشکل معرفی میشود . هدف این روش تجزیه کردن یک سیگنال مرکب به بخش های زیرین آن می باشد و بنابراین به طور طبیعی در جایی قرار میگیرد که بتنواند تشخیص و بررسی را میسر سازد نتایج بررسی داده های سازمان ملی استاندارد و فناوری نشان می دهد که نگرش برچسب گذاری پراکنده منفی نتایج قابل قیاسی نسبت به آخرین مدل پیشرفته مبتنی بر ردیاب مارکف نشان می دهد . در یک سیستم تقطیع ، برچسب گذاری پراکنده منفی مبتنی بر تشخیص سخنگو به گونه ای نشان داده شده است که می تواند درصد خطای سخنگو را تا 40 درصد مرتبط با همپوشانی بخش ها ، کاهش دهد .
دیدگاه شما