آموزش متن کاوی | شبکه آنلاین

متن کاوی چیست؟

استخراج متن (همچنین به عنوان تجزیه و تحلیل متن شناخته می شود) ، فرآیند تبدیل متن بدون ساختار به داده های ساخت یافته برای تجزیه و تحلیل آسان است. استخراج متن با استفاده از پردازش زبان طبیعی (NLP) ، به دستگاه ها امکان می دهد زبان انسان را درک کرده و به صورت خودکار پردازش کنند.

هر روز برای مشاغل ، مقدار زیادی داده تولید می شود ، هم یک فرصت و هم یک چالش محسوب می شود. از یک طرف ، داده ها به شرکت ها کمک می کنند تا دیدگاه های هوشمندانه درباره نظرات مردم درباره یک محصول یا خدمات را بدست آورند. به تمام ایده های بالقوه ای که می توانید از طریق تجزیه و تحلیل ایمیل ها ، بررسی محصولات ، پست های شبکه های اجتماعی ، بازخورد مشتری ، بلیط های پشتیبانی و غیره بدست آورید ، فکر کنید. در طرف دیگر ، معضل نحوه پردازش همه این داده ها وجود دارد. و اینجاست که استخراج متن نقش اصلی را بازی می کند.

مانند اکثر موارد مربوط به پردازش زبان طبیعی (NLP) ، استخراج متن ممکن است مانند یک مفهوم سخت درک شود.

این راهنما اصول استخراج متن را مرور می کند ، روش ها و تکنیک های مختلف آن را توضیح می دهد و درک نحوه کار آن را ساده می کند. همچنین در مورد برنامه های اصلی استخراج متن و اینکه شرکت ها چگونه می توانند از آن برای اتوماسیون بسیاری از فرآیندهای خود استفاده کنند ،

یاد خواهید گرفت:

شروع کار با متن کاوی
متن کاوی چگونه کار می کند؟
از موارد و برنامه ها استفاده کنید

شروع کار با متن کاوی

استخراج متن یک فرآیند خودکار است که از پردازش زبان طبیعی برای استخراج بینش های ارزشمند از متن بدون ساختار استفاده می کند. با تبدیل داده ها به اطلاعاتی که ماشین ها می توانند درک کنند ، متن کاوی فرآیند طبقه بندی متون را بر اساس احساسات و موضوع به طور خودکار انجام می دهد.

به لطف استخراج متن ، مشاغل قادر به تجزیه و تحلیل مجموعه های پیچیده و گسترده ای از داده ها به روشی ساده ، سریع هستند. در همان زمان ، شرکت ها با بهره گیری از این ابزار قدرتمند برخی از کارهای دستی و تکراری خود را کاهش می دهند ، تیم های خود را در وقت گرانبها صرفه جویی می کنند و به نمایندگان پشتیبانی مشتری اجازه می دهند تا بر روی بهترین کار تمرکز کنند.

. یک الگوریتم استخراج متن می تواند به شما کمک کند محبوب ترین موضوعاتی را که در نظرات مشتری ایجاد می شود و احساسی که مردم در مورد آنها دارند را تشخیص دهید: آیا نظرات مثبت ، منفی یا خنثی هستند؟ همچنین می توانید از کلیدواژه های اصلی ذکر شده توسط مشتریان در مورد یک موضوع مشخص مطلع شوید.

به طور خلاصه ، متن کاوی به شرکت ها کمک می کند تا از داده های خود حداکثر استفاده را ببرند ، که منجر به تصمیم گیری بهتر در زمینه داده ها می شود.

در این مرحله ممکن است از خود بپرسید که متن کاوی چگونه همه اینها را محقق می کند؟ پاسخ ما را مستقیماً به مفهوم یادگیری ماشین می برد.

یادگیری ماشینی رشته ای است برگرفته از هوش مصنوعی ، که بر ایجاد الگوریتم هایی متمرکز است که رایانه ها را قادر می سازد وظایف را بر اساس مثال یاد بگیرند. مدل های یادگیری ماشین باید با داده ها آموزش ببینند ، پس از آن آنها می توانند با سطح مشخصی از دقت به طور خودکار پیش بینی کنند.

وقتی متن کاوی و یادگیری ماشین با هم ترکیب می شوند ، تحلیل خودکار متن امکان پذیر است.

اولین کاری که می خواهید انجام دهید آموزش مدل طبقه بندی موضوع است ، با بارگذاری مجموعه ای از نمونه ها و برچسب گذاری دستی آنها. پس از تغذیه با چندین مثال ، مدل یادگیری تفکیک موضوعات و شروع به ایجاد ارتباطات و همچنین پیش بینی های خود را می آموزد. برای دستیابی به دقت کافی ، باید تعداد زیادی از نمونه های مدل های خود را نشان دهید که نمایانگر مسئله ای هستند که می خواهید حل کنید.

تفاوت متن کاوی ، تحلیل متن و تجزیه و تحلیل متن؟

متن کاوی و تحلیل متن اغلب به عنوان مترادف استفاده می شود. تجزیه و تحلیل متن ، یک مفهوم کمی متفاوت است.

بنابراین ، تفاوت بین متن کاوی و تجزیه و تحلیل متن چیست؟

به طور خلاصه ، هر دو با استفاده از تکنیک های مختلف قصد دارند یک مشکل یکسان (تجزیه و تحلیل خودکار داده های متنی خام) را حل کنند. متن کاوی اطلاعات مربوط به متن را مشخص می کند و بنابراین ، نتایج کیفی را ارائه می دهد. با این حال ، تجزیه و تحلیل متن بر یافتن الگوها و روندها در میان مجموعه های بزرگ داده متمرکز است و در نتیجه نتایج کمی بیشتری به دست می آورد. تجزیه و تحلیل متن معمولاً برای ایجاد نمودارها ، جداول و انواع دیگر گزارش های تصویری استفاده می شود.

استخراج متن ترکیبی از مفاهیم آمار ، زبان شناسی و یادگیری ماشین است و مدل هایی را ایجاد می کند که از داده های آموزش می آموزند و می توانند نتایج حاصل از اطلاعات جدید را بر اساس تجربه قبلی خود پیش بینی کنند.

از طرف دیگر ، تجزیه و تحلیل متن از نتایج حاصل از تجزیه و تحلیل های انجام شده توسط مدل های استخراج متن ، برای ایجاد نمودارها و انواع تجسم داده ها استفاده می کند.

روش ها و تکنیک های مختلفی برای متن کاوی وجود دارد. در این بخش ، موارد متداول را شرح خواهیم داد.

تکرار کلمه

از تکرار کلمه می توان برای شناسایی مکررترین اصطلاحات یا مفاهیم در یک مجموعه داده استفاده کرد. یافتن کلمات ذکر شده در متن بدون ساختار می تواند به ویژه هنگام تحلیل نظرات مشتری ، مکالمات شبکه های اجتماعی یا بازخورد مشتری مفید واقع شود.

به عنوان مثال ، اگر کلمه گران بیش از حد غالباً در نظرات مشتری شما ظاهر شوند ، این ممکن است نشان دهد که شما باید قیمت ها (یا بازار هدف خود را تنظیم کنید).

شناسایی محاوره ها – و شمردن آنها به عنوان یک کلمه واحد – دانه دانه بودن متن را بهبود می بخشد ، اجازه می دهد تا درک بهتری از ساختار معنایی آن داشته باشیم و در پایان ، نتایج دقیق تری در استخراج متن ایجاد شود.

همخوانی

از همخوانی برای تشخیص زمینه یا نمونه خاصی استفاده می شود که در آن یک کلمه یا مجموعه ای از کلمات ظاهر می شود. همه ما می دانیم که زبان انسان می تواند مبهم باشد: از یک کلمه می توان در زمینه های مختلف استفاده کرد. تجزیه و تحلیل تطابق یک کلمه می تواند به درک معنای دقیق آن بر اساس زمینه کمک کند.

طبقه بندی متن فرآیند اختصاص دسته ها (برچسب ها) به داده های متنی بدون ساختار است. این وظیفه اساسی پردازش زبان طبیعی (NLP) سازماندهی و ساختار متن پیچیده را آسان می کند ، و آن را به داده های معنی دار تبدیل می کند.

به لطف طبقه بندی متن ، مشاغل می توانند انواع اطلاعات ، از طریق ایمیل گرفته تا بلیط پشتیبانی را تجزیه و تحلیل کنند و بصری سریع و مقرون به صرفه بینش ارزشمندی کسب کنند.

تجزیه و تحلیل موضوع:

به شما کمک می کند مضامین یا موضوعات اصلی یک متن را درک کنید ، و یکی از اصلی ترین راه های سازماندهی داده های متنی است. به عنوان مثال ، بلیط پشتیبانی که می گوید سفارش آنلاین من نرسیده است ، می تواند به عنوان موارد حمل و نقل طبقه بندی شود.

تجزیه و تحلیل احساسات:

شامل تجزیه و تحلیل احساساتی است که زمینه ساز هر متن خاصی است. فرض کنید در حال تجزیه و تحلیل یک سری بررسی ها درباره برنامه تلفن همراه خود هستید. ممکن است دریابید که بیشترین موارد ذکر شده در آن بررسی ها UI-UX یا سهولت استفاده هستند ، اما این اطلاعات کافی برای نتیجه گیری نیست. تجزیه و تحلیل احساسات به شما کمک می کند تا نظر و احساسات موجود در متن را درک کنید ، و آنها را در طبقه بندی مثبت ، منفی یا خنثی قرار دهید. تجزیه و تحلیل احساسات کاربردهای مفیدی در تجارت دارد ، از تجزیه و تحلیل پست های رسانه های اجتماعی گرفته تا مرور یا بلیط پشتیبانی. از نظر پشتیبانی مشتری ، به عنوان مثال ، شما ممکن است سریع بتوانید مشتریان عصبانی را شناسایی کرده و مشکلات آنها را اولویت بندی کنید.

Language Detection: به شما امکان می دهد متن را بر اساس زبان آن طبقه بندی کنید. یکی از کاربردهای بسیار مفید آن ، مسیریابی خودکار بلیط های پشتیبانی به تیم مناسب جغرافیایی است. اتوماسیون این کار کاملاً ساده است و به تیم ها کمک می کند تا وقت با ارزشی را صرفه جویی کنند.

Intent Detection: شما می توانید از طبقه بندی متن برای تشخیص اهداف یا هدف پشت متن به صورت خودکار استفاده کنید. این می تواند به ویژه هنگام تحلیل مکالمات مشتری بسیار مفید باشد. به عنوان مثال ، شما می توانید پاسخ های مختلف ایمیل فروش خروجی را الک کنید و چشم اندازهایی را که به محصول شما علاقه مند هستند را از مواردی که نیستند یا افرادی که می خواهند اشتراک خود را لغو کنند ، شناسایی کنید.

استخراج متن

استخراج متن یک روش تجزیه و تحلیل متن است که داده های خاصی از متن را استخراج می کند ، مانند کلمات کلیدی ، نام نهادها ، آدرس ها ، ایمیل ها و غیره. با استفاده از استخراج متن ، شرکت ها می توانند از همه دردسرهای مرتب سازی به صورت دستی برای خارج کردن کلید جلوگیری کنند اطلاعات

در بیشتر مواقع ، ترکیب استخراج متن با طبقه بندی متن در همان تحلیل می تواند مفید باشد.

مقیاس پذیری:

با استخراج متن ، تجزیه و تحلیل حجم زیادی از داده فقط در چند ثانیه امکان پذیر است. با خودکار سازی کارهای خاص ، شرکت ها می توانند در وقت زیادی صرفه جویی کنند که می تواند برای تمرکز بر کارهای دیگر استفاده شود. این امر منجر به تولید مشاغل مولدتر می شود.

تجزیه و تحلیل در زمان واقعی:

به لطف استخراج متن ، شرکت ها می توانند موارد فوری را بر این اساس اولویت قرار دهند ، از جمله ، شناسایی یک بحران احتمالی ، و کشف نقص محصول یا بررسی های منفی در زمان واقعی. چرا این موضوع اینقدر مهم است؟ زیرا به شرکتها امکان می دهد سریع اقدام کنند.

متن کاوی چگونه کار می کند؟

استخراج متن به تجزیه و تحلیل مقادیر زیادی از داده های خام و یافتن بینش های مناسب کمک می کند. همراه با یادگیری ماشین ، می تواند مدل های تجزیه و تحلیل متن را ایجاد کند که می تواند اطلاعات خاص را براساس آموزش قبلی طبقه بندی یا استخراج کند.

حتی اگر متن کاوی مسئله پیچیده ای به نظر برسد ، شروع کار در واقع بسیار ساده است.

طبقه بندی متن

طبقه بندی متن ، فرآیند اختصاص برچسب ها یا دسته ها به متن ، بر اساس محتوای آنها است.

به لطف طبقه بندی خودکار متن ، می توان مجموعه بزرگی از داده های متنی را برچسب گذاری کرد و در مدت زمان بسیار کوتاهی نتایج خوبی را بدست آورد ، بدون اینکه نیازی به انجام همه دردسرهای انجام دستی آن باشد. این در مناطق مختلف کاربردهای مهیجی دارد.

سیستم های مبتنی بر قانون

این نوع سیستم های طبقه بندی متن بر اساس قوانین زبانی است. منظور ما از قوانین ، ارتباطات ساخته شده توسط انسان بین یک الگوی زبانی خاص و یک برچسب است. پس از کدگذاری الگوریتم با آن قوانین ، می تواند به طور خودکار ساختارهای مختلف زبانی را شناسایی کرده و برچسب های مربوطه را به آن اختصاص دهد.

قوانین معمولاً از ارجاع به الگوهای نحوی ، صرفی و واژگانی تشکیل شده است. آنها همچنین می توانند با جنبه های معنایی یا واجی مرتبط باشند.

به عنوان مثال ، این می تواند یک قانون برای طبقه بندی توصیفات محصول بر اساس رنگ یک محصول باشد:

(سیاه | خاکستری | سفید | آبی) رنگ

در این حالت ، سیستم هر زمان که هر یک از کلمات فوق را تشخیص دهد ، برچسب COLOR را تعیین می کند.

درک سیستم های مبتنی بر قانون آسان است ، زیرا توسط بشر توسعه یافته و بهبود می یابد. با این حال ، اضافه کردن قوانین جدید به یک الگوریتم اغلب به آزمایشات زیادی نیاز دارد تا ببینید آیا آنها بر پیش بینی قوانین دیگر تأثیر می گذارند یا مقیاس بندی سیستم را سخت می کند. علاوه بر این ، ایجاد سیستم های پیچیده به دانش خاصی در زمینه زبان شناسی و داده هایی که می خواهید تجزیه و تحلیل کنید ، نیاز دارد.

سیستم های مبتنی بر یادگیری ماشین

سیستم های طبقه بندی متن بر اساس یادگیری ماشین می توانند از داده های قبلی (مثالها) بیاموزند. برای انجام این کار ، آنها باید با مثالهای مرتبط متن – که به عنوان داده های آموزشی شناخته می شوند – که به درستی برچسب گذاری شده اند ، آموزش ببینند.

داده های متنی تبدیل شده به بردار ، همراه با پیش بینی های پیش بینی شده (برچسب ها) ، به الگوریتم یادگیری ماشین تبدیل می شوند و یک مدل طبقه بندی ایجاد می کنند:

ایجاد مدل طبقه بندی

سپس ، مدل آموزش دیده می تواند ویژگی های مربوط به متن غیبی جدید را استخراج کرده و پیش بینی های خود را در مورد اطلاعات غیبی انجام دهد:

پیش بینی داده ها با مدل طبقه بندی

الگوریتم های یادگیری ماشین

الگوریتم های خانواده Naive Bayes (NB): آنها برای پیش بینی برچسب متن از قضیه Bayes و نظریه احتمال بهره مند می شوند. در این حالت ، بردارها اطلاعات را بر اساس احتمال کلمات در متن متعلق به هر یک از برچسب های مدل کد می کنند. این روش احتمالی می تواند نتایج دقیقی را به دست دهد در صورتی که اطلاعات آموزش بیش از حد وجود نداشته باشد.

Support Vector Machines (SVM): این الگوریتم بردارهای داده های دارای برچسب را به دو گروه مختلف طبقه بندی می کند. یکی که حاوی بیشتر بردارهایی است که به یک برچسب داده شده تعلق دارند و دیگری با بردارهایی که به آن برچسب تعلق ندارند. نتایج این الگوریتم معمولاً بهتر از نتایجی است که با Naive Bayes می گیرید. با این حال ، برای آموزش مدل به قدرت کدگذاری بیشتری نیاز دارد.

الگوریتم های یادگیری عمیق مانند طرز فکر مغز انسان هستند. با استفاده از میلیون ها نمونه آموزش ، آنها نمایشی بسیار دقیق از داده ها تولید می کنند و می توانند سیستم های مبتنی بر یادگیری ماشین بسیار دقیق ایجاد کنند.

سیستم های ترکیبی

سیستم های ترکیبی سیستم های مبتنی بر قاعده را با سیستم های مبتنی بر یادگیری ماشین ترکیب می کنند. آنها برای افزایش دقت نتایج از یکدیگر تعریف می کنند.

ارزیابی

عملکرد یک طبقه بندی متن از طریق پارامترهای مختلف اندازه گیری می شود: دقت ، دقت ، یادآوری و نمره F1. درک این معیارها به شما امکان می دهد ببینید که مدل طبقه بندی شما در تحلیل متون چقدر خوب است.

شما می توانید طبقه بندی کننده خود را از طریق یک مجموعه آزمایش ثابت – یعنی مجموعه ای از داده ها که قبلاً برچسب های مورد انتظار را برای آنها می دانید – ارزیابی کنید یا با استفاده از اعتبارسنجی متقابل. این فرایندی است که داده های آموزشی شما را به دو زیر مجموعه تقسیم می کند: بخشی از داده ها برای آموزش و قسمت دیگر برای اهداف آزمایش استفاده می شود.

این بخش معیارهای مختلفی را برای تجزیه و تحلیل عملکرد طبقه بندی متن شما و توضیح نحوه اعتبار سنجی متقابل ارائه می دهد:

دقت ، تعداد پیش بینی های صحیحی را که طبقه بندی کننده تقسیم بر تعداد کل پیش بینی ها کرده است ، نشان می دهد. با این حال ، دقت به تنهایی همیشه بهترین معیار برای ارزیابی عملکرد یک طبقه بندی نیست. گاهی اوقات ، هنگامی که دسته ها نامتعادل هستند (این بدان معناست که مثالهای بیشتری برای یک دسته بیشتر از گروههای دیگر وجود دارد) ، ممکن است یک پارادوکس دقت را تجربه کنید: مدل به احتمال زیاد پیش بینی خوبی می کند ، زیرا بیشتر داده ها فقط به یک مورد تعلق دارند از دسته ها وقتی این اتفاق می افتد ، بهتر است سایر معیارها مانند دقت و فراخوان را در نظر بگیرید.

Precision تعداد پیش بینی های صحیح ساخته شده توسط طبقه بندی کننده را نسبت به تعداد کل پیش بینی های یک برچسب داده شده ارزیابی می کند (شامل پیش بینی های صحیح یا نادرست). یک معیار با دقت بالا نشان می دهد که کمتر مثبت کاذب وجود دارد. مهم است که در نظر بگیریم ، دقت فقط مواردی را که طبقه بندی کننده پیش بینی می کند متن به یک برچسب خاص پیش بینی می کند ، اندازه گیری می کند. برخی از کارها ، مانند پاسخهای خودکار ایمیل ، برای ارائه پاسخ به کاربر فقط در صورت صحیح بودن احتمال درست پیش بینی ، به مدلهایی با دقت بالا نیاز دارند.

Recall تعداد متونی را که به درستی پیش بینی شده اند نشان می دهد ، بیش از تعداد کل که باید با یک برچسب مشخص طبقه بندی می شدند. معیار یادآوری زیاد به این معنی است که کمتر منفی کاذب وجود دارد. این معیار به ویژه هنگامی مفید است که باید بلیط پشتیبانی را به تیم های مناسب هدایت کنید. شما می خواهید به طور خودکار هرچه بیشتر بلیط یک برچسب خاص (به عنوان مثال Billing Issues) با هزینه دریافت پیش بینی نادرست در طول مسیر ، مسیریابی کنید.

اعتبار سنجی متقابل

از اعتبار سنجی متقابل برای اندازه گیری عملکرد یک طبقه بندی متن استفاده می شود. این شامل تقسیم داده های آموزش به زیر مجموعه های مختلف ، به روشی تصادفی است. به عنوان مثال ، شما می توانید 4 زیر مجموعه داده آموزش داشته باشید که هر یک از آنها حاوی 25٪ از داده های اصلی است.

سپس ، همه زیرمجموعه ها به جز یکی از آنها برای ترسیم استفاده می شوند

لینک ک.تاه شده مطلب :

https://b2n.ir/n47859

آموزش متن کاوی با رپیدماینر ، آموزش رپیدماینر pdf ، آموزش متن کاوی با پایتون ، پردازش زبان طبیعی و متن کاوی ، متن کاوی فارسی ، متن کاوی فارسی با پایتون ، اموزش های فرادرس به صورت رایگان ، دوره آموزشی متن کاوی