ورود به حساب کاربری

نام کاربری *
رمز عبور *
یاداوری

پردازش متن با Jhazm نسخه جاوا برای هضم برای زبان فارسی

امتیاز کاربران

ستاره غیر فعالستاره غیر فعالستاره غیر فعالستاره غیر فعالستاره غیر فعال
 

jHazm نسخه جاوایی هضم از کتابخانه پایتون برای پردازش زبان فارسی است. کتابخانه HAZM برای انجام پردازش­ های لازم بر روی زبان فارسی توسط دانشجویان دانشگاه علم و صنعت در سال ۱۳۹۲ به صورت متن­ باز و با استفاده از کتابخانه NLTK منتشر شد. لایسنس این ابزار MIT میباشد. هضم، ابتدا برای زبان پایتون و بر روی سیستم عامل لینوکس طراحی شد ولی بعدها توسط تیم توسعه دهنده برای زبان جاوا و C# نیز بازطراحی شد. با توجه به این که نسخه Jhazm با زبان برنامه نویسی جاوا توسعه داده شده است قابلیت استفاده از آن در پلتفرم ها وجود دارد. تمیز و مرتب کردن متن، جداسازی جمله‌ها و واژه‌ها، ریشه‌یابی، تحلیل صرفی جمله، تجزیه نحوی جمله و غیره از قابلیت­های هضم است. در زیر عناوین مهم قابلیت های کتابخانه جی هضم آورده شده است.

  • تمیز کردن متن (Text cleaning) برای یادگیری normalizer  به آموزش نرمال سازی متن با jhazm  مراجعه کنید.     
  • قطعه بند کلمه و جمله (Sentence and word tokenizer)
  • ریشه یاب کلمه (Word lemmatizer)
  • ماژول بن یاب یا Stemmer
  • ماژول StopWord Remover
  • برچسب معنایی (POS tagger)
  • ماژول کار با عبارات با قاعده RegexPattern
  • تجزیه کننده وابستگی (Dependency parser)
  • تحلیل صرفی جمله
  • تجزیه نحوی جمله
  • واسط استفاده از داده‌های زبان فارسی
  • سازگاری با بسته NLTK

در آینده نزدیک تمام امکانات بالا به مرور آموزش داده خواهد شد.


پردازش متن با Jhazm

برای پیکره دادگان از منابع زیر استفاده میشود:

نیازمندی ها

برای یادگیری بیشتر ویدئوی زیر را که البته با زبان پایتون است را مشاهده کنید.

 

 

 ---------------------------------------------------

منبع : خانه بیگ دیتای ایران 

 

شرکت دانش بنیان رایانش سریع هزاره ایرانیان به منظور طراحی، ساخت و گسترش کاربردهای رایانش سریع در علوم مختلف پایه گذاری شده است. این شرکت به دنبال ایجاد بستری با ظرفیت محاسباتی و ذخیره سازی بالا مبتنی بر CPU و GPU می باشد تا بتواند از آن طریق سرویسهای متعددی را به محققین، اساتید، دانشجویان تحصیلات تکمیلی و سایر علاقه مندان این حوزه ارائه نماید.

 

سایت مرتبط : " بنیاد توسعه رایانش سریع و ابری "

 

 

آخرین مقالات

کامپایل و نصب mfix-2016.1

درک عملکرد دستگاه های انرژی، محیط زیست و فرایندها...

شبیه سازی مولکولی بر روی...

شبیه سازی مولکولی بر روی GPU1 تکنیک استفاده از واح...

چرا یادگیری زبان اسکالا و...

تقریبا اکثر قریب به اتفاق برنامه‌نویسان به این حقی...

شیمی محاسباتی، مکانیک مول...

شیمی محاسباتی شاخه‌ای از دانش شیمی است که از روش‌ه...

Watch "Jakub Kurzak...

یکی از کتابخانه های پرکاربرد در نرم افزارهای محاسب...

Video: Large Scale Traini...

In this video from PASC18, Jakub Tomczak from the...

راهنمای برنامه نویسی در M...

This publication is part of a developer guide focu...

روش های تشخیص زبان در متن

تشخیص زبان یک متن، یکی از اولین گام ها به سوی متن...

قطعه بندی متون فارسی (tok...

قطعه بندی متن (Tokenizer) به روش های تشخیص زبان در...

یک برنامه هوش مصنوعی می‌ت...

در جدیدترین نوع رقابت بین انسان و ماشین، از یک سیس...

کامپایل OpenFOAM-5.0 با I...

حداقل ورژن نیازمندیها : gcc : 4.8.5 cmake : 3.3 (م...

نمونه کدهای MPI

"چند مورد دیگر نیز بزودی به این لیست اضافه خواهد ش...

PBS Professional user Gui...

*download pdf file * download doc file Parts of t...

بلاک چین به زبان ساده چیس...

بلاک چین فناوری اصلی ارز دیجیتال است که حیات یک پ...

SIESTA

SIESTA (Spanish Initiative for Electronic Simulat...

Redirection (computing)

for input, output, and error In computing, redire...

روش جمع آوری اطلاعات از ش...

جمع آوری اطلاعات از توئیتر: یکی از منابع اصلی برا...

نظارت و مدیریت Job

چندین دستور مفید وجود دارد که به شما اجازه می دهد...

Unravelling Earthquake Dy...

Your browser does not support the video tag. In t...

اصطلاحات علمی در حوزه تحل...

اصطلاحات علمی تحلیل شبکه های اجتماعی: ظهور و شناس...

چگونه پوشه‌ها و فایل‌هایی...

مراحل لیست نمودن فولدرها و فایل های دارای بیشترین...

دستور نمایش حجم پوشه و فا...

دو مورد از کاربردی ترین دستورات لینوکس که دانستن آ...

Paradigm and DDN: Achievi...

The pressure to reduce both operating and capital...

How to Handle the Big Dat...

In this special guest feature, Larry Skowronek, V...

تحلیل انتشار اطلاعات یا D...

یکی از مهم‌ترین فرایندهای دینامیکی در شبکه‌های اج...

کدهای اساسی و الگو مورد ا...

در اینجا کدهای اساسی و الگو مورد استفاده در بسیاری...

آموزش کد محاسباتی wien2k

بسته‌ی محاسباتی WIEN2k شامل مجموعه­ ای از برنامه‌...

ماشین هوشمند بدون کمک انس...

یک ماشین هوشمند با حل معمای مکعب روبیک بدون هیچ آم...

آموزش lammps

اصطلاح شناسی شبیه ساز: فراهم کننده ی بستری برای ش...

آموزش نرم افزار amber (زب...

در اینجا تعدادی از آموزش های آماده شده توسط توسعه...

گالری تصاویر