1. مهمان گرامی، جهت ارسال پست، دانلود و سایر امکانات ویژه کاربران عضو، ثبت نام کنید.
    بستن اطلاعیه

ابزاری برای شناسایی «داده‌های کثیف»

شروع موضوع توسط jasmine ‏30/4/19 در انجمن فناوری اطلاعات

  1. ابزاری برای شناسایی «داده‌های کثیف»
    ایسنا نوشت: پژوهشگران آمریکایی، ابزاری ابداع کرده‌اند که می‌تواند داده‌های غیرمرتبط را با سرعت و دقت بیشتری شناسایی و حذف کند.

    ما در جهان داده‌ها زندگی می‌کنیم. بیشتر ابزار مورد استفاده ما، هوشمند هستند و کلیدها و حسگرهای گوناگونی دارند که داده‌ها را تحلیل می‌کنند و با روش‌های متفاوتی به کار می‌برند. در چنین شرایطی، ممکن است داده‌های اشتباه هم وجود داشته باشند و ارسال شوند؛ در نتیجه نیاز به شناسایی داده‌های اشتباه و پاکسازی این داده‌های موسوم به "داده‌های کثیف" احساس می‌شود. پژوهشگران "دانشگاه واترلو" (UWaterloo)، "دانشگاه ویسکانسین- مدیسن"(UW–Madison) و "دانشگاه استنفورد" (Stanford University)، ابزاری ابداع کرده‌اند که می‌تواند داده‌های کثیف را شناسایی و حذف کند.

    داده‌های کثیف، نویزهایی هستند که با حسگرها یا الگوریتم‌های گوناگونی گردآوری می‌شوند. سیستمی که داده‌های یک وبسایت را تحلیل می‌کند، می‌تواند به همه انواع اطلاعات دست یابد اما لزوماً همه داده‌ها، واقعی نیستند و شاید فقط نویزهایی باشند که در همه سیستم‌های الکترونیکی وجود دارند.

    این ابزار جدید موسوم به "هولوکلین"(HoloClean)، نخستین فناوری مبتنی بر هوش مصنوعی است که می‌تواند داده‌های کثیف را تشخیص دهد و آنها را پیش از گذشتن از مرحله پردازش، تصحیح کند. دانشمندان باور دارند که این ابزار می‌تواند برای سازمان‌های گوناگونی که با حجم گسترده‌ای از داده‌ها کار می‌کنند، مفید باشد.

    بانک‌ها، شرکت‌های فعال در حوزه نرم‌افزار و بسیاری شرکت‌های دیگر، با مجموعه بزرگی از داده‌ها سر و کار دارند. طبیعی است که در این مجموعه بزرگ، داده‌های غیر مرتبط و یا اشتباه هم وجود داشته باشند. هولوکلین را می‌توان طوری آموزش داد که اشتباهات را شناسایی و آنها را تصحیح کند.

    آموزش هوش مصنوعی، به تنهایی یک فرآیند طولانی محسوب می‌شود اما هولوکلین می‌تواند با سرعت کمتری داده‌ها را مورد بررسی قرار دهد، اشتباهات را تفکیک و آنها را تصحیح کند. این قابلیت، مجموعه داده پاکی را برای کاربران فراهم می‌کند تا تجزیه و تحلیل خود را به سادگی انجام دهند و نهایتاً نتایج دقیق‌تر و معتبرتری به دست آورند.

    شناسایی و تصحیح داده‌ها تا به امروز به صورت دستی انجام شده است. این روش، به زمان و هزینه بیشتری نیاز دارد و دقت کامل را نیز ندارد. دانشمندان امیدوارند که هولوکلین کمک کند تا این کار، به سادگی و با سرعت و دقت بیشتری انجام شود.

    سیستم‌های کنونی، مشکل را در قسمتی گزارش می‌کنند که خالی از اطلاعات است اما این روش درست نیست.هولوکلین به جای ارائه اطلاعاتی که وجود ندارند، اطلاعات اشتباهی که درست جلوه می‌کنند، شناسایی و حذف می‌کند.
     
    Dorhato از این پست تشکر کرده است.