Ваш любимый книжный интернет-магазин
Перейти на
GlavKniga.SU
Ваш город: Алматы
Ваше местоположение – Алматы
 Да 
От вашего выбора зависит время и стоимость доставки
Корзина: пуста
Авторизация 
  Логин
  
  Пароль
  
Регистрация  Забыли пароль?

Поиск по каталогу 
(строгое соответствие)
ISBN
Фраза в названии или аннотации
Автор
Язык книги
Год издания
с по
Электронный носитель
Тип издания
Вид издания
Отрасли экономики
Отрасли знаний
Сферы деятельности
Надотраслевые технологии
Разделы каталога
худ. литературы

Proposing Field Matching Similarity Methods. Implementation and Comparison of Field Similarity Metrics with Duplicate Entities Detection Purpose in Database

В наличии
Местонахождение: АлматыСостояние экземпляра: новый
Бумажная
версия
Автор: Solmaz Khatami
ISBN: 9783659341304
Год издания: 2013
Формат книги: 60×90/16 (145×215 мм)
Количество страниц: 92
Издательство: LAP LAMBERT Academic Publishing
Цена: 30926 тг
Положить в корзину
Позиции в рубрикаторе
Отрасли знаний:
Код товара: 118595
Способы доставки в город Алматы *
комплектация (срок до отгрузки) не более 2 рабочих дней
Самовывоз из города Алматы (пункты самовывоза партнёра CDEK)
Курьерская доставка CDEK из города Москва
Доставка Почтой России из города Москва
      Аннотация: Duplicate records do not have a common key but refer to a unit entity. Databases that include these records have often some errors which cause the matching problem in duplicate records becomes a complex problem. These errors are: typing errors, incomplete information such as abbreviations, ignoring of standard formats or a combination of the above factors. In this book, databases are used in which typing errors are more than other errors. This database contains real estate information that includes 4 fields: name, surname, property address and property area. The goals of this book are: a review on existing algorithms in identifying duplicate data in the fields which are: Edit-distance, Smith-waterman, Jaro, Jaro-Winkler, Lcs and N-gram; description of the proposed algorithms was presented to improve the efficiency and increase the precision of identifying duplication which are the proposed token-based algorithm and the proposed algorithm based on typing error; and comparing these algorithms efficiency in a large Persian database.
Ключевые слова: n-gram, Edit-Distance, Damerau-Leventein, Jaro, Jaro-winkler, longest common string, Token-based-Jaro, Typological-error-baed-Jaro