• default color
  • blue color
  • orange color
  • green color
CPanel
  • Increase font size
  • Default font size
  • Decrease font size
Trang chủ Kỹ năng Thủ thuật IT Hệ thống tìm kiếm thế hệ mới

Hệ thống tìm kiếm thế hệ mới

Email In

Trong thời đại bùng nổ thông tin điện tử hiện nay, môi trường thông tin không hoàn toàn đồng nhất, người dùng thường phải tìm kiếm thông tin từ nhiều nguồn với từng công cụ tìm kiếm riêng. Cụ thể như môi trường công sở đang ngập tràn trong cơn lũ dữ liệu có cấu trúc (cơ sở dữ liệu) lẫn không cấu trúc (các tập tin tài liệu văn bản). Mặc dù người dùng thường gán các tài liệu một cách thủ công vào các hệ thống quản lý nội dung với hy vọng sẽ dễ tìm chúng hơn nhưng lại làm cho việc tìm kiếm mất nhiều thời gian và không chính xác.

Các hệ thống tìm kiếm dành cho mạng công sở (TKCS) có nhiệm vụ thay đổi tất cả việc này. Các công nghệ tích hợp và tìm kiếm mới 'bóc' thông tin từ các kho dữ liệu ở khắp mạng. Mục tiêu của TKCS rất đơn giản: nhận các truy vấn đơn giản và trả về các kết quả thích hợp nhất trong khả năng có thể, tất cả ở một chỗ. Nhưng đằng sau đó, TKCS tập hợp nhiều công nghệ mới như tự động phân loại, trích xuất thông tin và xử lý ngôn ngữ tự nhiên. Trên nền tảng TKCS, công ty-tổ chức có thể xây dựng các ứng dụng tìm kiếm riêng có khả năng xử lý tự động tài liệu phục vụ cho việc lưu trữ và lập chỉ mục.

Khám phá bí mật

TKCS thay đổi cách thức thực hiện tìm kiếm liên hoàn, quá trình một câu truy vấn được gửi đến nhiều cỗ máy tìm kiếm và người dùng nhận được kết quả tập hợp. Một tìm kiếm liên hoàn có thể hữu ích cho việc tìm kiếm các kho dữ liệu tương tự nhưng không hiệu quả khi truy vấn CSDL bên ngoài có yêu cầu cú pháp riêng.

Thường có nhiều cỗ máy tìm kiếm nhúng trong các ứng dụng khác nhau - ví dụ, một cái trong hệ thống quản lý nội dung, một cái trong môi trường Microsoft Office, và một cái khác trong trình email. TKCS 'đứng trên' các cỗ máy tìm kiếm này và các kho dữ liệu tương ứng (xem sơ đồ 1) và áp đặt việc dịch cú pháp và các xử lý ngôn ngữ khác, như kiểm tra chính tả và nhận biết câu, đối với truy vấn trước khi truy xuất kho dữ liệu.



CÁC HÊ THỐNG TÌM KIẾM CÔNG SỞ


Autonomy autonomy.com
Atomz atomz.com
Convera convera.com
EasyAsk easyask.com
Endeca endeca.com
Entopia entopia.com
Fast Search and Transfer (FAST) fastsearch.comGoogle google.com
Hummingbird hummingbird.com
Intelliseek intelliseek.com
InQuira inquira.com
iPhrase iphrase.com
ISYS isysusa.com
Kanisa kanisa.com
Mercado Software mercado.com
Mondosoft mondosoft.com
Open Text opentext.com
Recommind recommind.com
Thunderstone thunderstone.com
Verity verity.com
ZyLAB www.zylab.com

Tại lớp chỉ mục, TKCS trợ giúp người dùng bằng cách trả về danh sách các lựa chọn truy vấn cải tiến dựa trên ngữ cảnh truy vấn gốc (đôi khi mơ hồ). Ví dụ TKCS của FAST, điều hành trang Scirus.com. Nếu bạn nhập từ 'nuclear' (hạt nhân) nhằm tìm các ấn phẩm khoa học liên quan đến chủ đề này, danh sách trả về hơn 700.000. Từ khoá cải tiến được chọn từ danh sách đề nghị ở bên phải trang - 'nuclear facility' - rút lại còn dưới 1.000. Nhấn thêm lần nữa, trên 'uranium enrichment' (làm giàu uranium) thì danh sách còn lại khoảng 10.

Website tìm kiếm Endeca cung cấp công nghệ kết hợp tìm kiếm với cái gọi là Guided Navigation. Ở đây, một từ khoá tìm kiếm sẽ tạo ra một thư mục tìm kiếm, cho phép người dùng sàng lọc để tinh chỉnh kết quả dần.


Tất cả đều động


Nhiều năm nay, người ta phải đánh vật với việc tìm kiếm dữ liệu không cấu trúc - thông tin nằm bên ngoài ứng dụng và các CSDL - nhằm đạt được mức độ chính xác như với dữ liệu có cấu trúc. Quá trình lập chỉ mục tìm kiếm cho thông tin không cấu trúc đang phát triển với một loạt thuật toán tìm kiếm và công nghệ cao cấp khác nhau mang lại hứa hẹn cho TKCS. Chúng cho phép việc phân loại động hoặc phân tích văn bản có chủ đích để sử dụng trong quá trình phân tích tài liệu và quá trình xử lý câu truy vấn.

Một bổ sung khá mới là việc trích xuất thông tin, theo đó một cỗ máy tìm kiếm trích xuất động các cụm từ dựa trên nội dung được lập chỉ mục thông qua phân tích ngữ pháp. Quá trình này bao gồm việc nhận diện các danh từ riêng và tạo danh sách người, nơi chốn và đồ vật từ tài liệu và sau đó chèn một cấp siêu dữ liệu mới vào tài liệu này.

Một bổ sung khác là sử dụng kỹ thuật xử lý ngôn ngữ tự nhiên cho phép chuyển các câu truy vấn 'dở' thành câu truy vấn 'tốt'. Sự tiến bộ trong các hệ thống tìm kiếm bao hàm nhiều lĩnh vực gồm thuật toán, quy tắc, cải tiến dữ liệu, hồ sơ ngữ cảnh và người dùng - tất cả kết hợp với nhau, tập trung vào cái người dùng cần để có câu trả lời xác đáng nhất.

Về phần siêu dữ liệu, cách thức thủ công cũ định nghĩa các thuộc tính của một tài liệu đang mất dần vì hệ thống tìm kiếm thông minh mới có khả năng gán tự động dựa trên 'luận lý riêng' của người dùng.

TKCS có thể phát hiện các khuôn mẫu trong nội dung và làm tăng giá trị của nội dung đó trong hệ thống tìm kiếm bằng cách tạo tự động các thành phần siêu dữ liệu. Nhờ sự phổ biến của XML trong môi trường tìm kiếm, siêu dữ liệu có thể được dùng cho nhiều tác vụ xử lý, cải thiện truy vấn và trình bày. 

Người dùng thường không cần biết những công việc 'hậu trường' xử lý truy vấn để cho ra kết quả. Hãng cung cấp hệ thống tìm kiếm phải cung cấp một giao tiếp người dùng duy nhất, che đi thực tế có nhiều hệ thống tìm kiếm khác nhau, nhiều hệ thống chỉ mục khác nhau, và những tính năng khác nhau ở 'hậu trường'.

Nhưng TKCS đòi hỏi người dùng phải làm quen với các phương pháp tìm kiếm thông minh hơn. Cơ chế tìm kiếm thiếu định hướng, phân loại và tìm kiếm không chính xác đang dần bị đào thải, khi các hệ thống TKCS đưa ra những giao tiếp mới.

(Theo PC World)


Tin mới hơn:
Tin cũ hơn:

 

Tra cứu Quikizi




Tin mới nhận