Phân loại hệ thống gợi ý
Dựa theo loại dữ liệu được áp dụng nhằm đề xuất sản phẩm cho người dùng, RS thường được chia làm ba hướng tiếp cận chính: Lọc dựa trên nội dung (Content-based Filtering), Lọc cộng tác (Collaborative Filtering - CF), và phương pháp kết hợp (Hybrid methods) (Hình 1).
Các hướng tiếp cận hệ thống gợi ý
Hệ thống lọc dựa trên nội dung đề xuất sản phẩm dựa trên thông tin về đặc trưng của sản phẩm (thể loại, nội dung, hình thức, lứa tuổi phù hợp, ...) và người dùng (công việc, độ tuổi, sở thích, vị trí địa lý, ...). Cách tiếp cận này yêu cầu đầy đủ thông tin về sản phẩm và người dùng để các mô hình dự đoán có thể được huấn luyện và học từ dữ liệu một cách hiệu quả. Hạn chế của các hệ thống này là với những sản phẩm không có đặc trưng cụ thể, thông tin chưa xác định hoặc không đáng tin cậy, việc đề xuất sản phẩm đó trở nên bất khả thi.
Trái lại, hệ thống CF không yêu cầu thông tin sản phẩm cụ thể mà dựa vào lịch sử tương tác giữa người dùng với các sản phẩm (lịch sử mua hàng, số điểm đánh giá sản phẩm, ...) để xác định sở thích của họ và đưa ra gợi ý phù hợp. Có hai nhánh tiếp cận chính đối với hệ thống CF: gợi ý dựa trên ghi nhớ (Memory-based CF) và gợi ý dựa vào mô hình (Model-based CF). Nhánh tiếp cận dựa trên ghi nhớ tính toán độ tương quan giữa các sản phẩm hoặc giữa các người dùng qua lịch sử tương tác (thường được biểu diễn bằng một ma trận) rồi từ đó tìm ra những sản phẩm tương đồng nhất với sản phẩm mà một người thích. Tuy nhiên, hiệu quả của mô hình CF dựa trên ghi nhớ giảm đáng kể khi ma trận tương tác rất thưa do người dùng không đưa ra đánh giá cho các sản phẩm mà họ thích. Trong khi đó, nhánh tiếp cận dựa vào mô hình đã chứng tỏ được tính hữu hiệu của nó đối với ma trận tương tác rất thưa. Ý tưởng chính là từ ma trận tương tác, ta có thể ánh xạ từng người dùng và sản phẩm đến một không gian có số chiều thấp hơn. Nhờ giảm sự thưa ở không gian mới, hệ thống có thể phân tích tương tác người dùng - sản phẩm qua phép nhân vô hướng. Nhiều nghiên cứu trên phương pháp phân rã ma trận (Matrix Factorization - MF) cho thấy với phương pháp khởi tạo có thể cải thiện tốc độ hội tụ và độ chính xác của hệ thống một cách đáng kể.
Tuy nhiên, đối với người dùng hoặc sản phẩm mới, hệ thống thường không có đủ dữ liệu tương tác để đưa ra gợi ý chính xác, dẫn đến vấn đề khởi động nguội (Cold-start problem) trong RS (Hình 2). Để khắc phục vấn đề này, các hệ thống sử dụng phương pháp kết hợp được đề xuất. Phương pháp này áp dụng cả lịch sử tương tác của người dùng và các thông tin phụ như đặc trưng, thuộc tính của sản phẩm, người dùng để tận dụng ưu điểm của cả hai phương pháp lọc nội dung và CF. Đối với phương pháp kết hợp, có hai hướng tiếp cận chính: kết hợp gián tiếp và kết hợp trực tiếp. Mô hình kết hợp gián tiếp thực hiện kết hợp kết quả đã được dự đoán từ một hệ thống lọc nội dung hoặc CF đơn lẻ để tạo ra kết quả gợi ý cuối sử dụng phép kết hợp tuyến tính hoặc qua các bước phối hợp đánh giá khác nhau. Ngược lại, mô hình kết hợp trực tiếp phức tạp hơn khi thực hiện tích hợp sự tương tác giữa người dùng - sản phẩm và thông tin phụ trợ vào một mô hình thống nhất
.
Mô hình kết hợp được đề xuất áp dụng thuật toán phân tích giá trị suy biến (Singular Value Decomposition - SVD) nhằm đề xuất chương trình truyền hình. Sau khi đề xuất mô hình SVD++, tác giả thiết lập một mô hình tích hợp SVD++ với CF dựa trên ghi nhớ bằng cách biểu diễn mỗi người dùng qua các sản phẩm đã được người dùng đó đánh giá thay vì sử dụng phản hồi gián tiếp để tăng độ chính xác của các gợi ý. Một mô hình khác tên là Máy nhân tử hóa (Factorization Machines - FM) kết hợp giữa mô hình MF và máy vector hỗ trợ (Support Vector Machine) cũng sử dụng cả đánh giá và các thông tin bổ trợ để đưa ra gợi ý.
Hướng tiếp cận kết hợp nội dung bổ trợ cho bài toán khởi tạo các mô hình MF cũng nhận được chú ý trong thời gian gần đây. Để điều chỉnh vector khởi tạo sao cho phù hợp, độ tương đồng giữa các sản phẩm và giữa các người dùng được tích hợp vào khởi tạo cho vector đặc trưng nhằm tận dụng dữ liệu có sẵn. Cùng với đó, thông tin thuộc tính của sản phẩm cũng được sử dụng để khởi tạo trực tiếp cho ma trận đặc trưng sản phẩm trong mô hình SVD++. Tuy nhiên, phương pháp này chỉ xét đến ma trận sản phẩm, và độ cải thiện nói chung còn khiêm tốn. Trong các phương pháp này, các đặc trưng như thể loại phim được coi như một dạng biểu diễn chính xác cho sản phẩm. Tuy nhiên trong thực tế, dữ liệu thô cần được tiền xử lý và phân tích một cách cẩn thận trước khi đưa vào RS, nhất là khi nội dung của sản phẩm có dạng văn bản, hình ảnh hay ảnh động và yêu cầu mô hình phức tạp để có thể phân tách được dạng biểu diễn có ý nghĩa cho sản phẩm đó.