Hiểu cách sử dụng đúng cách chuẩn hóa và đặt Canonical URL là kiến thức cần thiết đối với SEO. Việc triển khai sai những điều này có thể gây ra các vấn đề ảnh hưởng tiêu cực đến hiệu suất trang web của bạn.
Thẻ Canonical lần đầu tiên được giới thiệu vào năm 2009 để giúp quản trị viên web khắc phục nội dung trùng lặp hoặc nội dung giống nhau có thể truy cập được trên nhiều URL.
Nhưng để sử dụng thẻ canonical đúng cách, bạn cần hiểu chúng là gì, cách chúng hoạt động và triển khai chúng. Hãy cùng HTH Digital tìm hiểu ngay trong bài viết này nhé.
Nội dung chính
Thẻ Canonical và Canonical URL là gì?
Thường được gọi là rel=”canonical”, các thẻ Canonical là một cách để thông báo cho các công cụ tìm kiếm rằng một URL được chỉ định là bản sao chính của một trang. Chúng cho phép bạn chỉ định Canonical URL cho một trang. Liên kết chuẩn (Canonical Link) cho phép quản trị viên web ngăn chặn các vấn đề về nội dung trùng lặp bằng cách chỉ định phiên bản “canonical” hoặc “preferred” của trang web.
Vậy, sự khác biệt giữa thẻ Canonical và Canonical URL là gì? Có cách nào khác để chỉ định những điều này không?
Thẻ Canonical
Được tìm thấy trong phần của mã nguồn HTML trang web, thẻ Canonical trông giống như sau:
<link rel=”canonical” href=”https://www.website.com/page/” />
Đây có thể là tự tham chiếu (trong đó thẻ Canonical trỏ đến URL của chính trang) hoặc có thể tham chiếu URL của trang khác để hợp nhất các tín hiệu.
Thông thường, chúng ta thấy thuật ngữ của thẻ Canonical và URL được sử dụng thay thế cho nhau, trong khi điều này không nên xảy ra.
Lý do đơn giản là sử dụng thẻ rel=”canonical” là phương pháp được sử dụng phổ biến nhất để đặt các Canonical URL – tuy nhiên, nó không phải là phương pháp duy nhất.
Canonical URL
Canonical URL là một URL được chọn làm URL ‘chính’ cho một tập hợp các trang trùng lặp.
Theo cách nói riêng của Google:
“Canonical URL là URL của trang mà Google cho là đại diện từ một tập hợp các trang trùng lặp trên trang web của bạn.” – Google Search Console Help
Bạn có thể chỉ ra Canonical URL ưa thích của mình. Tuy nhiên, Google có thể chọn một trang khác với trang của bạn vì nhiều lý do khác nhau.
Trong hầu hết các trường hợp, khi được đặt chính xác, URL được chỉ định của bạn sẽ được chọn làm trang chính.
Nói một cách đơn giản, các Canonical URL quy định trang nào thường sẽ hiển thị (ngoại trừ trường hợp một bản sao rõ ràng phù hợp hơn với người dùng, giả sử một phiên bản dành riêng cho thiết bị di động) được hiển thị trong kết quả tìm kiếm.
Canonical URL của một trang có thể nằm trên một miền khác.
Có cách nào khác để Canonical URL có thể được chỉ định?
Thẻ Canonical không phải là cách duy nhất để bạn có thể chỉ định Canonical URL, mặc dù có nhiều khả năng bạn sẽ sử dụng nhất.
Bạn cũng có thể đặt canonical bằng cách:
- Đặt phản hồi tiêu đề HTTP rel=canonical.
- Trong sitemap của bạn (tuy nhiên, trong khi tất cả các trang được liệt kê trong sitemap đều được đề xuất là trang chuẩn; Google sẽ quyết định trang nào (nếu có) là các trang trùng lặp).
- Bằng cách sử dụng Redirect 301.
Mặc dù đây đều là những cách được Google khuyến nghị, nhưng không phải tất cả chúng đều phù hợp để sử dụng trong mọi tình huống, mỗi cách đều có những lý do được khuyến nghị riêng để sử dụng.
Lưu ý rằng việc đặt Canonical URL không phải là bắt buộc và trong những trường hợp bạn không chỉ định URL, Google sẽ sử dụng các tín hiệu khác để xác định trang mà họ cho là phiên bản tốt nhất.
Tuy nhiên, bạn nên sử dụng chuẩn hóa một cách hiệu quả, để đảm bảo rằng bạn có thể kiểm soát cách trang web của mình xuất hiện trên các công cụ tìm kiếm và ngăn chặn các vấn đề phát sinh do nội dung trùng lặp.
Tại sao nội dung trùng lặp tồn tại?
Trước khi xem xét lý do tại sao bạn nên sử dụng Canonical URL và cách chỉ định những URL này trên CMS phổ biến nhất, bạn cần hiểu tại sao nội dung trùng lặp lại tồn tại ngay từ đầu. Không ai bắt đầu tạo nội dung trùng lặp trong một trang web.
Thông thường, điều này xảy ra khi hệ thống quản lý nội dung tạo nhiều URL khi bạn khởi chạy một trang, khi bạn có các phiên bản khác nhau của trang web có thể lập chỉ mục, có phiên bản thay thế cho các loại thiết bị khác nhau hoặc sử dụng URL động.
Hãy xem các URL sau và giả sử rằng, đối với người dùng, tất cả chúng đều hiển thị chính xác cùng một nội dung:
- https://www.website.com/category/product-a/
- https://www.website.com/product-a/
- https://website.com/product-a/
- http://www.website.com/product-a/
- http://website.com/product-a/
- https://m.website.com/product-a/
- https://www.website.com/product-a
- https://www.website.com/product-A/
Đối với công cụ tìm kiếm, đây không phải là một trang nội dung, nó là tám trang trùng lặp:
- URL # 1 và # 2 xuất hiện do CMS lưu URL sản phẩm có và không có tên danh mục.
- URL # 3, # 4 và # 5 là kết quả của việc trang web có thể truy cập được cả trên phiên bản HTTP và HTTPS, cũng như phiên bản www và không phải www.
- URL # 6 là phiên bản thân thiện với thiết bị di động nằm trên một miền phụ.
- URL # 7 là phiên bản không có dấu gạch chéo của URL # 2.
- URL # 8 sử dụng chữ ‘A’ viết hoa thay cho chữ thường được sử dụng ở những nơi khác trên trang web.
Bạn cũng có thể thấy nội dung trùng lặp tồn tại trên các URL như:
- https://www.website.com/
- https://www.website.com/index.php
Bây giờ hãy xem nội dung trùng lặp dễ xảy ra như thế nào?
Trên thực tế, nhiều trang web có những vấn đề này mà bạn thậm chí không nhận ra, nhưng URL chuẩn giúp các công cụ tìm kiếm xác định các biến thể khác nhau của một trang dưới dạng một URL duy nhất.
Tại sao bạn nên sử dụng Canonical URL cho SEO?
Các Canonical URL sẽ giúp bạn giải quyết các vấn đề về nội dung trùng lặp có thể ảnh hưởng đến hiệu suất của trang web của bạn. Cụ thể:
Chỉ định URL sẽ được hiển thị trong kết quả tìm kiếm
Khi bạn đặt một Canonical URL, bạn đang đưa ra dấu hiệu về phiên bản trang nào sẽ được hiển thị trên SERPs.
Hãy nghĩ về nó theo cách này, bạn sẽ có nhiều khả năng nhấp vào cái nào hơn?
- https://www.domain.com/page-1/
- https://www.domain.com/index.php?id=2
Rất có thể, cái đầu tiên.
Sử dụng canonical để chỉ định URL mà bạn muốn các công cụ tìm kiếm xếp hạng.
Hợp nhất các tín hiệu liên kết trên các trang trùng lặp hoặc gần giống hệt nhau
Khi bạn có các trang trùng lặp hoặc gần giống hệt nhau trên trang web của mình, có khả năng các URL riêng lẻ có thể kiếm được liên kết từ các nguồn bên ngoài.
Sử dụng các Canonical URL để hợp nhất các tín hiệu liên kết từ nhiều trang thành một URL duy nhất mà bạn chỉ định.
Điều này có thể giúp trang web của bạn xếp hạng khi các tín hiệu được phân phối trên nhiều URL được hợp nhất thành một trang mạnh hơn.
Quản lý nội dung cung cấp thông tin
Không có gì lạ khi nội dung được cung cấp trên các trang web khác nhau xuất hiện trước khán giả mới.
Để ngăn các trang trùng lặp xếp hạng trên SERPs và để đảm bảo rằng phần nội dung gốc là nội dung được xếp hạng, bạn có thể sử dụng các Canonical URL để hợp nhất các tín hiệu xếp hạng.
Ngăn Googlebot thu thập thông tin các trang trùng lặp
Đặc biệt, nếu bạn đang làm việc với một trang web lớn với nhiều trang, bạn có thể sử dụng URL chuẩn để đảm bảo rằng Googlebot dành thời gian thu thập dữ liệu các trang mới của bạn thay vì các phiên bản trùng lặp của cùng một trang trên các phiên bản dành cho thiết bị di động và máy tính để bàn.
Cách triển khai đúng thẻ rel = canonical
Cho đến nay, cách phổ biến nhất để chỉ định URL chuẩn là sử dụng thẻ rel=”canonical” trong tiêu đề trang của bạn.
Việc thêm thẻ và mã HTML nghe có vẻ khó khăn nếu bạn không phải là nhà phát triển, nhưng phần lớn các nền tảng CMS cho phép bạn chỉ định các tiêu chuẩn ngay lập tức.
Đặt Canonical URL trên WordPress
Đặt URL chuẩn trên WordPress không thể dễ dàng hơn. Tuy nhiên, làm thế nào để thực hiện những điều này phụ thuộc vào plugin WordPress SEO bạn đang sử dụng.
Chúng ta sẽ xem xét cách thực hiện điều này với hai trong số các plugin phổ biến nhất – Yoast và Rank Math.
Thẻ Canonical với Yoast
Nếu bạn đang sử dụng Yoast, chỉ cần đi đến các tùy chọn Yoast SEO trên bất kỳ trang hoặc bài đăng nào và mở rộng tab ‘nâng cao’.
Tại đây, bạn sẽ tìm thấy một trường mà bạn có thể chỉ định URL chuẩn của trang.
Thẻ Canonical với Rank Math
Nếu bạn đang sử dụng Rank Math, đó là một cách thực hiện tương tự như trên.
Trên bất kỳ trang hoặc bài đăng nào, hãy chuyển đến tab ‘advanced’ của hộp meta Rank Match và bạn sẽ thấy tùy chọn để chỉ định URL chuẩn cho trang.
Đặt Canonical URL trên Wix
Theo mặc định, các trang Wix sử dụng thẻ Canonical tự tham chiếu mặc định.
Nếu bạn cần thay đổi điều này, bạn có thể làm như vậy bằng cách đi đến Menus & Pages, di chuột qua trang có liên quan và nhấp vào biểu tượng show more, sau đó chuyển đến SEO options > Advanced SEO và ‘Add New Tag’ trong Custom Meta Tags.
Đảm bảo nhập thẻ Canonical đầy đủ, không chỉ nhập URL.
Bạn có thể thay đổi Canonical URL của mình trong mã này:
<link rel=”canonical” href=”{your-page-url}”/>
Đặt Canonical URL trên Shopify
Khi phát triển chủ đề Shopify, bạn có thể sử dụng đối tượng {{canonical_url}} để xuất Canonical URL của trang hiện tại.
Nhưng, bạn không thể chỉ định URL chuẩn tùy chỉnh theo cách giống như cách bạn có thể làm trên WordPress hoặc Wix.
Bởi, Shopify tạo các URL sản phẩm cập nhật động để chúng chứa bộ sưu tập mà chúng bắt nguồn từ đó.
Bạn có thể tìm thấy một sản phẩm duy nhất trên các URL sau:
- https://www.website.com/products/product-a
- https://www.website.com/featured-collection/products/product-a
- https://www.website.com/sales-collection/products/product-a
Tất cả đều trả về cùng một trang sản phẩm, chỉ trên các URL khác nhau và trong khi các thẻ Canonical của Shopify phân giải đúng thành Canonical, bạn cũng sẽ tìm thấy các liên kết nội bộ trỏ đến các phiên bản trùng lặp, làm tăng thêm sự nhầm lẫn.
Bạn có thể làm sạch điều này bằng cách thực hiện các bước phác thảo trong hướng dẫn tuyệt vời này từ Path Interactive.
Đi vào các tệp lỏng của chủ đề của bạn và tìm mã sau đây thường có trong tệp collection-template.liquid:
{{ product.url | within: collection }}
Hãy tiếp tục và chỉnh sửa nó thành:
{{ product.url }}
Bây giờ bạn sẽ thấy rằng cả thẻ chuẩn và liên kết nội bộ của bạn đều chính xác.
Cách triển khai đúng tiêu đề HTTP rel = “canonical”
Một giải pháp thay thế cho việc sử dụng thẻ Canonical là triển khai tiêu đề HTTP rel = “canonical”.
Đây là phương pháp triển khai mà bạn cần thực hiện để chỉ định URL chuẩn cho các tệp PDF hoặc các tài liệu không phải HTML khác.
Bạn cần có thể truy cập tệp .htaccess trên trang web của mình để triển khai điều này và có thể chỉ định URL chuẩn bằng mã sau:
<Files “file-to-canonicalize.pdf”>
Header add Link “< http://www.website.com/canonical-page/>; rel=\”canonical\””
</Files>
Sử dụng Redirect 301 để chỉ định Canonical
Google tuyên bố rằng bạn có thể sử dụng Redirect 301 để chỉ định các Canonical URL.
Tuy nhiên, nếu bạn sử dụng chuyển hướng 301, chỉ Canonical URL mới thực sự tồn tại. Các phiên bản trùng lặp khác sẽ chuyển hướng đến điều này.
Điều đó nói rằng, đây thường là cách tốt nhất để giải quyết các vấn đề về nội dung trùng lặp trên:
- HTTP và HTTPS
- Không phải WWW và WWW
- URL theo dấu gạch chéo và URL không có dấu gạch chéo
Bạn nên xem xét cẩn thận hơn khi sử dụng, và thường các thẻ Canonical là giải pháp tốt nhất của bạn trừ khi bạn có thể tự tin xóa và chuyển hướng một trang.
Canonical URL trong Sơ đồ trang web
Hãy cẩn thận không đưa các URL non-canonical URL vào sơ đồ trang web vì Google giả định rằng các URL được chỉ định trong sơ đồ trang là phiên bản chính tắc.
Điều này không được đảm bảo để chỉ định các Canonical URL, nhưng là phương pháp hay nhất cần xem xét khi cấu trúc sơ đồ trang web.
Các phương pháp hay nhất về thẻ Canonical
Việc triển khai các thẻ Canonical không quá khó khăn và khi bạn hiểu một số phương pháp này, bạn sẽ thấy rằng việc phát hiện và dọn dẹp các vấn đề nội dung trùng lặp trở nên dễ dàng hơn.
Khi triển khai các Canonical URL, hãy luôn đảm bảo:
Chỉ chỉ định một Canonical URL trên mỗi trang
Bạn chỉ nên chỉ định một URL chuẩn cho mỗi trang, nếu không, bạn có thể sẽ thấy rằng tất cả đều bị bỏ qua.
Chỉ định giao thức miền chính xác
Nếu trang web của bạn sử dụng giao thức HTTPS, hãy nhớ tham chiếu điều này đúng cách làm URL chuẩn của bạn. Việc tham chiếu sai giao thức là một sai lầm dễ mắc phải, vì vậy hãy đảm bảo kiểm tra điều này xảy ra để có thể nắm bắt nó trước khi nó trở thành vấn đề.
Chỉ định URL dấu gạch chéo hoặc URL không có dấu gạch chéo
Hãy chú ý xem trang web của bạn có sử dụng dấu gạch chéo ở cuối URL hay không và đảm bảo tham chiếu chính xác URL chuẩn của bạn theo cách này.
Chỉ định URL không phải WWW hoặc WWW
Các phiên bản không phải WWW và WWW của một URL được các công cụ tìm kiếm coi là các trang trùng lặp; vì vậy hãy đảm bảo chỉ định đúng.
Sử dụng URL tuyệt đối
Các thẻ Canonical nên được tham chiếu bằng cách sử dụng URL tuyệt đối, thay vì tương đối, để đảm bảo rằng chúng được diễn giải đúng.
Điều đó có nghĩa là bạn nên sử dụng:
<link rel=”canonical” href=”https://www.website.com/page-a/” />
Và không:
<link rel=”canonical” href=”/page-a/” />
Sử dụng Canonical URL tự tham chiếu nếu không chuẩn hóa thành một URL khác
Mặc dù đây không phải là một yêu cầu bắt buộc, nhưng bạn phải luôn đảm bảo triển khai các Canonical URL tự tham chiếu khi một trang không chuẩn hóa thành một URL khác.
Đây là nơi thẻ Canonical của một trang tham chiếu đến chính nó.
Những sai lầm phổ biến cần tránh khi triển khai thẻ Canonical
Chuẩn hóa thành chuyển hướng 301
Hãy cẩn thận để không chuẩn hóa cho một URL sau đó được chuyển hướng, thay vào đó bạn nên đặt URL chuẩn thành mục tiêu chuyển hướng.
Chuẩn hóa cho một giao thức miền không chính xác
Nếu trang web của bạn sử dụng HTTPS, hãy cẩn thận không vô tình đặt các URL chuẩn của bạn bằng HTTP.
Chuẩn hóa cho nội dung không liên quan
Bạn không nên chuẩn hóa các URL của mình thành nội dung không trùng lặp hoặc gần giống nhau.
Đôi khi có vài trường hợp cố gắng chuyển các tín hiệu liên kết qua các thẻ chuẩn từ nội dung không liên quan để thử và tăng thứ hạng – đây không phải là cách chuẩn hóa nên được sử dụng và nên tránh bằng mọi giá.
Đặt nhiều Canonical URL
Bạn chỉ nên sử dụng một thẻ chuẩn duy nhất hoặc chỉ định một URL chuẩn duy nhất cho mỗi trang, nếu không, có khả năng tất cả sẽ bị bỏ qua.
Hãy cẩn thận để tránh vô tình bao gồm hai thẻ chuẩn trong của trang của bạn, vì điều này đôi khi có thể xảy ra khi cố gắng ghi đè giá trị mặc định trong một số CMS.
Phân trang và chuẩn hóa khó hiểu
Không thể phủ nhận rằng phân trang, nếu được triển khai không chính xác, có thể gây ra nội dung trùng lặp. Nhưng việc chuẩn hóa tất cả các URL trong một chuỗi quay lại trang đầu tiên không phải lúc nào cũng là giải pháp tốt nhất.
Thay vào đó, bạn nên chuẩn hóa chúng thành một trang ‘xem tất cả’.
Cách kiểm tra các thẻ Canonical trên trang web của bạn (và khắc phục sự cố)
Để có thể tìm thấy bất kỳ vấn đề nào tồn tại với quá trình chuẩn hóa, bạn sẽ cần phải kiểm tra các thẻ Canonical của trang web của mình.
Bạn có thể sử dụng các công cụ kiểm tra website như: Semrush, Ahref để kiểm tra các liên quan đến thẻ Canonical.
Các trang AMP không có thẻ Canonical
- Khi các trang AMP của bạn không có thẻ Canonical, công cụ Kiểm tra website sẽ gắn cờ đây là một vấn đề.
- Điều quan trọng là phải có quá trình chuẩn hóa giữa các phiên bản AMP và không phải AMP trên trang của bạn.
- Bạn có thể khắc phục điều này bằng cách thêm thẻ rel = “canonical” vào phần của mỗi trang AMP.
Không có Redirect hoặc Canonical đến HTTPS từ HTTP
Nếu trang web của bạn có thể được truy cập trên cả hai phiên bản HTTPS và HTTP, bạn sẽ gặp sự cố nội dung trùng lặp và điều này sẽ bị gắn cờ trong Kiểm tra trang web.
Bạn có thể khắc phục điều này bằng cách 301 chuyển hướng một phiên bản đến phiên bản chính xác hoặc thêm thẻ chuẩn tham chiếu đến phiên bản HTTPS trên các trang HTTP.
Các trang có liên kết chuẩn bị hỏng
Nếu các trang của bạn có các liên kết chuẩn bị hỏng, chúng sẽ không được hiểu là Canonical URL.
Gặp lỗi này có thể có nghĩa là các liên kết chuẩn của bạn trỏ đến các trang web không tồn tại và do đó, làm phức tạp quá trình thu thập thông tin và lập chỉ mục nội dung của bạn.
Nếu bạn tìm thấy các trang có liên kết chuẩn bị hỏng, hãy đảm bảo cập nhật những liên kết này thành Canonical URL chính xác.
Các trang có nhiều Canonical URL
- Bạn sẽ thấy lỗi này khi có nhiều hơn một URL chuẩn trên một trang.
- Để khắc phục điều này, bạn cần loại bỏ các thẻ trùng lặp và chỉ để lại một thẻ tại chỗ.
Chuẩn hóa là một trong những khái niệm quan trọng nhất để bạn hiểu là SEO và việc sử dụng nó không đúng cách có thể có tác động tiêu cực đến hiệu suất trang web của bạn.
Điều đó nói rằng, một khi bạn hiểu cách thức hoạt động và công dụng của nó, cùng với cách tìm và khắc phục sự cố, bạn sẽ có một vị trí tuyệt vời để đảm bảo rằng bạn có thể sử dụng nó một cách hiệu quả và loại bỏ trang web của mình khỏi nội dung trùng lặp.