31 stycznia 2016

SEO. Czy warto połączyć witrynę internetową z Google News?

Odpowiedź na to pytanie jest banalnie prosta – TAK!, jednak nie jest tak proste jak mogłoby się wydawać. Przyzwyczailiśmy się do dodawania witryn internetowych do katalogów, serwisów społecznościowych czy nowych wyszukiwarek internetowych, a Google News jest kolejnym narzędziem pomagającym zwiększyć atrakcyjność naszej strony.

Czym jest Google News?

Gigant z Mountain View na początku 2006 roku uruchomił usługę, która ma na celu agregowanie wiadomości pochodzących z serwisów internetowych i wyświetlanie ich według preferencji użytkowników. Co więcej, serwis umożliwia wyświetlanie nie tylko wiadomości, ale także multimediów. Usługa jest również kompatybilna z urządzeniami mobilnymi. Firma Google na łamach portalu Google News chwali się, że gromadzi nagłówki z ponad 50 tysięcy źródeł wiadomości i pochodzą one z różnych zakątków świata. Wiadomości prezentowane na stornie głównej wybierane są na podstawie algorytmu, który uwzględnia m.in. częstotliwość i miejsca występowania artykułów w sieci. Algorytm doboru artykułów jest w pełni zautomatyzowany oraz podobnie jak flagowa wyszukiwarka Google nie jest publicznie znany. Z usługi Google News korzystają prawie wszystkie stacje i portale informacyjne, prasa oraz blogerzy.
Widok strony startowej Google News
 

Google News to jakość artykułów, a nie ilość!

Wiele czynników ma wpływ na to, czy artykuł wyświetlany jest na początku, czy na końcu listy, m.in.: cechy treści, trafność, lokalizacja, preferencje użytkowników. W tym przypadku potentat wyszukiwarek internetowych wybrał jakość prezentowanych treści dla konkretnej grupy użytkowników, ich aktualność i wiarygodność.

Jak dodać stronę do usługi Google News?

Jak wspomniałem wcześniej, nie jest to takie proste. Nasz serwis musi spełnić szereg wymagań formalnych i technicznych.

Do wymagań formalnych możemy zaliczyć:
  •  Prezentowana treść powinna zawierać artykuły ważne z punktu widzenia użytkownika np. zainteresowania, hobby. Akceptowalne są tylko i wyłącznie aktualne wiadomości. Google News prezentuje zdarzenia rzeczywiste, nie akceptuje felietonów, ofert handlowych, instrukcji, porad, itp.
  •  Poszanowanie praw autorskich.
  •  Kompetencje autorów artykułów.
  •  Poprawność gramatyczna, stylistyczna, rozkład treści na stronie, brak reklam i spamu.
  •  Prezentowanie informacji o autorze takich jak dane adresowe, e-mail, telefon.
  •  Jakość prezentowanego materiału tj. strona przyjazna użytkownikom, prawidłowe stosowanie słów kluczowych i metatagów. 
Wymagania techniczne można podsumować następująco:
  • Artykuły powinny być publikowane w formacie HTML. Należy pamiętać, że robot nie będzie indeksować ramek czy plików JavaScript.
  •  Adresy URL artykułów muszą być unikalne.
  •  Linki do artykułów powinny zawierać co najmniej kilka słów.
  •  Zastosowanie odpowiednich metatagów zgodnie z dokumentacją Google News.
  •  Przesłanie mapy witryny dla Google News [3]. 
Więcej informacji na temat wymagań technicznych, można znaleźć bezpośrednio w pomocy Google News [1].

W następnym kroku należy opublikować witrynę korzystając z narzędzia Centrum Wydawców Google News [2]. Po poprawnej weryfikacji przez Google, która trwa nawet do miesiąca, nasze aktualności od razu powinny zostać prezentowane w obszarze usługi Google News. W przypadku odmownej decyzji należy poprawić błędy i odczekać około dwóch miesięcy, wówczas ponownie będzie można spróbować zgłosić stronę do usługi. Widok Centrum Wydawców Google News.

Widok Centrum Wydawców Google News.

Jak wykorzystać Google News do pozycjonowania?

I tutaj kryje się haczyk, który warto wykorzystać do poniesienia ilości odsłon naszej witryny internetowej. Jeżeli spełnimy wszystkie wspomniane wyżej wymogi formalne i techniczne, to nie tylko zaprezentujemy użytkownikowi nasze wiadomości w obszarze usługi Google News, ale także jesteśmy w stanie w prosty sposób wskoczyć na pierwszą stronę wyników wyszukiwania Google. Jest to możliwe, ponieważ mechanizm Google News wyświetla newsy w obrębie pierwszych trzech wyników wyszukiwania, a także w środkowej części pierwszej strony wyników. Dodatkowo warto wspomnieć, że pomijane są przy tym tradycyjne metody pozycjonowania polegające na sile konkretnego linku.

Przydatne linki i źródła

  • [1] Wymagania techniczne dla Google News: https://support.google.com/news/publisher/answer/2481358 
  •  [2] Narzędzie Centrum Wydawców Google News, czyli jak zgłosić stronę do usługi: https://partnerdash.google.com/partnerdash 
  •  [3] Mapa witryny dla Google News: https://support.google.com/news/publisher/answer/75717
  •  [4] Informacje na temat usługi Google News: https://support.google.com/news/publisher/ https://support.google.com/news/publisher/answer/40787

5 sierpnia 2011

Plik robots.txt

Dziś chciałbym pokazać Wam czym jest plik robots.txt, jakie jest jego zastosowanie i czy warto go stosować. Plik robots (ang. spider, robot, crawler) umożliwia kontrolowanie zachowań robotów sieciowych oraz ich dostęp do zasobów w danej witrynie internetowej. Inaczej mówiąc, podczas tworzenia pliku wskazujemy jakie roboty oraz jakie dane mogą zostać znalezione i zaindeksowane przez wyszukiwarki internetowe, katalogi itp.

Wyobraźmy sobie sytuację, gdy na naszym serwerze znajduje się witryna internetowa, która składa się z kilku katalogów. Dodatkowo na serwerze umieszczone są prywatne dane np. w katalogu /temp/. Jak łatwo się domyślić, chcemy aby nasza witryna została zaindeksowana przez wyszukiwarki internetowe, ale bez wspomnianego katalogu /temp/. Podany przykład możemy bez problemu zaimplementować w pliku robots.txt. Szczegóły i zasady tworzenia pliku robots zostały opisane w dwóch dokumentach. Pierwszy z nich w 1994 r. „A Standard for Robot Exclusion”, drugi w 1997 r. „A Method for Web Robots Control”.

Zasady i reguły pliku robots
1) Wymagana nazwa pliku to „robots.txt” i powinien być zwykłym plikiem tekstowym.
2) Plik robots musi zawsze znajdować się w katalogu głównym serwera HTTP (inna lokalizacja pliku nie przyniesie żadnego rezultatu).
3) Odpowiedzi serwera pliku robots:
- 3xx (przekierowanie) – podążaj za plikiem
- 401 Unauthorized – nie pobieraj żadnych zasobów,
- 403 Forbidden – nie pobieraj żadnych zasobów,
- 404 Not Found (brak pliku na serwerze) – pobierz wszystkie zasoby,
- 503 Service Unavailable (plik niedostępny) – próba analizy zostanie powtórzona.
4) Stosowanie pliku robots jest opcjonalne.

Składnia pliku
Plik robots składa się z rekordów o następującej konstrukcji:
pole: wartość
Dozwolone są również komentarze przy użyciu znaku # - hash np.
# to jest komentarz pliku robots.txt

Pole User-agent w pliku robots.txt
określa nazwę – identyfikator robota. Korzystając z tego pola określamy jakie roboty mają dostęp do zasobów naszej witryny. Pole może przyjmować następujące wartości:
- * (określa wszystkie roboty),
- Googlebot (robot Google),
- msnbot (robot MSN),
- slurp (robot Yahoo),
- inne roboty: Adsbot-Google, Googlebot-Mobile, Googlebot-Image, itd.
Szczegółowy opis i wykaz wszystkich robotów znajduje się na oficjalnej witrynie pliku robots.

Ponieważ samo zadeklarowanie robota nie przyniesie żadnego rezultatu, należy nadać każdemu robotowi atrybut dostępu. Są to:
Disallow – dostęp zabroniony,
Allow – dostęp do zasobów (niezalecany i niewykorzystywany).

Poniższy przykład pokazuje zdefiniowany rekord:
# znacznik Allow nie jest zalecany!
User-agent: Googlebot
Allow: /temp/
Disallow: /abc/

Na samym początku określamy w polu User-agent robota i jego nazwę. Następnie korzystając z atrybutów Allow – robot Googlebot otrzyma dostęp do katalogu /temp/, a atrybut Disallow uniemożliwi dostęp do katalogu /abc/. W pierwszej linii powyższego przykładu widzimy komentarz rozpoczynający się od znaku #. Użyty w przykładzie atrybut Allow jest zbędny, ponieważ zawartość (poza zawartością wskazaną w ścieżce Disallow) będzie dostępna dla robotów.

Oczywiście w jednym pliku robots, możemy definiować zachowania dla jednego, kilku lub wszystkich robotów, określając ich dostęp do zasobów np.:

# robot Google
User-agent: Googlebot
Disallow: /temp/
Disallow: /wazne/

# pozostałe roboty
User-agent: *
Disallow: /


W powyższym przykładzie pierwszy robot Googlebot nie otrzyma dostępu do katalogów: /temp/ oraz /wazne/. Wszystkie pozostałe zasoby dostępne będą dla Googlebot. Drugi wpis określa zachowanie wszystkich niewymienionych wcześniej robotów, a zapis Disallow: /
oznacza zablokowanie dostępu wszystkich plików i folderów.

Kolejny bardziej rozbudowany przykład:
# pierwszy wpis
# pusta wartość w Disallow oznacza dostęp do wszystkich zasobów
User-agent: Googlebot
User-agent: msnbot
Disallow:

# drugi wpis
User-agnet: Adsbot-Google
User-agnet: Googlebot-Image
Disallow: /

# trzeci wpis
User-agent: slurp
Disallow: /dokumenty/

# czwarty wpis
User-agent: *
Disallow: /dokumenty/
Disallow: /temp/plik.html


Roboty Googlebot i msnbot otrzymają dostęp do wszystkich folderów i plików, natomiast całe zasoby serwera zostaną zablokowane dla robotów Adsbot-Google i Googlebot-Image. Trzeci wpis zablokuje dostęp do katalogu /dokumenty/ dla robota slurp. Pozostałe roboty będą miały dostęp do wszystkich zasobów oprócz katalogu /dokumenty/ i pliku /temp/plik.html.

Pole Sitemap w pliku robots.txt
Niektóre roboty internetowe wspierają mapy witryn (ang. sitemap), które zostały szczegółowo opisane w artykule „Mapy witryny XML”. Dzięki takiemu rozwiązaniu możemy od razu w pliku robots.txt zdefiniować odwołanie do mapy witryny strony internetowej. Poniżej przykład wpisu definiujący mapy witryny w pliku robots.txt:

# przykład zastosowania wpisu mapy witryny w pliku robots.txt
Sitemap: http://www.piwnicait.blogspot.com/sitemap.xml
Sitemap: http://www.piwnicait.blogspot.com/sitemap-index.xml


Ważne reguły i zalecenia przy tworzeniu wpisów
- Określenie samego atrybutu Disallow: bez wskazania ścieżki oznacza dostęp do wszystkich zasobów.
- Nie można zabronić dostępu do pliku robots.txt np. Disallow: /robots.txt – ten plik jest zawsze dostępny.
- Atrybut Allow nie został powszechnie zaakceptowany i nie jest zalecane jego stosowanie.
- Ścieżki dostępu nie mogą zawierać znaków globalnych, a znaki specjalne np. & muszą zostać zastąpione postacią szesnastkową np. %26.
- Zapis: Disallow: /dokument nie jest równoznaczny z zapisem: Disallow: /dokument/. Pierwszy z nich zabrania dostępu do katalogów, których nazwa zaczyna się lub składa ze znaków "dokument", np. "dokumenty", "dokument", "dokument.html", "dokumentalny.txt" itp. Dostęp do wszystkich wymienionych plików i folderów zostanie zablokowany dla robotów. Natomiast drugi wpis Disallow: /dokument/ oznacza zablokowanie dostępu tylko do katalogu /dokument/.
- W polach Sitemap zalecane jest stosowanie adresów bezpośrednich.

Znacznik meta w pliku HTML
Jednym z kolejnych zaleceń standardu jest podanie dyrektyw dla robotów w znacznikach HTML. Wspomnianą dyrektywę należy umieścić pomiędzy znacznikiem otwierającym <head>, a zamykającym </head>.

<meta name=„robots” content=„wartość”>, gdzie content może przyjmować następujące wartości, zgodne ze standardem konsorcjum W3C:
- index – indeksuj strony,
- all – jest równoznaczne z index i follow (podążaj za linkami na stronie),
- noindex – nie indeksuj strony,
- nofollow – nie podążaj za linkami na stronie.

Istnieje również powiązanie wartości noindex i nofollow poprzez zapisanie obu wartości po przecinku content=„noindex,nofollow”.

Odpowiedzialne i poprawne wykorzystanie pliku robots.txt daje szerokie możliwości konfiguracji witryny pod kątem pozycjonowania i indeksowania serwisów oraz witryn www przez wyszukiwarki internetowe. Oczywiście każdy webmaster musi zdać sobie sprawę z tego, że zbyt „agresywne” zastosowanie pliku robots.txt, może wiązać się z wieloma konsekwencjami i może zostać odebrane jako malware czy tzw. „bad bot”. Mam nadzieję, że zaprezentowane przykłady pozwolą w dowolny sposób skonfigurować plik robots.txt na waszych witrynach.

Na zakończenie powyższe przykłady: robots.zip.
Nie ponoszę odpowiedzialności za błędy i następstwa powstałe wskutek działania programu i kodu. Pobierasz i użytkujesz na własną odpowiedzialność.

10 marca 2011

Mapy witryny XML

Dzisiaj chciałbym poruszyć dość istotne zagadnienie związane z optymalizacją serwisów internetowych - mapy witryn w formacie XML. Na dobry początek warto wspomnieć o optymalizacji serwisów i witryn internetowych. Optymalizacja w ujęciu witryn i portali to proces polegający na zwiększeniu efektywności wyszukiwarek internetowych w kontekście zawartości merytorycznej danego serwisu – inaczej mówiąc SEO (ang. earch engine optimizer).
Jedną z metod zwiększających skuteczność SEO jest stworzenie specjalnej mapy witryny w formacie XML. Protokół Sitemap najczęściej stosowany jest do wskazania robotom indeksującym listy adresów i odwołań konkretnej witryny internetowej. Co zatem zyskujemy? Istnieje zawartość witryny internetowej, która nie jest możliwa do zidentyfikowania przez roboty indeksujące naszą witrynę. Stosując mapy witryn wskazujemy robotom zawartość, którą powinny zaindeksować w wyszukiwarkach internetowych. Protokół Sitemap możemy wykorzystać nie tylko do stworzenia mapy adresów, ale także:
- map obrazów,
- map wideo,
- map treści dla telefonów komórkowych,
- map geolokalizacji,
- map kodów źródłowych,
- map newsów,
- indeks map.
Warto wspomnieć o ograniczeniach, które zostały nałożone na protokół Sitemap. Są to:
- rozmiar pliku do 10MB,
- 50000 adresów URL w pliku.

Mapa witryny
Przejdźmy więc do pierwszego przykładu standardowej mapy witryny XML w oparciu o protokół Sitemap w wersji 0.9.
<?xml version="1.0" encoding="UTF-8"?>
<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
 <url>
  <loc>http://www.piwnicait.blogspot.com/</loc>
  <lastmod>2011-03-10</lastmod>
  <changefreq>daily</changefreq>
  <priority>0.9</priority>
 </url>
 <url>
  <loc>http://www.piwnicait.blogspot.com/link.html</loc>
  <lastmod>2011-03-10</lastmod>
  <changefreq>daily</changefreq>
  <priority>0.5</priority>
 </url>
 <url>
  <loc>http://www.piwnicait.blogspot.com/kontakt.html</loc>
 </url>
</urlset>


Pierwsza linia kodu określa format pliku XML oraz kodowanie UTF-8. Linia druga zawiera wpis wskazujący rodzaj oraz wersję protokołu mapy. Kolejny element <url> definiuje pojedynczy wpis – odnośnik w mapie.
W znaczniku <url> rozróżniamy następujące elementy:
<loc> - określa pełną lokalizację danej podstrony serwisu internetowego – znacznik wymagany,
<lastmod> - określa ostatnią modyfikację adresu w formacie W3C DataTime (RRRR-MM-DD) – znacznik alternatywny,
<changefreq> - określa częstotliwość zmian i modyfikacji wewnątrz adresu URL – znacznik alternatywny, może przyjmować następujące wartości:
- never – nie nastąpi już aktualizacja,
- yearly – aktualizacja co rok
- monthly – aktualizacja co miesiąc,
- weekly – aktualizacja co tydzień,
- daily – aktualizacja codziennie,
- hourly – aktualizacja co godzinę,
- always – aktualizacja przy każdej próbie odczytu mapy witryny.
<priority> - określa priorytet ważności danego wpisu URL z zakresu od 0 do 1 – znacznik alternatywny, domyślna wartość 0.5.
Dodatkowo warto pamiętać aby w adresie URL <url> stosować znaki ucieczki (jeżeli występują), co narzuca standard plików XML. Tak skonstruowany plik gotowy jest do umieszczenia na serwerze witryny internetowej. Jak zatem dodać mapę witryny aby została zaindeksowana przez roboty sieciowe?
a) dodanie wpisu lub utworzenie pliku robots.txt:
Sitemap: http://www.piwnicait.blogspot.com/sitemap.xml
Szczegółowy opis pliku robots.txt dostępny jest pod adresem: http://www.robotstxt.org/

b) poprzez interfejs wyszukiwarki:
Najpopularniejszym narzędziem przeznaczonym do obsługi map witryny jest "Narzędzie dla webmasterów" koncernu Google.

c) wysłanie żądania HTTP:
<searchengine_url>/ping?sitemap=http://www.piwnicait.blogspot.com/sitemap.xml
Kolejnym ważnym zagadnieniem jest sprawdzenie poprawności zbudowanych map. Na rynku istnieje wiele narzędzi przeznaczonych do analizowania i sprawdzania map, jednym z nich jest popularny walidotor W3C http://validator.w3.org/. Oczywiście istnieją narzędzia, które posiadają mechanizmy automatycznie generujące mapę witryny internetowej.

Mapa obrazów
Jeżeli poznaliśmy już podstawową strukturę mapy witryny, czas przyjrzeć się innym mapom. Kolejnym zaprezentowanym przykładem jest mapa obrazów.
<?xml version="1.0" encoding="UTF-8"?>
<urlset xmlns:image="http://www.google.com/schemas/sitemap-image/1.1" xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
<url>
 <loc>http://www.piwnicait.blogspot.com/</loc>
  <priority>0.7</priority>
  <image:image>
   <image:loc>http://www.piwnicait.blogspot.com/rys.gif</image:loc>
   <image:caption>Rysunek 1</image:caption>
  </image:image>
  <image:image>
   <image:loc>http://www.piwnicait.blogspot.com/rys2.gif</image:loc>
   <image:caption>Rysunek 2</image:caption>
  </image:image>
 </url>
 <url>
  <loc>http://www.piwnicait.blogspot.com/linki.html</loc>
  <priority>0.5</priority>
  <image:image>
   <image:loc>http://www.piwnicait.blogspot.com/wykres.jpg</image:loc>
   <image:caption>Wykres 1</image:caption>
  </image:image>
 </url>
</urlset>


Jak możemy zauważyć mapa obrazów niewiele różni się od mapy witryny. Pierwszą zauważalną różnicą jest rozszerzona deklaracja protokołu mapy (druga linia kodu). Kolejną zmianą jest wprowadzenie znacznika <image:image>, który powinien znaleźć się pomiędzy znacznikami <url>, a </url>. Pozostałe znaczniki w mapie obrazów mają identyczne znaczenie, jak zaprezentowane w pierwszym przykładzie. Przyjrzyjmy się zatem, co oferuje znacznik <image:image>, który jest wymagany w mapach obrazów:
<image:loc> - określa pełną lokalizację URL pliku graficznego (.jpg, .gif, .png, ect.) – znacznik wymagany,
<image:caption> - określa opis obrazu – znacznik alternatywny,
<image:title> - określa tytuł obrazu – znacznik alternatywny,
<image:license> - określa URL zawierający licencję obrazu – znacznik alternatywny,
<image:geo_location> - określa położenie geograficzne, które zawiera treść obrazu – znacznik alternatywny.
Umieszczenie mapy obrazów dla robotów indeksujących odbywa się w identyczny sposób, jak we wspomnianym na początku przykładzie - mapy witryny.


Mapa wideo
W podobny sposób możemy stworzyć mapę wideo dla klipów i filmów wideo, które zostały umieszczone w serwisie lub stronie internetowej. Poniższy przykład pokazuje mapę wideo.
<?xml version="1.0" encoding="UTF-8"?>
<urlset xmlns:video="http://www.google.com/schemas/sitemap-video/1.1" xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
 <url>
  <loc>http://www.piwnicait.blogspot.com/filmy.html</loc>
  <priority>0.6</priority>
  <video:video>
   <video:content_loc>http://www.piwnicait.blogspot.com/film.avi</video:content_loc>

   <video:thumbnail_loc> http://www.piwnicait.blogspot.com/minatura.jpg</video:thumbnail_loc>
   <video:title>Film wideo</video:title>
   <video:description>Opis filmu wideo.</video:description>
   <video:tag>film</video:tag>
   <video:tag>wideo</video:tag>
   <video:category>video</video:category>
  </video:video>
  <video:video>

   <video:content_loc>http://www.piwnicait.blogspot.com/film2.avi</video:content_loc>
   <video:thumbnail_loc>http://www.piwnicait.blogspot.com/minatura2.jpg</video:thumbnail_loc>
   <video:title>Film wideo</video:title>
   <video:description>Opis filmu.</video:description>
   <video:tag>wideo</video:tag>
  </video:video>
 </url>
</urlset>


W drugiej linii powyższego kodu XML zadeklarowano protokół obsługi wideo map. Na szczególną uwagę powyższej mapy zasługuje znacznik <video:video>, który należy umieścić pomiędzy elementem <url>, </url> i jest on wymagany. Znacznik <video:video> przyjmuje następujące wymagane elementy:
<video:thumbnail_loc> - określa adres URL miniatury pliku wideo (.jpg, .png, .gif) – znacznik wymagany,
<video:title> - określa tytuł pliku wideo - znacznik wymagany,
<video:description> - opis filmu wideo (do 2048 znaków) - znacznik wymagany.
Poza wymaganymi znacznikami istnieje szereg opcjonalnych elementów:
<video:duration> - określa czas trwania filmu w sekundach – znacznik zalecany,
<video:expiration_date> - określa datę w formacie W3C, po której film nie będzie już dostępny w danej lokalizacji – znacznik zalecany,
<video:rating> - określa ocenę filmu w skali 0.0-5.0 (liczby rzeczywiste),
<video:view_count> - określa liczbę wyświetleń filmu wideo,
<video:tag> - określa tag filmu (maksymalnie do 32 tagów w danej lokalizacji),
<video:category> - określa kategorię filmu video,
<video:price> - określa cenę za pobranie lub obejrzenie filmu,
<video:publication_date> - określa datę publikacji filmu w formacie W3C,
<video:uploader> - określa dane osoby publikującej materiał.
Opisane powyżej opcjonalne znaczniki nie są wszystkimi dostępnymi elementami w procesie tworzenia map wideo. Szczegółowy opis znaczników, można znaleźć m.in. w dziale pomocy Google „Narzędzi dla webmasterów”.

Mapa geolokalizacji
Kolejnym przykładem jest mapa geolokalizacji, która pozwala powiązać informacje zawarte w witrynie internetowej z lokalizacją geograficzną. Poniżej przedstawiono przykładową mapę geolokalizacji:
<?xml version="1.0" encoding="UTF-8"?>
<urlset xmlns:geo="http://www.google.com/geo/schemas/sitemap/1.0" xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
 <url>
  <loc>http://www.piwnicait.blogspot.com/kml.xml</loc>
  <geo:geo>
   <geo:format>kml</geo:format>
  </geo:geo>
 </url>
</urlset>


Druga linia powyższej geolokalizacji określa protokół obsługi mapy geograficznej. Wymaganymi elementami, które powinny zostać umieszczone pomiędzy znacznikami <url> a </url>, są:
<loc> - określa adres URL, w którym wykorzystana jest geolokalizacja,
<geo:geo> - określa format zawartości danych geograficznych, m.in. format „kml” i „georss”.
Formaty typu kml i georss są oddzielnymi plikami XML o określonej specyfikacji i strukturze. Szczegółowe informacje można znaleźć na witrynie internetowej http://www.georss.org oraz http://code.google.com/.

Mapa kodu źródłowego
Następnym ciekawym rozwiązaniem jest dodanie do mapy witryny informacji dla wyszukiwarki Google Code Serach. Rozwiązanie to ułatwia użytkownikom znalezienie fragmentów kodu programu, który jest dostępny w internecie. Poniżej przedstawiono fragment mapy Code Serach.
<?xml version="1.0" encoding="UTF-8"?>
<urlset xmlns:codesearch="http://www.google.com/codesearch/schemas/sitemap/1.0" xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
 <url>
  <loc>http://www.piwnicait.blogspot.com/program.c</loc>
  <codesearch:codesearch>
   <codesearch:filetype>C</codesearch:filetype>
   <codesearch:license>GPL</codesearch:license>
  </codesearch:codesearch>
 </url>
</urlset>


Podobnie jak w poprzednich przykładach w drugiej linii kodu następuje deklaracja rodzaju mapy witryny. Kluczowym elementem jest <codesearch:codesearch>, który powinien znaleźć się pomiędzy znacznikiem <url>, a </url>. Wewnątrz wspomnianego znacznika, mogą wystąpić następujące elementy:
<codesearch:filetype> - określa rodzaj języka, m.in.: C, C#, Java, ect, - znacznik wymagany,
<codesearch:license> - określa nazwę licencji, m.in.: GPL, BSD, - znacznik opcjonalny,
<codesearch:filename> - określa nazwę URL pliku - znacznik opcjonalny,
<codesearch:packageurl> - określa adres URL do pakietu najwyższego poziomu - znacznik opcjonalny.
Szczegółowy opis znaczników można znaleźć w Google „Narzędzia dla webmasterów”.

Mapa zawartości dla telefonów komórkowych
Interesującą mapą witryny jest Sitemap Mobile, która pozwala zaindeksować w wyszukiwarkach internetowych zawartość przeznaczoną dla telefonów komórkowych.
<?xml version="1.0" encoding="UTF-8"?>
<urlset xmlns:mobile="http://www.google.com/schemas/sitemap-mobile/1.0" xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
 <url>
  <loc>http://www.piwnicait.blogspot.com/opis.html</loc>
  <mobile:mobile/>
 </url>
</urlset>


Najważniejszą różnicą poza deklaracją protokołu w drugiej linii kodu jest znacznik <mobile:mobile>, który nie posiada znacznika zamykającego. Wspomniany element należy stosować pomiędzy znacznikami <url>, a </url> zaraz po lokalizacji pliku <loc>.

Indeks map
Na zakończenie warto wspomnieć o mapie indeksów, która pozwala zaindeksować w jednym pliku wszystkie wspomniane mapy. Jest to duże ułatwienie, gdyż nie musimy zgłaszać każdej mapy z osobna. Wystarczy zgłosić jedynie plik indeksu map. Poniżej przedstawiono przykładową mapę indeksu.
<?xml version="1.0" encoding="UTF-8"?>
<sitemapindex xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
 <sitemap>
  <loc>http://www.piwnicait.blogspot.com/sitemap.xml</loc>
  <lastmod>2011-03-10</lastmod>
 </sitemap>
 <sitemap>
  <loc>http://www.piwnicait.blogspot.com/sitemap-video.xml</loc>
  <lastmod>2011-03-10</lastmod>
 </sitemap>
 <sitemap>
  <loc>http://www.piwnicait.blogspot.com/sitemap-image.xml</loc>
 </sitemap>
 <sitemap>
  <loc>http://www.piwnicait.blogspot.com/sitemap-geo.xml</loc>
 </sitemap>
 <sitemap>
  <loc>http://www.piwnicait.blogspot.com/sitemap-mobile.xml</loc>
 </sitemap>
 <sitemap>
  <loc>http://www.piwnicait.blogspot.com/sitemap-code.xml</loc>
 </sitemap>
</sitemapindex>


Pierwsza linia kodu określa standard pliku XML oraz kodowanie UTF-8. Druga zawiera znacznik <sitemapindex> wraz z deklaracją protokołu mapy witryny w wersji 0.9. Kolejny element <sitemap> (wymagany) jest wykorzystany do wskazania lokalizacji kolejnych witryn serwisu, który zawiera następujące znaczniki:
<loc> - określa URL dowolnej mapy witryny – znacznik wymagany,
<lastmod> - określa ostatnią modyfikację pliku – znacznik opcjonalny.

Zastosowanie map witryn daje szerokie możliwości optymalizacji serwisów internetowych, dlatego naprawdę warto zapoznać się z nimi i po prostu ich używać. Warto zaznaczyć, że większość systemów CMS posiada domyślnie wbudowane mapy witryny, jednak nie zawsze są one włączone lub dostępne. Dlatego warto przestudiować specyfikację techniczną danego systemu w celu odnalezienia informacji o mapach. Mam nadzieje, że zaprezentowane przeze mnie mapy pomogą w tworzeniu bardziej optymalnych i wydajnych witryn internetowych, czego wszystkim gorąco życzę.