UTF-8

Otro detalle con el uso Planet es su uso de UTF-8 en el tratamiento de los feeds.

Planet recupera los feeds, determina si son iso o utf y lugo convierte todo a unicode. Luego la generación de la página es también pensando en unicode. Por esto, los templates y configuración también deben estar en unicode (si es que contienen carácteres «extraños») y el template debe indicar que se esta utilizando utf-8.

Esto, a traves del encabezado xml (de utilizar xhtml) y en Content-type mediante un meta.

El xml:

<?xml version="1.0" encoding="utf-8" ?>

El meta:

<meta http-equiv="Content-Type" content=
  "text/html; charset=utf-8" />

Pero mis problemas con unicode no acabaron allí. Como apache le continuaba indicando en la cabecera que el encoding era iso-8859-1 (AddDefaultCharset está seteado en on) fue necesario indicar que enviara la salida en unicode mediante:

AddDefaultCharset utf-8

Dentro de un .htaccess si el Override lo permite o dentro del httpd.conf

Y tan tan!, nuestros planetarios ahora si que comprenden todos los encodings estandarizando mediante unicode todas las salidas.

Otro tip sobre unicode. Si estás trabajando en iso-8859-1 y deseas convertir tus archivos de texto (templates y configuración) a unicode, utiliza iconv(1) (parte de libc6, asi que deberías tenerlo instalado).

[email protected]:~$ iconv -t utf8 < index.html.tmpl > \r
> lala.html.tmpl
[email protected]:~$ mv lala.html.tmpl index.html.tmpl

Y listo, quedarán convertidos a utf-8.

  • http://www.v0dk4.cl.tc v0dk4

    Clarito. :D

    No entendí mucho, ahaha. Pero sé que es el encoding del idioma o algo así.

    Salu3!

  • http://www.cacko.tk CaCko

    hay problemas con el RSS del Planeta y la interpretacion, por lo que no pude sindicar desde mi blog. con iso esto seguramente no ocurriria.

    suerte con el planeta. cualquier cosa estoy a vuestra disposicion

  • http://elmundosigueahi.blogspot.com Roberto

    Una vez hice una Creme Brulèe y la receta era más o menos como la tuya. No me quedó muy comible así que se la dí al gato. Este ya no está. (No por la Creme, sino que se fué simplemente, aunque pensánsolo bien tal vez sí se fué por aquel postre…). Si tengo otro gato, le pondré Unicode.

  • http://www.dewback.cl/ fabian

    Estoy revisando que se puede hacer. El problema es a causa de malos feeds con carácteres escapados que se salen de la especificación y por otro lado algunas url que contienen ampersand sin ser escapada, el parser espera una entidad.

    Usando el exacto mismo template en Planeta GNOME no tengo el problema, ya que la tropa de geeks se preocupa de mantener sus feeds (o el tiron de orejas o peor aun, la desuscripción, les llega en un santiamén).

    El problema con iso es que muchos blogs envían cabeceras con unicode (MovableType por ejemplo) y otros tantos servidores web tambien (apaches en redhat y otros), por lo que debo cortar por lo sano y nivelar todo a unicode y luego trabajarlo. Como todos los navegadores actuales (si, incluso IE) trabajan a la perfección con unicode, me cepillo el odioso iso.