Canviar codificació d’un arxiu

Avui m’ha passat que un arxiu vell (en text pla) i m’he trobat que en obrir-lo amb gedit o emacs m’he trobat que no es veia correctament.
Així que he decidit convertir-lo a utf-8 a veure si es veia correctament.
El primer que he fet és saber en quina codificació el tenia, i per fer-ho he usat la comanda file:

file arxiu.txt

I m’ha donat com a resposta:
arxiu.txt: ISO-8859 text, with CRLF line terminators
I ara a convertir-lo:

iconv --from-code=ISO-8859-1 --to-code=UTF-8 arxiuantic.txt > arxiunou.txt
També ho podem escriure així:
iconv -s -f ISO-8859-1 -t UTF-8 "arxiuantic.txt" > "arxiunou.txt"

I Ja ho tenim!🙂

Ara, cal comentar un cas especial. Resulta que també m’he trobat amb un arxiu que el tenia en xinès, en fer la comanda file, m’he trobat que em deia que també era ISO-8859 però en fer la comanda de conversió no ho feia correctament. I al final he recordat que l’arxiu l’havia escrit amb un programa de windows (d’això ja fa uns quants anys) i que el xinès simplificat el codifica en cp936, així que la solució ha estat:

iconv -s -f cp936 -t utf-8 "arxiuanticxines.txt" > "arxiunouxines.txt"

Ara, en comptes de llegir “Ì«Ñô” ja puc llegir  “太阳”

😛

fonts:
http://www.ehow.com/how\_12119808\_convert-iso-utf8.html
http://blogofsysadmins.com/cambiar-la-codificacion-de-archivos-de-iso-8859-1-a-utf-8

Posted on 20/10/2012, in terminal, utf-8. Bookmark the permalink. Deixa un comentari.

Deixa un comentari

Fill in your details below or click an icon to log in:

WordPress.com Logo

Esteu comentant fent servir el compte WordPress.com. Log Out / Canvia )

Twitter picture

Esteu comentant fent servir el compte Twitter. Log Out / Canvia )

Facebook photo

Esteu comentant fent servir el compte Facebook. Log Out / Canvia )

Google+ photo

Esteu comentant fent servir el compte Google+. Log Out / Canvia )

Connecting to %s

%d bloggers like this: