fix two encoding bugs

reencode() takes three arguments in the order (txt, from, to), opposed to reencode_string, which will, like iconv, handle the arguments with from and to swapped. Fix that (this makes reencode more intuitive). If src and dst encoding are equivalent, don't do any encoding. If no special encoding parameter is found within the commit, assume UTF-8 and explicitly convert to PAGE_ENCODING. The change to reencode() mentioned above avoids re-encoding a UTF-8 string to UTF-8, for example. Signed-off-by: Julius Plenz <plenz@cis.fu-berlin.de> Signed-off-by: Lars Hjemli <hjemli@gmail.com>
author: Julius Plenz <plenz@cis.fu-berlin.de> 2011-03-10 16:03:23 (UTC)
committer: Lars Hjemli <hjemli@gmail.com> 2011-03-26 14:21:07 (UTC)
commit: 0a799424f682071da9f5b632d1394308e9255bb5 (patch) (side-by-side diff)
tree: cbc64c3d05d27cffb6c997b7ace6924838a829ff
parent: 5db02854e64fa41aa459ea7d13fc827063deda41 (diff)
download: cgit-0a799424f682071da9f5b632d1394308e9255bb5.zip
cgit-0a799424f682071da9f5b632d1394308e9255bb5.tar.gz
cgit-0a799424f682071da9f5b632d1394308e9255bb5.tar.bz2
1 files changed, 15 insertions, 9 deletions
diff --git a/parsing.c b/parsing.c
index f37c49d..c9e4350 100644
--- a/parsing.c
+++ b/parsing.c
@@ -61,187 +61,193 @@ char *substr(const char *head, const char *tail)
 	buf[tail - head] = '\0';
 	return buf;
 }
 
 char *parse_user(char *t, char **name, char **email, unsigned long *date)
 {
 	char *p = t;
 	int mode = 1;
 
 	while (p && *p) {
 		if (mode == 1 && *p == '<') {
 			*name = substr(t, p - 1);
 			t = p;
 			mode++;
 		} else if (mode == 1 && *p == '\n') {
 			*name = substr(t, p);
 			p++;
 			break;
 		} else if (mode == 2 && *p == '>') {
 			*email = substr(t, p + 1);
 			t = p;
 			mode++;
 		} else if (mode == 2 && *p == '\n') {
 			*email = substr(t, p);
 			p++;
 			break;
 		} else if (mode == 3 && isdigit(*p)) {
 			*date = atol(p);
 			mode++;
 		} else if (*p == '\n') {
 			p++;
 			break;
 		}
 		p++;
 	}
 	return p;
 }
 
 #ifdef NO_ICONV
 #define reencode(a, b, c)
 #else
 const char *reencode(char **txt, const char *src_enc, const char *dst_enc)
 {
 	char *tmp;
 
 	if (!txt || !*txt || !src_enc || !dst_enc)
 		return *txt;
 
-	tmp = reencode_string(*txt, src_enc, dst_enc);
+	/* no encoding needed if src_enc equals dst_enc */
+	if(!strcasecmp(src_enc, dst_enc))
+		return *txt;
+
+	tmp = reencode_string(*txt, dst_enc, src_enc);
 	if (tmp) {
 		free(*txt);
 		*txt = tmp;
 	}
 	return *txt;
 }
 #endif
 
 struct commitinfo *cgit_parse_commit(struct commit *commit)
 {
 	struct commitinfo *ret;
 	char *p = commit->buffer, *t = commit->buffer;
 
 	ret = xmalloc(sizeof(*ret));
 	ret->commit = commit;
 	ret->author = NULL;
 	ret->author_email = NULL;
 	ret->committer = NULL;
 	ret->committer_email = NULL;
 	ret->subject = NULL;
 	ret->msg = NULL;
 	ret->msg_encoding = NULL;
 
 	if (p == NULL)
 		return ret;
 
 	if (strncmp(p, "tree ", 5))
 		die("Bad commit: %s", sha1_to_hex(commit->object.sha1));
 	else
 		p += 46; // "tree " + hex[40] + "\n"
 
 	while (!strncmp(p, "parent ", 7))
 		p += 48; // "parent " + hex[40] + "\n"
 
 	if (p && !strncmp(p, "author ", 7)) {
 		p = parse_user(p + 7, &ret->author, &ret->author_email,
 			&ret->author_date);
 	}
 
 	if (p && !strncmp(p, "committer ", 9)) {
 		p = parse_user(p + 9, &ret->committer, &ret->committer_email,
 			&ret->committer_date);
 	}
 
 	if (p && !strncmp(p, "encoding ", 9)) {
 		p += 9;
 		t = strchr(p, '\n');
 		if (t) {
 			ret->msg_encoding = substr(p, t + 1);
 			p = t + 1;
 		}
 	}
 
+	/* if no special encoding is found, assume UTF-8 */
+	if(!ret->msg_encoding)
+		ret->msg_encoding = xstrdup("UTF-8");
+
 	// skip unknown header fields
 	while (p && *p && (*p != '\n')) {
 		p = strchr(p, '\n');
 		if (p)
 			p++;
 	}
 
 	// skip empty lines between headers and message
 	while (p && *p == '\n')
 		p++;
 
 	if (!p)
 		return ret;
 
 	t = strchr(p, '\n');
 	if (t) {
 		ret->subject = substr(p, t);
 		p = t + 1;
 
 		while (p && *p == '\n') {
 			p = strchr(p, '\n');
 			if (p)
 				p++;
 		}
 		if (p)
 			ret->msg = xstrdup(p);
 	} else
 		ret->subject = xstrdup(p);
 
-	if (ret->msg_encoding) {
-		reencode(&ret->author, PAGE_ENCODING, ret->msg_encoding);
-		reencode(&ret->author_email, PAGE_ENCODING, ret->msg_encoding);
-		reencode(&ret->committer, PAGE_ENCODING, ret->msg_encoding);
-		reencode(&ret->committer_email, PAGE_ENCODING, ret->msg_encoding);
-		reencode(&ret->subject, PAGE_ENCODING, ret->msg_encoding);
-		reencode(&ret->msg, PAGE_ENCODING, ret->msg_encoding);
-	}
+	reencode(&ret->author, ret->msg_encoding, PAGE_ENCODING);
+	reencode(&ret->author_email, ret->msg_encoding, PAGE_ENCODING);
+	reencode(&ret->committer, ret->msg_encoding, PAGE_ENCODING);
+	reencode(&ret->committer_email, ret->msg_encoding, PAGE_ENCODING);
+	reencode(&ret->subject, ret->msg_encoding, PAGE_ENCODING);
+	reencode(&ret->msg, ret->msg_encoding, PAGE_ENCODING);
 
 	return ret;
 }
 
 
 struct taginfo *cgit_parse_tag(struct tag *tag)
 {
 	void *data;
 	enum object_type type;
 	unsigned long size;
 	char *p;
 	struct taginfo *ret;
 
 	data = read_sha1_file(tag->object.sha1, &type, &size);
 	if (!data || type != OBJ_TAG) {
 		free(data);
 		return 0;
 	}
 
 	ret = xmalloc(sizeof(*ret));
 	ret->tagger = NULL;
 	ret->tagger_email = NULL;
 	ret->tagger_date = 0;
 	ret->msg = NULL;
 
 	p = data;
 
 	while (p && *p) {
 		if (*p == '\n')
 			break;
 
 		if (!strncmp(p, "tagger ", 7)) {
 			p = parse_user(p + 7, &ret->tagger, &ret->tagger_email,
 				&ret->tagger_date);
 		} else {
 			p = strchr(p, '\n');
 			if (p)
 				p++;
 		}
 	}
 
 	// skip empty lines between headers and message
 	while (p && *p == '\n')
 		p++;
 
 	if (p && *p)
 		ret->msg = xstrdup(p);
 	free(data);
author	Julius Plenz <plenz@cis.fu-berlin.de>	2011-03-10 16:03:23 (UTC)
committer	Lars Hjemli <hjemli@gmail.com>	2011-03-26 14:21:07 (UTC)
commit	0a799424f682071da9f5b632d1394308e9255bb5 (patch) (side-by-side diff)
tree	cbc64c3d05d27cffb6c997b7ace6924838a829ff
parent	5db02854e64fa41aa459ea7d13fc827063deda41 (diff)
download	cgit-0a799424f682071da9f5b632d1394308e9255bb5.zip cgit-0a799424f682071da9f5b632d1394308e9255bb5.tar.gz cgit-0a799424f682071da9f5b632d1394308e9255bb5.tar.bz2