Conversation between Thuan Huyn of TraduWiki and Alain Desilets

2:24:20 PM Alain Désilets says: Tu disais avoir des idées sur le modèle de synchronisation.

2:24:30 PM Alain Désilets says: Je suis toute ouie.

2:24:59 PM thuan huynh says: en fait, je ne sais pas où commencer. je suppose que vous êtes assez avancé sur la question

2:25:08 PM Alain Désilets says: Oui et non.

2:25:17 PM thuan huynh says: est-ce que vous avez une méthode ?

2:25:46 PM Alain Désilets says: Oui. Pas encore implantée dans TikiWiki, mais je l'ai implantée dans un prototype appelé LizzyWiki.

2:25:49 PM thuan huynh says: je pensais passer par une table de réference pour tous les textes

2:26:20 PM Alain Désilets says: Disons qu'à un moment T, la version anglaise et francaise sont considérées comme étant synchronisées.

2:26:22 PM thuan huynh says: est-ce la méthodologie de la publication de l'année dernière ?

2:26:29 PM Alain Désilets says: Parce qu'un humain a dit que c'était le cas.

2:26:50 PM thuan huynh says: ok, poursuis

2:26:50 PM Alain Désilets says: Méthode publiée en 2006 dans l'article "Translation the Wiki Way".

2:27:00 PM thuan huynh says: je m'en rappelle

2:27:08 PM Alain Désilets says: Si tu as lu l'article, alors tu sais déjà.

2:27:17 PM Alain Désilets says: Dois-je répéter?

2:27:28 PM thuan huynh says: oui, mais je pensais qu'elle avait évolué depuis

2:27:49 PM Alain Désilets says: Pas vraiment. Nous sommes en train de réimplanter ça dans TikiWiki.

2:28:00 PM Alain Désilets says: Mais ma pensée a évolué un peu sur le sujet.

2:28:22 PM thuan huynh says: curieux je suis

2:28:34 PM Alain Désilets says: J'aimerais éviter que l'utilisateur ait besoin d'indiquer explicitement quand deux versions linguistiques sont synchronisées.

2:28:57 PM Alain Désilets says: Dans mon prototype, j'ai trouvée que ça interrompait beacuoup le flow de l'utilisateur.

2:29:10 PM Alain Désilets says: Mais j'ai pas encore de solution à ce problème là.

2:29:15 PM thuan huynh says: je comprends et cela bloque les autres traductions également

2:29:18 PM Alain Désilets says: Juste une conscience aigue que c'est un problème.

2:29:24 PM Alain Désilets says: Oui, en effet.

2:29:30 PM Alain Désilets says: As-tu des idées là dessus?

2:29:38 PM thuan huynh says: est-ce que passer par une table de référence permet de contourner le problème ?

2:29:54 PM Alain Désilets says: Explique...

2:29:57 PM thuan huynh says: je dis par là : on pose des marqueurs sur un texte

2:30:10 PM Alain Désilets says: Quels types de marqueurs?

2:30:29 PM Alain Désilets says: Ah, tu veux dire des éléments de Markup?

2:30:31 PM thuan huynh says: des marqueurs comme des ancres, des références, des pointeurs, tu vois le genre

2:30:39 PM thuan huynh says: oui, cela peut être le cas.

2:30:41 PM Alain Désilets says: Pour indiquer quelles portions de texte ont besoin d'être traduites?

2:31:02 PM thuan huynh says: on tire ainsi un portrait d'un texte à un temps défini

2:31:24 PM thuan huynh says: et on compare portrait à portrait en surlignant les passages qui ont évolués

2:31:31 PM Alain Désilets says: Quels sont les avantages par rapport à faire un diff entre les versions synchrones et non synchrones.

2:32:23 PM thuan huynh says: est-ce que les version synchrones et non synchrones fonctionnent entre deux langues différentes ?

2:33:06 PM Alain Désilets says: L'idée de base est que nous avons un moyen de déterminer des moments dans le temps ou la version anglaise et francaise étaient synchronisées.

2:33:27 PM Alain Désilets says: Dans LizzyWiki, c'est l'humain qui spécifie ces moments de synchronisation.

2:34:01 PM thuan huynh says: je crois comprendre. juste une question :

2:34:05 PM Alain Désilets says: Une fois qu'on a ça, si l'une ou les deux pages ont évolué depuis le moment de synchronisation, on peut montrer au traducteur quels portions de texte ont changé depuis, et ce des deux cotes.

2:34:16 PM Alain Désilets says: Vas-y...

2:34:24 PM thuan huynh says: les textes ne peuvent être déclarés synchronisés qu'une fois entièrement traduit ?

2:34:30 PM Alain Désilets says: Oui.

2:34:48 PM Alain Désilets says: Une approche alternative serait que l'unité de synchronisation soit la phrase ou le paragraphe.

2:35:00 PM Alain Désilets says: Mais ça requiert un modèle de données plus fin.

2:35:06 PM thuan huynh says: c'est sur cette base que je suis partie

2:35:14 PM Alain Désilets says: OK. Raconte moi.

2:35:31 PM thuan huynh says: non non je crois que mon modèle ne fonctionne pas encore

2:36:02 PM thuan huynh says: cela dit, encore une question :

2:36:08 PM Alain Désilets says: C'est correct. Je veux savoir les erreurs que tu as faites pour éviter que nous fassions les memes.

2:36:18 PM thuan huynh says: 2 textes sont équivalents à un temp T

2:36:51 PM Alain Désilets says: Oui?

2:36:53 PM thuan huynh says: est-ce qu'il y a une hiérarchie entre versions ?

2:37:08 PM Alain Désilets says: Que veux-tu dire par hiérarchie?

2:37:32 PM thuan huynh says: par exemple, le texte original = anglais, traduit en francais

2:37:37 PM Alain Désilets says: En passant, Louis-Philippe Huberdeau a commencé à réfléchir à cette idée de synchronisation au niveau de la phrase.

2:37:37 PM Alain Désilets says: http://www.wiki-translation.com/tiki-index.php?page=Language+Synchronization&highlight=sentence

2:37:44 PM thuan huynh says: et à partir du francais, traduit en allemand

2:37:51 PM Alain Désilets says: LPH est le lead developer sur le projet de TikiWiki multilinguel.

2:38:12 PM Alain Désilets says: OK, je vois ce que tu veux dire par hierarchie.

2:38:22 PM Alain Désilets says: Nous ne pensons pas tenir compte de ça.

2:38:27 PM thuan huynh says: ok

2:38:32 PM Alain Désilets says: Quels avantage verrais-tu à en tenir compte?

2:39:22 PM thuan huynh says: je pensais que plus il y a d'étapes entre une version originale et sa version traduite, plus l'approximation de traduction est grande

2:39:46 PM Alain Désilets says: En effet.

2:40:00 PM Alain Désilets says: C'est pourquoi je pense qu'il faudra qu'il y ait 1-3 langues pivot.

2:40:12 PM thuan huynh says: du coup, passez un certain nombre d'étapes, il faudrait considérer que les deux versions ne peuvent plus être syncrhones

2:40:16 PM Alain Désilets says: CÀD des langues par lesquelles toutes les traductions doivent d'abord passer.

2:40:42 PM thuan huynh says: cela allonge du coup le temps de traduction d'un texte

2:40:50 PM Alain Désilets says: Une question que je me pose c'est si c'est nécessaire d'imposer les langues pivot au niveau du système, ou si ça aura tendance à arriver comme ça naturellement.

2:41:13 PM Alain Désilets says: Pour le temps de trad, il se pourrait qu'au contraire ça accélère.

2:41:28 PM Alain Désilets says: Si je veux traduire du Farsi à toutes les langues....

2:41:36 PM thuan huynh says: bonne question. dans le cas de traduwiki, je me rends compte que les versions russes viennent plus rapidement que la version allemande ou française

2:41:55 PM Alain Désilets says: C'est peut-être plus rapide de traduire d'abord en anglais car il y aura plus de trads qui pourront traduire de l'anglais vers les autres langues.

2:42:25 PM Alain Désilets says: Si je traduis du Farsi à l'Israélien, ça risque de prendre plus de temps avant que le message se rendent à toutes les autres langues.

2:42:40 PM thuan huynh says: oui mais dans le cas où du Farsi, on doit d'abord obtenir le triplet Anglais-Espagnol-Japonais, on va mettre plus de temps

2:42:41 PM Alain Désilets says: Intéressant pour le russe.

2:42:53 PM Alain Désilets says: J'imagine

2:42:53 PM thuan huynh says: oui voila, on voit la meme chose

2:43:07 PM Alain Désilets says: Farsi->Anglais

2:43:25 PM Alain Désilets says: Anglais->Japonnais et Anglais->Espagnol de facon concurrente.

2:43:34 PM Alain Désilets says: Donc, temps de traduction = 2 sauts.

2:43:59 PM Alain Désilets says: Je pense qu'il faudrait plsu qu'une langue pivot.

2:44:21 PM thuan huynh says: qu'est-ce que tu penses de l'erreur que cela va générer ?

2:44:37 PM Alain Désilets says: Exemple... anglais pour l'occident, chinois pour l'orient, espagnol pour l'amerique du sud et une langue africaine quelconque.

2:44:56 PM Alain Désilets says: Erreur moindre car les chaines de traduction ont au plus une longueur de 2.

2:45:08 PM Alain Désilets says: Si on permet la trad de n

2:45:22 PM Alain Désilets says: de n'importe quelle langue à n'importe quelle langue...

2:45:38 PM thuan huynh says: du coup, on peut étendre le nombre de langue pivot encore plus

2:45:39 PM Alain Désilets says: on peut se retrouver avec de très longues chaines de trads, et donc une distortion plus grande du message.

2:45:45 PM Alain Désilets says: En effet.

2:45:59 PM Alain Désilets says: La longuer des chaines de trads ne dépend pas du nombre de langues pivot.

2:46:07 PM thuan huynh says: oui

2:46:07 PM Alain Désilets says: Hun...

2:46:10 PM Alain Désilets says: Pas vrai...

2:46:17 PM Alain Désilets says: Exemple...

2:46:34 PM Alain Désilets says: Farsi->Anglais->Chinois->Indien

2:46:45 PM Alain Désilets says: Ici, Anglais et Chinois sont deux langues pivot.

2:46:55 PM thuan huynh says: ok

2:47:25 PM Alain Désilets says: C'est complexe comme tu vois.

2:47:26 PM thuan huynh says: Farsi>Anglais>Indien

2:47:37 PM thuan huynh says: Farsi>Chinois>Indien

2:47:50 PM Alain Désilets says: Tu m'as toujours pas parlé de ton expérience avec la synchronisation au niveau des phrase?

2:48:13 PM Alain Désilets says: En passant, je vais sans doute organiser un workshop sur les wikis multilingues à WikiSym 2008.

2:48:14 PM thuan huynh says: cela accélère la traduction ?

2:48:25 PM Alain Désilets says: Porto, Portugal, Sept 2008... ça t'intéresse?

2:48:37 PM Alain Désilets says: Les langues pivot tu veux dire?

2:48:43 PM thuan huynh says: clairement, je ne sais pas encore si j'ai le temps.

2:49:21 PM Alain Désilets says: Je sais pas si ça accélère les trads d'avoir des langues pivot. Je soupçonne que oui, mais il n'y a pas beaucoup d'expérience réelle avec ce genre de trucs pour le moment.

2:49:34 PM Alain Désilets says: Traduwiki est sans doute l'expérience la plus avancée dans ce domaine.

2:49:46 PM thuan huynh says: je reprends : plus on garde le nombre d'étapes à un petit nombre et qu'on augmente les versions concurrentes, est-ce qu'on arrive plus rapidement à une version d'ordre ?

2:49:50 PM Alain Désilets says: C'est quoi ton expérience à toi avec ça sur TW?

2:49:51 PM thuan huynh says: d'ordre 3 ?

2:50:06 PM Alain Désilets says: Je pense que oui.

2:50:15 PM Alain Désilets says: Mais c'est plus une intuition qu'autre chose.

2:50:22 PM thuan huynh says: sur TW, plusieurs versions concurrentes partent du texte originale

2:50:43 PM Alain Désilets says: Les langues pivots forment en quelque sorte un point fixe qui faiit l'intégration des changements sur les autres langues.

2:51:04 PM Alain Désilets says: Si la trad part dans tous les sens, je crois que ça prendra plus de temps à converger.

2:51:04 PM thuan huynh says: et j'ai remarqué qu'un texte traduit dans une langue plus rare (ex polonais) passaient par des bouts de traductions de plusieurs autres langues

2:51:57 PM thuan huynh says: en clair, je comprends pas l'anglais, mais je lis l'allemand et l'espagnol, donc je combine les deux pour traduire en francais

2:51:58 PM Alain Désilets says: Dans le cas polonais, est-ce que les autres langues ont tendance à être des langues beaucoup parlées, ex: anglais, allemand?

2:52:09 PM thuan huynh says: oui

2:52:20 PM Alain Désilets says: Oui, des langues beaucoup parlées?

2:52:41 PM thuan huynh says: dans le cas de TW, c'est Anglais > Polonais ou Anglais > Russe > Polonais

2:52:55 PM thuan huynh says: le russe n'est pas beaucoup parlé

2:53:06 PM Alain Désilets says: Si le système forçait la trad à passer par l'anglais, il se peut que le trad polonais n'aurait pas à faire ce genre d'intégration entre différente langues.

2:53:10 PM thuan huynh says: mais par rapport à la pologne, c'est leur deuxième langue


2:53:20 PM Alain Désilets says: Parce que la version anglaise aurait tendance à être toujours très à jour.

2:53:30 PM Alain Désilets says: Mais peut-être pas.

2:53:44 PM Alain Désilets says: Est-ce que tu vas écrire des publications sur ton expérience avec TW?

2:53:52 PM thuan huynh says: le mieux est anglais > polonais mais anglais-russe-polonais n'est pas mal non plus

2:54:09 PM Alain Désilets says: Par exemple, le pattern que tu viens de décrire est une observation intéressante.

2:54:10 PM thuan huynh says: ce qui veut dire qu'une personne s'appuie sur ce qu'il connait de mieux

2:54:23 PM Alain Désilets says: Tu pourrais analyser les patrons de trad quantitativement et qualitativement.

2:54:41 PM thuan huynh says: du coup, on a du moins d'erreurs (anglais-polonais) mélangé avec du plus d'erreurs (anglais-russe-polonais)

2:55:05 PM Alain Désilets says: Est-ce qu'il y a tant de distorsion que ça dans les longues traductions?

2:55:09 PM thuan huynh says: la combinaison est peut-être meilleure que du 100% anglais-russe-polonais en admettant que le russe soit la langue pivot ici

2:55:25 PM thuan huynh says: je peux pas le dire, je ne comprends pas le russe et le polonais

2:55:30 PM thuan huynh says: (gros problème je l'admet)

2:56:44 PM thuan huynh says: oui, j'aimerais trouver un peu de temps pour analyser les patterns de trad

2:57:39 PM thuan huynh says: il faudrait réussir à ce que les utilisateurs puissent évaluer chaque traduction

2:58:05 PM Alain Désilets says: Je peux te trouver des traducteurs qui pourraient y jeter un coup d'oeil.

2:58:19 PM Alain Désilets says: Es-tu un étudiant, un prof, ou un professionel?

2:58:20 PM thuan huynh says: du coup, si une personne ne sait pas la langue d'origine, mais connait deux autres langues approximativement, elle peut prendre le meilleur des deux

2:58:29 PM Alain Désilets says: Comment se situe TW dans ton plan professionelÉ

2:59:04 PM thuan huynh says: étudiant, fini même si j'aime bien étudier, prof, non, et prof de la tradu, non

2:59:27 PM Alain Désilets says: Est-ce qu'écrire des articles figurent dans ton plan de développement professionel?

2:59:47 PM thuan huynh says: TW est un projet qui m'intéresse beaucoup et que j'espère développer éventuellement vers un système open source et payant pour des services ajoutés

3:00:01 PM thuan huynh says: oui pourquoi pas

3:00:30 PM Alain Désilets says: Je pense qu'il y aurait un intérêt certain pour des articles basés sur ton expérience avec TW.

3:01:04 PM thuan huynh says: je ne sais pas si j'ai accumulé suffisamment d'éléments fiables pour une étude quali et quanti

3:01:23 PM thuan huynh says: je ne connais pas le profil de mes utilisateurs très bien encore

3:01:39 PM Alain Désilets says: T'as combien d'utilisateurs?

3:01:46 PM Alain Désilets says: Ils viennent d'ou?

3:01:50 PM thuan huynh says: environ 300 visiteurs uniques / jour

3:01:53 PM Alain Désilets says: Quelles langues parlent ils?

3:02:03 PM Alain Désilets says: Combien traduisent?

3:02:17 PM Alain Désilets says: Quel est le nombre moyen de lignes qu'un traducteur fait?

3:02:29 PM thuan huynh says: ils viennent principalement de blogs traitant des projects tech, de l'éducation et de journaux

3:02:30 PM Alain Désilets says: Est-ce que les trads traduisent dans plusieurs langues ou juste une paire.

3:02:38 PM Alain Désilets says: Sais-tu s'ils sont des trads professionels ou non.

3:02:49 PM thuan huynh says: environ 60% traduisent en testant les fonctionnalités du site

3:02:57 PM thuan huynh says: 30% reviennent régulièrement

3:02:59 PM Alain Désilets says: Quelle est la longueur moyenne d'une chaine de trad?

3:03:03 PM Alain Désilets says: Longueur maximale?

3:03:14 PM Alain Désilets says: Est-ce qu'il y a un forum de discussion sur ton siteÉ

3:03:19 PM thuan huynh says: entre 6 phrases et 10

3:03:21 PM Alain Désilets says: Qu'est-ce que les gens y disent?

3:03:33 PM thuan huynh says: cela fait un scroll sur un écran 1024x680

3:03:56 PM Alain Désilets says: provenance géographique des traducteurs?

3:04:01 PM thuan huynh says: les utilisateurs traduisent dans une langue

3:04:05 PM thuan huynh says: principalement

3:04:11 PM Alain Désilets says: Quels genre de docs les gens ont tendnace à soumettre pour trad?

3:04:29 PM thuan huynh says: ceux qui viennent parce qu'on leur a donné l'info traduisent beaucoup plus que les autres

3:04:30 PM Alain Désilets says: Combien de temps en moyenne avant qu'un document ait été complètement traduit dans une première langue?

3:04:38 PM thuan huynh says: des essais

3:04:55 PM Alain Désilets says: Pour un document donné, combien de personnes en moyenne vont toucher à sa traduction dans une langue donnée?

3:05:07 PM thuan huynh says: le record est de 4 heures. Ce fut anglais->russes sur un traité d'alchimie

3:05:11 PM Alain Désilets says: Tu vois que t'as pas mal de données déjà!

3:05:33 PM Alain Désilets says: En tout cas, t'en as probablement plus que qui que ce soit au monde!

3:06:10 PM Alain Désilets says: Je dois prendre une pause de 5 mins... une collègue me pose une question urgente.

3:06:12 PM thuan huynh says: longueur du texte = 2 pages

3:10:00 PM thuan huynh says: ce que j'aimerais bien essayer est d'importer sur traduwiki tous les livres considérés comme complet sur wikibooks et de les faire traduire. comme cela va apporter plus de trafic, les patterns de traduction seront plus évidents - j'espère

3:13:31 PM Alain Désilets says: Très bonne idée.

3:13:58 PM Alain Désilets says: Si tu ne sais pas trop par ou commencer pour un article, je peux t'aider.

3:14:24 PM Alain Désilets says: Aucune obligation de ta part de me lister comme co-auteur. Tu déciderais par la suite sur la base de ma contribution.

3:14:33 PM Alain Désilets says: Je respecterais ton choix quel qu'il soit.

3:15:06 PM thuan huynh says: merci, dans un premier temps, je vais d'abord me consacrer à cette méthode de pivot

3:15:35 PM thuan huynh says: et trouver une solution pratique pour suggerer quelque chose à l'utilisateur sans le freiner

3:15:50 PM thuan huynh says: je te tiens au courant

3:16:57 PM Alain Désilets says: OK.

3:17:10 PM Alain Désilets says: Pour la synchronisation au niveau des phrases....

3:17:19 PM Alain Désilets says: Peux-tu me dire ou tu en es?

3:17:23 PM Alain Désilets says: Autre point.

3:17:46 PM Alain Désilets says: Est-ce Ok si je publie le contenu de cette session chat sur wiki-translation q.q.part?

3:18:07 PM thuan huynh says: je tente de résoudre une idée, de passer par une grille de pointeurs pour voir où les deux traductions ont été modifiées

3:18:19 PM thuan huynh says: oui pas de problèmes

3:19:04 PM Alain Désilets says: Comment fais-tu pour établir la correspondance entre les différentes versions des différentes phrases dans les différentes langues?

3:19:08 PM Alain Désilets says: Oh, je me souviens.

3:19:10 PM thuan huynh says: la grille prend en compte les dernières modifications et suggère aux utilisateurs de s'intéresser d'abord aux traductions les plus récentes

3:19:26 PM Alain Désilets says: Ton UI sépare déjà le texte en paragraphes.

3:19:36 PM thuan huynh says: je marque le texte d'origine environ toutes les deux phrases

3:19:52 PM thuan huynh says: oui, c'est justement cela ma grille

3:20:02 PM Alain Désilets says: OK.

3:20:08 PM Alain Désilets says: Nous avons un problème un peu différent.

3:20:21 PM Alain Désilets says: Les textes continuent de changer après que la traduction a commencé.

3:20:27 PM thuan huynh says: je pense par ailleurs qu'elle incite davantage les utilisateurs à participer parce qu'elle montre le texte en partie plus simple

3:20:42 PM Alain Désilets says: De plus, le modèle de données est page-centric.

3:20:57 PM Alain Désilets says: Il n'y a pas de moyen d'attribuer une clief à une phrase ou un paragraphe.

3:21:00 PM Alain Désilets says: Seulement à une page.

3:21:10 PM Alain Désilets says: C'est comme ça dans tous les engins wiki que je connais.

3:21:22 PM thuan huynh says: j'avais oublié de dire que c'était dans le but de laisser la version originale ouverte

3:21:57 PM thuan huynh says: en fait, il faut passer par une grille de référence

3:22:01 PM Alain Désilets says: En fait, le fait que la version original continue d'évoluer n'est peut-être pas le problème central.

3:22:13 PM thuan huynh says: et donc une sorte d'index des paragraphes quelque part dans ton système

3:22:14 PM Alain Désilets says: C'est plus le document-centric data model.

3:22:45 PM thuan huynh says: soit je comprends pas le modèle de document-centric soit je suis perdu

3:22:49 PM thuan huynh says: de quoi tu parles ?

3:22:56 PM Alain Désilets says: Dans wiki, il n'y a que des pages.

3:23:16 PM Alain Désilets says: Les paragraphes sont simplement marqués par une ligne blanche dans le contenu de la page.

3:23:52 PM thuan huynh says: et ensuite ?

3:23:53 PM Alain Désilets says: Les phrases elles n'existent même pas en ce qui concerne le wiki. Autrement dit, un point n'est pas un élément de wiki-markup (alors qu'une ligne blanche l'est).

3:24:16 PM Alain Désilets says: On peut parser une page wiki et déterminer les phrases et paragraphes.

3:24:37 PM Alain Désilets says: On pourrait alors assigner une clef unique à chaque phrase.

3:24:42 PM thuan huynh says: tu peux parser les phrases et donc ajouter un marqueur de phrases

3:24:53 PM Alain Désilets says: Mais comment faire pour être sur de reconnaitre une phrase à l'avenir?

3:25:24 PM Alain Désilets says: Il faudrait sans doute insérer des éléments de wiki-markup dans le contenu de la phrase, ce qui nuirait à la lisibilité du texte wiki.

3:25:37 PM Alain Désilets says: Tu vois ce que je veux dire?

3:25:44 PM thuan huynh says: plusieurs critères : soit la langue est la référence, soit le temps, soit l'avis des utilisateurs sur la qualité d'un texte

3:25:57 PM thuan huynh says: il y a peut-être une combinaison de critères

3:26:37 PM thuan huynh says: ah, ok, par rapport aux marqueurs de wiki, on peut les enlever lorsque l'utilisateur passe en mode édition

3:27:00 PM thuan huynh says: les marqueurs sont enlevés et ajoutés à nouveau lors de la sauvegarde

3:27:42 PM Alain Désilets says: Bonne idée.

3:27:54 PM Alain Désilets says: Pour masquer les marqueurs à l'édition.

3:28:18 PM Alain Désilets says: Mais pas facile à faire techniquement à l'intérieur d'un champs de texte dans un formulaire CGI.

3:29:39 PM thuan huynh says: tu peux le faire en passant par une formulaire invisible à l'utilisateur et en effectuant la différence entre les deux textes

3:29:53 PM Alain Désilets says: Huh?

3:30:53 PM thuan huynh says: par exemple, on affiche "J'écris. Le temps." et en même temps "J'écris.
marqueur Le temps."

3:31:25 PM thuan huynh says: si je modifie en "J'écris le temps" alors on connaît l'opérateur effectuée par l'utilisateur

3:31:36 PM thuan huynh says: plus clair ?

3:31:53 PM Alain Désilets says: OK, je vois. Très bon hack.

3:31:59 PM Alain Désilets says: Mais pas 100% fiable.

3:32:06 PM thuan huynh says: non pas totalement

3:32:07 PM Alain Désilets says: Surtout pour des documents courts.

3:32:21 PM Alain Désilets says: Mais peut-être que le manque de fiabilité n'est pas si grave.

3:32:26 PM Alain Désilets says: Faut y réfléchir.

3:32:30 PM Alain Désilets says: Merci du tuyau.

3:32:33 PM thuan huynh says: le gros problème est surtout que le point n'est pas un marqueur fiable pour la terminaison de phrases

3:32:59 PM Alain Désilets says: Je sais.

3:33:15 PM Alain Désilets says: Mais on a pas besoin d'intercepter la fin de toutes les unités phrasales.

3:33:29 PM thuan huynh says: qu'est-ce que tu prendrais comme terminaison fiable de phrases ?

3:33:32 PM Alain Désilets says: En autant qu'on a un point de séparation logique qui revient régulièrement.

3:33:48 PM Alain Désilets says: J'esssaie de me souvenir.

3:33:54 PM Alain Désilets says: Attends, je regarde dans mon code.

3:36:31 PM Alain Désilets says: J'ai utilisér l'expression régulière Perl suivante: '
.\n+'. Autrement dit, un point ou un newline.

3:36:48 PM Alain Désilets says: En wiki markup, un newline est généralement la fin d'un segment phrasal.

3:37:05 PM Alain Désilets says: Par exemple, la fin d'un bullet point

3:37:08 PM thuan huynh says: ouais, mais du coup "Mr. Pouteau" est considéré comme 2 phrases

3:37:22 PM Alain Désilets says: Mais pour du texte non-wik ça pourait être autre chose.

3:37:29 PM Alain Désilets says: Oui.

3:38:00 PM Alain Désilets says: Dans un ature projet, nous avons des heuristiques pour éviter ce genre de problème.

3:38:14 PM thuan huynh says: j'avais utilisé l'obligation de ne pas prendre les titres abrégés, ceux qui font 2 lettres par exemple mais cela ne fonctionne pas pour tous les textes non plus

3:38:18 PM Alain Désilets says: Par exemple, pour reconnaire les abbreviations communes en anglais et francais.

3:38:32 PM Alain Désilets says: Et aussi les acronymes comme C.N.R.C.

3:38:39 PM Alain Désilets says: Rien de compliqué.

3:38:47 PM Alain Désilets says: Liste d'abbrevs qui prennent un point.

3:38:48 PM thuan huynh says: oui, ça c'est bon de mon côté également

3:39:26 PM Alain Désilets says: Et une règle qui dit que si on voit une lettre majuscule suivie d'un point et suivie d'une autre majuscule et point, c'est pas un séparateur.

3:39:45 PM thuan huynh says: oui, j'ai fait la modif depuis sur mon système

3:39:57 PM Alain Désilets says: À part ça, je vois rien d'autre.

3:40:14 PM Alain Désilets says: Pas évident que c'est une grosse cassure quand on se goure de temps en temps.

3:40:19 PM thuan huynh says: j'aimerais juste trouver une sorte de terminateur universel pour trouver par exemple la fin des phrases en mandarin ou en japonais

3:40:25 PM thuan huynh says: clair

3:40:58 PM Alain Désilets says: Je suis pas un expert, mais il me semble qu'ils utilisent des points non?

3:41:07 PM thuan huynh says: non pas dans un texte en chinois

3:41:20 PM Alain Désilets says: Le problème avec ces langues là c'est plutôt de segmenter les phrases en mots non?

3:41:25 PM Alain Désilets says: Ah bon...

3:41:35 PM Alain Désilets says: Comment Google fait son compte alors?

3:41:43 PM thuan huynh says: bonne question, je ne sais pas

3:42:04 PM thuan huynh says: un ami chinois m'a dit que les traductions du chinois sont mauvaises

3:42:09 PM Alain Désilets says: T'es sur de ton affaire?

3:42:29 PM thuan huynh says: bah j'aimerais que tu me dises l'inverse et que je me plante bien comme il le faut

3:42:40 PM Alain Désilets says: J'ai fait une recherche Google pour segmenting chinese sentences et tout ce que je vois a rapport à la segmentation en mots.

3:42:48 PM Alain Désilets says: Rien sur la segmentation en phrases.

3:43:20 PM thuan huynh says: oui mais qu'est-ce que cela veut dire ? j'ai vu la segmentation en mots

3:43:39 PM thuan huynh says: en fait, il faudrait que j'apprenne le mandarin pour saisir le truc

3:45:16 PM Alain Désilets says: Il y a plein d'articles qui parlent du problème de segmenter une phrase chinoise en mots.

3:45:33 PM Alain Désilets says: Mais il n'y a aucun article qui parle du problème de segmenter un texte chinois en phrases.

3:45:46 PM Alain Désilets says: Est-ce une indication que ce 2e problème n'existe pas?

3:47:16 PM thuan huynh says: cela va peut-être poser un problème, je suis parti sur l'hypthèse qu'une segmentation d'un texte en courts passages incite les utilisateurs à traduire et donc accélère la traduction des textes

3:48:09 PM thuan huynh says: aie, je dois y aller, alain, je suis attendu ce soir

3:48:24 PM Alain Désilets says: Quand je regarde sur cette page:

3:48:25 PM Alain Désilets says: http://www.gov.cn/

3:48:40 PM Alain Désilets says: Je vois q.q.chose qui ressemble à un point. C'est un petit cercle vide.

3:48:52 PM Alain Désilets says: OK. A+.

3:49:06 PM Alain Désilets says: Je t'encourage à mettre tes idées sur wiki-translation.

Upcoming Events

No records to display