Precedente :: Successivo |
Autore |
Messaggio |
eins Eroe in grazia degli dei

Registrato: 24/08/09 22:22 Messaggi: 87 Residenza: dietro al PC
|
Inviato: 01 Mag 2011 19:40 Oggetto: * identificare frasi ripetute su Word |
|
|
In un lungo documento word, avrei la necessità di scoprire se vi sono frasi ripetute per errore. Quindi non singole parole, ma intere frasi (anche di diverse parole ciascuna), che si ripetano, ad esempio due volte di seguito oppure in punti differenti del medesimo documento. Non ho idea a priori di quali frasi possa trattarsi, ho solo il sospetto che possa esservi una qualche ripetizione in questo senso. Qualcuno ha qualche idea di come potrei affrontare il problema? Un grazie anticipato a tutti. |
|
Top |
|
 |
madvero Amministratore


Registrato: 05/07/05 21:42 Messaggi: 19510 Residenza: Sono brusco con voi solo perchè il tempo è a sfavore. Penso in fretta, quindi parlo in fretta
|
Inviato: 02 Mag 2011 23:50 Oggetto: |
|
|
questa mi manca proprio.
sapevo del sunto automatico, ma questo tipo di revisioni non mi son mai presa la briga di verificarle. |
|
Top |
|
 |
eins Eroe in grazia degli dei

Registrato: 24/08/09 22:22 Messaggi: 87 Residenza: dietro al PC
|
Inviato: 03 Mag 2011 02:54 Oggetto: |
|
|
madvero grazie per esserti almeno presa la briga di mandarmi due parole .. sapevo in anticipo che avevo chiesto la luna .. non che ci sperassi molto .. ma ho la necessità di confrontare due documenti "quasi" identici (e fin qui gli strumenti di confronto ci sono) .. ma in uno sono certo che da qualche parte c'è una frase (lunghetta diverse parole) ripetuta due volte (credo consecutivamente, ma non ne sono sicuro).
Un algoritmo che risolverebbe la questione è l'autocorrelazione del testo, che evidentemente darebbe un piccolo picco vicino all'origine .. ma per valutare l'autocorrelazione di questo testo non è che sia banalissimo .. anche esportandolo in formato ASCII e scrivendosi un programmino apposito .. qualcosa in mente di più rapido?? |
|
Top |
|
 |
Zeus Amministratore


Registrato: 21/10/00 02:01 Messaggi: 13287 Residenza: San Junipero
|
Inviato: 03 Mag 2011 08:59 Oggetto: |
|
|
Hai provato con questo tool di analisi del testo? E' il primo che ho trovato, ma immagino che non sia l'unico.
Citazione: | I wrote a simple tool that might help you with your advertising and publishing efforts. What this tool does is making a word and phrase analysis on any given text. Currently the tool can only use local files as a text source, but in future versions it would be able to fetch text directly from web pages. This text analysis tool will find any repeating words in a given text as well as repeating phrases. It can search for repeating phrases up to one hundred words. It sorts the repeating words descending according to the count of their occurrence in the text and calculates each word's density. This text analysis tool has a native utf-8 encoding support so it should be able to analyze text in literally most of the languages worldwide (I haven't done a lot of testing on that last one).
Typical usage:
> If you run pay-per-click campaigns you probably know that the ad-words robots estimate the relevance of your ad to the page you promote basically by finding repeating phrases and word across your PPC ad and the promoted web page. Thus this text analysis tool can give you a clue which words and phrases are most often repeated in the web page's text and which of them you should use to optimize your ads and lower your advertising costs.
> If you publish articles or do search-engine optimization (for example) you would probably want to know how many words is your article/web-page and which are the most repeated words and phrases.
> Also this tool can be used with another rather untypical purpose - program code analysis and optimization. For example if you want to make your code smaller you may use the text analysis tool to tell you which are the most repeated instances of code and thus shorten the variable names or substitute repeating chunks of code with something shorter.
Analysis mechanism and to-do-es:
> Currently the tool reads the entire text and strips all the punctuation while trying to preserve some special type of words like: URL addresses, e-mail addresses and numbers. So keep in mind that if the end of one sentence and the beginning of another appear more than once in a particular text, this may appear as a repeating phrase in the analysis result.
> Also the tool equalizes all the text to lower case while still trying to preserve the special type of words mentioned above. So the analyzer do not make any difference between the letter case (unless the words are "special"). In later versions of the program there should be an option for a case sensitive analysis.
> As I mentioned above the tool should be able to fetch text directly from web pages but for now this functionality is under development.
Installation and requirements:
> This text analysis tool is written in pure PHP. The program uses the GTK2 library for the graphical user interface as well as the multi-byte-string library for the cross language support. I bundled all the necessary libraries and executables with the program scripts so all you have to do is unzip run... I haven't tested this tool under Linux environment but I believe it would work pretty well as it works under Windows.
> The package doesn't mess with any registries and configuration files so it will not conflict with other installations of PHP for example, that you might have.
Final notes and terms of use:
> As I mentioned earlier this text analysis tool is still under development. There are a lot of fixes and optimization to be made. However it still serves it's general purpose pretty well at that state of development. You can give it a try and tell me what you think by posting replies here...
> This tool is free for use and redistribution. You can do whatever you like with it and the source code. You can tune it the way it serves you best. Thanks for your interest.
> And one more thing: I shouldn't be kept responsible for any harm that this text analysis tool may cause to you, to others, or any property. Use this tool solely at your own risk (when analyzing too much text)
The source and the executables can be obtained from http://forez.ws/Downloads/ |
|
|
Top |
|
 |
madvero Amministratore


Registrato: 05/07/05 21:42 Messaggi: 19510 Residenza: Sono brusco con voi solo perchè il tempo è a sfavore. Penso in fretta, quindi parlo in fretta
|
Inviato: 03 Mag 2011 22:12 Oggetto: |
|
|
di niente eins...
adesso ho capito che cosa ti serve: WinMerge
Citazione: | WinMerge is an Open Source differencing and merging tool for Windows. WinMerge can compare both folders and files, presenting differences in a visual text format that is easy to understand and handle.
WinMerge is highly useful for determining what has changed between project versions, and then merging changes between versions. WinMerge can be used as an external differencing/merging tool or as a standalone application. |
è gratuito, in italiano (l'help file però resta in inglese) e gira sia sotto win sia sotto linux. |
|
Top |
|
 |
eins Eroe in grazia degli dei

Registrato: 24/08/09 22:22 Messaggi: 87 Residenza: dietro al PC
|
Inviato: 03 Mag 2011 22:22 Oggetto: |
|
|
perfetto!! .. quel programmino scritto e messo a disposizione gratuitamente da http://forez.ws/ è esattamente ciò che fa per me .. dà un sacco di statistiche utilissime sulle ripetizioni sia di singole parole che di intere frasi .. solo un po' lentino a girare .. su un file ASCII di 100KB ci ha messo quasi 40 minuti .. ma a caval donato non si guarda in bocca .. grazie zeussino e grazie anche a te madvero .. mi avete risolto un problemone |
|
Top |
|
 |
eins Eroe in grazia degli dei

Registrato: 24/08/09 22:22 Messaggi: 87 Residenza: dietro al PC
|
Inviato: 03 Mag 2011 22:27 Oggetto: |
|
|
oops scusa madvero .. quando ho postato non avevo visto la tua risposta su WinMerge .. vado subito a vedermelo e poi do un riscontro .. grazie di nuovo |
|
Top |
|
 |
madvero Amministratore


Registrato: 05/07/05 21:42 Messaggi: 19510 Residenza: Sono brusco con voi solo perchè il tempo è a sfavore. Penso in fretta, quindi parlo in fretta
|
Inviato: 03 Mag 2011 22:49 Oggetto: |
|
|
provalo perchè io non l'ho testato personalmente e non so nè se sia veloce nè se sia preciso. io sono psicopatica, i file me li confronto a mano.
tolgo la formattazione, li affianco e li scrollo. |
|
Top |
|
 |
eins Eroe in grazia degli dei

Registrato: 24/08/09 22:22 Messaggi: 87 Residenza: dietro al PC
|
Inviato: 03 Mag 2011 23:37 Oggetto: |
|
|
madvero sto guardando WinMerge (il cui nome tra l'altro mi ricorda qualcosa che riemerge dalla notte dei tempi, forse più di venti anni fa, senza però concretizzarsi in qualcosa di certo) e lo sto trovando utilissimo .. credo che lo userò prestissimo .. ottimo per confrontare due file, cosa di cui ho spesso bisogno .. mentre per cercare ripetizioni all'interno di un singolo file mi sembra perfetto il precedente suggerito da zeussino .. a tutti e due i miei ringraziamenti .. rimango sempre sorpreso dalla vostra disponibilità personale .. ciao e buonanotte ad entrambi. |
|
Top |
|
 |
madvero Amministratore


Registrato: 05/07/05 21:42 Messaggi: 19510 Residenza: Sono brusco con voi solo perchè il tempo è a sfavore. Penso in fretta, quindi parlo in fretta
|
Inviato: 04 Mag 2011 22:11 Oggetto: |
|
|
oh, ti saluto in ritardo!
(ieri notte ero in altre faccende affacendata...
ok, lo ammetto, mi stavo guardando notte horror su raimovie)
son proprio contenta che in un paio di post tu abbia trovato ciò che ti serviva.
e se scopri cosa ti ricorda il filemerge, faccelo sapere !!!
 |
|
Top |
|
 |
|