все способы подсчета слов в документе

Наше бюро считало слова, когда это еще не было мейнстримом (по крайней мере в России). В далеком 2009 году, когда мы открылись, большинство других бюро рассчитывали стоимость перевода по количеству знаков с пробелами, ссылаясь на ГОСТ. Более того, не по исходному документу, а по переводу, но это уже, вероятно, был не гост, а чисто бизнес =). Ладно, это другая история, мы сразу решили считать по словам в исходном документе, чтобы фиксировать стоимость до начала работ, а потом и другие бюро подтянулись.

Итак, за годы работы мы считали слова, наверно, во всех возможных форматах файлов. Делимся советами.

Посмотреть статистику документа

Первый способ — проверить, нет ли в программе, которая по умолчанию работает с форматом вашего файла, статистики. Если речь идет про текстовые редакторы, то статистика есть во всех основных сервисах и программах.

Статистику обычно можно найти в пунктах меню "Вид", "Информация" или других вспомогательных, не относящихся к непосредственно редактированию текста.

Google docs

Инструменты → Статистика

количество слов в гугл документах
Microsoft Word

Рецензирование → Статистика

количество слов в microsoft word
Apple Pages

Вид → Скрыть/Показать количество слов

количество слов в apple pages
Libre Office

Сервис → Количество слов

количество слов в libre office

Все примерно то же самое и в других форматах файлов, которые обычно входят в "офисный пакет": презентации и таблицы.

Скопировать и вставить в текстовый редактор

Это так называемый "костыль" для диковинных форматов файлов или, например, страниц сайта. Подойдет для любого текста, по которому нет статистики, но который можно скопировать. Просто копируете и вставляете в текстовый редактор, который показывает статистику.

А что делать со сканами и фотографиями?

А вот с отсканированными или сфотографированными документами все гораздо интереснее. Тут уже ничего не посчитаешь средствами программ, которые открывают изображения или pdf-файлы, поэтому приходится прибегать к альтернативным способам подсчета.

Распознать документ в OCR-программе

OCR-программа, более известная в народе как "файнридер" поможет извлечь текст с помощью оптического распознавания символов (OCR — Optical Character Recognition).

Не стали писать "распознайте файнридером", чтобы не сложилось впечатление, что такую работу может выполнить только ABBYY FineReader, признанный лидер в этом сегменте. На рынке все же есть другие разработчики, в том числе бесплатные, в том числе онлайн. Пожалуй, наиболее известный проект с открытым исходным кодом (бесплатный) — это Tesseract (по ссылке вы найдете в том числе список программ, например, для ОС Linux), который придумала компания HP, но забросила, чтобы потом ее выкупил Google.

Итак, скан или фото можно распознать, а потом скопировать текст в текстовый редактор, чтобы посмотреть статистику. Существенные недостатки этого подхода: долго, дорого (легкие в освоении программы платные), может не справиться, если качество исходника не очень.

распознавание документа в ABBYY FineReader

Посчитать по строкам (настоящий лайфхак!)

Если нет времени, а под рукой нет программы для распознавания текста, выполните грубый подсчет по строкам. Это быстрый способ, но с высокой погрешностью. Подойдет для очень грубых подсчетов. Например, мы его используем, когда нужно оценить примерную стоимость, чтобы клиент мог принять быстрое решение: переводить вообще или нет.

Если кратко, то берете 3-5 самых длинных строк и считаете, сколько они содержат слов. Потом считаете среднее арифметическое значение. Потом считаете количество строк и умножаете на среднее значение.

подсчет слов по количеству строк

Наш пример:

  1. Кусок текста небольшой, возьмем 4 строки, определим, сколько они содержат слов, и сложим. 15+11+12+12 = 50. Поделим на количество выбранных строк. 50 / 4 = 12.5. Окей, среднее значение есть.
  2. Теперь посчитаем количество строк. А вот тут важно. Какие-то строки длиннее, какие-то короче. Руководствуйтесь здравым смыслом и объединяйте короткие строки в одну. У нас с объединением получилось 26 строк.
  3. Последний шаг. Умножаем среднее значение на количество строк. 26 * 12.5 = 325. Получается, что в этом тексте примерно 325 слов.

Это достаточно быстрый способ подсчета для отсканированных или сфотографированных документов до 10 страниц и для изображений ужасного качества, которые точно не распознаются. Больший объем быстрее распознать или посчитать по страницам (но подсчет по страницам подойдет не для всех документов).

Посчитать по страницам

Берется одна страница, производится расчет точного количества слов, который затем умножается на количество страниц.

Такой подход подойдет для:

  • множества однотипных документов, различающихся только несколькими словами (например, 100 однотипных экспортных деклараций);
  • книга в печатном виде (сканировать и распознавать — долго; считать по строкам — тоже долго).
2.7 / 6