Файлы doc и odt текстовые

Файлы doc и odt текстовые

Как говорится в википедии odt — открытый формат файлов, документов для хранения и обмена редактируемыми офисными документами, в том числе текстовыми документами (такими как заметки, отчёты и книги), электронными таблицами, рисунками, базами данных, презентациями.

Стандарт был разработан индустриальным сообществом OASIS и основан на XML-формате, 1 мая 2006 года принят как международный стандарт ISO/IEC 26300. В июле 2015 года стандартизован ODF версии 1.2

То есть этот формат файлов является бесплатным для использования, в отличии от платного формата doc, который использует Word. Говоря простым языком работа с файлами в формате Odt совершенна бесплатна. Этот формат является международным и его открыть может как платная программа так и бесплатная.

С файлами, у которых расширение Odt, работают бесплатные офисные пакеты OpenOffice и LibreOffice. Скачать и установить их может любой, совершенно бесплатно, на их официальных сайтах.

Что касается формата Doc или Docx,

эти форматы являются ограниченно бесплатными. Файлы с такими расширениями принадлежат платному программному обеспечению Microsoft Ofice.

Вот, что говорится в той же википедии:

В 1990-х годах фирма Microsoft стала использовать расширение «.doc» для серии проприетарных форматов файлов своего текстового процессора «Microsoft Word». В результате монополии Microsoft на рынке офисных продуктов слово «doc» стало обозначать формат файлов программы «Microsoft Word». Другие значения расширения «.doc» на платформе IBM PC практически вышли из употребления.

В 2008 году фирма Microsoft сделала доступной спецификацию формата «doc», однако бесплатно использовать её можно только для некоммерческих целей.

Хотя в нашей стране стремятся перейти на бесплатное программное обеспечение, принят и вступил в действие стандарт открытых офисных приложений, государственные учреждения продолжают использовать платное программное обеспечение.

Вот таблица использования приложения взятая из статьи с habrahabr.ru

Сайт Формат документа
1 Федеральное агентство связи PDF
2 Федеральная служба по надзору в сфере связи, информационных технологий и массовых коммуникаций DOC->RAR
3 Федеральная служба судебных приставов DOC->ZIP
4 Федеральная служба по тарифам XLS
5 Федеральное архивное агентство HTML
6 Федеральная служба по труду и занятости XLSX
7 Федеральная миграционная служба HTML DOC PDF
8 Федеральная налоговая служба HTML
9 Министерство связи и массовых коммуникаций DOC
10 Государственная фельдъегерская служба DOC
11 Федеральное дорожное агентство DOC
12 Министерство промышленности и торговли PDF
13 Министерство по делам гражданской обороны, чрезвычайным ситуациям и ликвидации последствий стихийных бедствий HTML
14 Федеральное агентство по обустройству государственной границы PDF
15 Федеральная антимонопольная служба PDF
16 Федеральное агентство по поставкам вооружения, военной, специальной техники и материальных средств XLS
17 Федеральная служба по финансовому мониторингу XLSX
18 Федеральная таможенная служба DOC XLS
19 Федеральное агентство по делам Содружества Независимых Государств PDF
20 Министерство обороны XLS->RAR
Читайте также:  Наушники apple как отличить оригинал от подделки

Пока никто не торопится переходить на использование открытого программного обеспечения.

На сегодняшний день все популярные офисные пакеты поддерживают оба формата файлов, разница только в том, что одни бесплатные а за другие придется заплатить.

Совет.

Если вы пользуетесь разными офисными программами. Чтоб файл открывался во всех офисных программах с наименьшими проблемами и потерями во всех приложениях, рекомендую сохранять в формате RTF.

Converteer online gratis uw doc- naar odt-bestanden

  • Image
  • Document
  • Ebook
  • Audio
  • Archive
  • Video
  • Presentation
  • Font
  • Vector
  • CAD
  • abc
  • abw
  • csv
  • dbk
  • djvu
  • dng
  • doc
  • docm
  • docx
  • erf
  • ebm
  • ewm
  • emw
  • gzip
  • kwd
  • odt
  • oxps
  • ppt
  • pptx
  • pdf
  • rtf
  • rar
  • txt
  • wps
  • xls
  • xlsx
  • zip
  • Image
  • Document
  • Ebook
  • Audio
  • Archive
  • Video
  • Presentation
  • Font
  • Vector
  • CAD
  • abc
  • abw
  • csv
  • dbk
  • djvu
  • dng
  • doc
  • docm
  • docx
  • erf
  • ebm
  • ewm
  • emw
  • gzip
  • kwd
  • odt
  • oxps
  • ppt
  • pptx
  • pdf
  • rtf
  • rar
  • txt
  • wps
  • xls
  • xlsx
  • zip

Microsoft Word Document

DOC is een extensie voor tekstverwerking documenten. Het wordt vooral geassocieerd met Microsoft Word-toepassing. DOC-bestanden kunnen ook grafieken en tabellen, video’s, foto’s, geluiden en diagrammen. Het ondersteunt bijna alle besturingssystemen.

ODF Text Document

Een bestand naar de tekst op te slaan gemaakt met behulp van gratis software op basis van OpenOffice. Het wordt gebruikt voor het opslaan van boeken, rapporten, notities en andere tekstuele informatie. Het bestand heeft een XML-structuur, wordt gebruikt als een alternatief DOC-formaat en heeft een open broncode.

Недавно возникла задача получения чистого текста из различных форматов документооборота — будь-то документы Microsoft Word или PDF. Задача была выполнена даже с чуть более широким списком возможных входных данных. Итак, этой статьёй я открываю список публикаций о чтении текста из следующих типов файлов: DOC, DOCX, RTF, ODT и PDF — с помощью PHP без использования сторонних утилит.

Читайте также:  Термос с металлической колбой отзывы

Для начала отвечу на вполне разумный вопрос: «Зачем это, собственно, надо?» Правильно, чистый текст, полученный из, к примеру, документа Word представляет собой достаточно перемешанную кашу. Но этого «бардака» вполне достаточно для построения, например, индекса для поиска по обширному хранилищу офисных документов.

Другой вполне разумный вопрос: «Почему не использовать сторонние утилиты, например, antiword или xpdf, ну или в крайнем случае OLE под Windows?» Таковы уж были поставленные условия, да и OLE работает люто-бешено медленно, даже если задачу можно решить с помощью этой технологии.

Сегодня, в качестве «затравки», я расскажу о достаточно простых для поставленной задачи форматах — это Office Open XML, больше известный как DOCX от Microsoft и OpenDocument Format, он же ODT от ODF Aliance.

Для начала заглянем вовнутрь парочки файлов и увидим буквально следующее (сзади docx, спереди odt):

Самое важное, что мы здесь видим, это первые два символа PK в начале данных. Это значит, что оба файла представляют собой переименованный в .docx/.odt zip-архив. Открываем, например, по Ctrl+PageDown в Total Commander и лицезреем вполне приемлемую структуру (слева odt, справа docx):

Итак, нужные нам файлы с данными — это content.xml в ODT и word/document.xml в DOCX. Чтобы прочитать текстовые данные из них напишем несложный код:

  1. function odt2text ( $filename ) <
  2. return getTextFromZippedXML ( $filename , "content.xml" ) ;
  3. >
  4. function docx2text ( $filename ) <
  5. return getTextFromZippedXML ( $filename , "word/document.xml" ) ;
  6. >
  7. function getTextFromZippedXML ( $archiveFile , $contentFile ) <
  8. // Создаёт "реинкарнацию" zip-архива.
  9. $zip = new ZipArchive ;
  10. // И пытаемся открыть переданный zip-файл
  11. if ( $zip -> open ( $archiveFile ) ) <
  12. // В случае успеха ищем в архиве файл с данными
  13. if ( ( $index = $zip -> locateName ( $contentFile ) ) !== false ) <
  14. // Если находим, то читаем его в строку
  15. $content = $zip -> getFromIndex ( $index ) ;
  16. // Закрываем zip-архив, он нам больше не нужен
  17. $zip -> close ( ) ;
  18. // После этого подгружаем все entity и по возможности include’ы других файлов
  19. // Проглатываем ошибки и предупреждения
  20. $xml = DOMDocument :: loadXML ( $content , LIBXML_NOENT | LIBXML_XINCLUDE | LIBXML_NOERROR | LIBXML_NOWARNING ) ;
  21. // После чего возвращаем данные без XML-тегов форматирования
  22. return strip_tags ( $xml -> saveXML ( ) ) ;
  23. >
  24. $zip -> close ( ) ;
  25. >
  26. // Если что-то пошло не так, возвращаем пустую строку
  27. return "" ;
  28. >

Всего каких-то 30 строк, и мы получаем текстовые данные из файла. Код работает под PHP 5.2+ и требует php_zip.dll под Windows или ключика —enable-zip под Linux. При отсутствии возможности использования ZipArchive (старая версия PHP или отсутствие библиотек) вполне может сгодиться библиотека PclZip, реализующая чтение zip-файлов без соответствующих средств в системе.

Читайте также:  Как с помощью блокнота создать игру

Отмечу, что данный код является лишь заготовкой для решения задач чтения текста. После череды статей под лозунгом «Текст любой ценой», я постараюсь описать принципы и реализацию чтения форматированного текста.

Ссылка на основную публикацию
Adblock detector