Im Gegensatz zu Binärdateien1 enthalten Textdateien Buchstaben, Sonderzeichen und Steuerzeichen. Wie die Zeichen in der Textdatei codiert sind, legt die sogenannte Zeichencodierung über einen Zeichensatz fest. Häufige Zeichensätze sind beispielsweise ASCII, ISO-8895, Windows-1252, EBCDIC oder UTF-8, die weltweit verbreitetste Kodierung für Unicode-Zeichen. Textdateien können mit normalen Texteditoren gelesen werden. Diese Texteditoren stehen in allen Betriebssystemen zur Verfügung.
Auch wenn eine Datei mit einem Textverarbeitungsprogramm erstellt wird, ist sie nicht zwangsläufig eine Textdatei. PDF, PostScript oder DVI können auch Binärdateien sein. Wird ein Text über einen Scanner eingelesen, liegen diese Informationen meist als Bilddatei vor, sofern sie nicht mittels Texterkennungssoftware OCR in eine entsprechende Textdatei konvertiert werden.
Er enthält je nach Zeichensatz verschiedene Buchstaben (natürlichsprachliche Texte), Sonderzeichen wie Umlaute, Symbole oder Buchstaben aus anderen Alphabeten und einfache Formatierungszeichen wie z.B. Zeichen für “Neue Zeile”2 oder das Dateiende. Spezielle Formatierungen wie Schriftarten, Schriftgrößen und Schriftauszeichungen wie beispielsweise Fett oder Unterstreichung usw. sind nicht im einfachen Textformat enthalten. Für den plain Text können unterschiedliche Zeichensätze wie z.B. ASCII, UTF-8 oder Latin-1 verwendet werden.
Fragen Sie den Softwareanbieter nach den Dateiformaten, die die Software abbilden kann. Prüfen Sie, ob die Dateiformate und die verwendeten Zeichencodierungen mit Ihrer vorhandenen Software bzw. Ihrem System kompatibel sind. Bei einer Dateiübertragung zwischen Systemen übernimmt in der Regel das Übertragungsprogramm auch die notwendige Konvertierung der Textdatei.
Neben den Textformaten gibt es strukturierte Datenformate. Diese werden im folgenden Abschnitt beschrieben.
1 | Wie alle Dateien enthalten Binärdateien nur Nullen und Einsen, die aber nicht als Buchstaben oder Sonderzeichen interpretiert werden können. |
2 | für einen Zeilenumbruch |